Python中文
首页
教程
问答
标签
搜索
登录
注册
名称识别:如何标记训练集并选择算法?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>对于包含公司名称的文本,我想训练一个自动标记承包商(执行任务的公司)和负责人(公司雇用承包商)的模型。在</p> <p>例如:</p> <blockquote> <p>Blossom Inc. hires the consultants of Big Think to develop an outsourcing strategy.</p> </blockquote> <p>以Blossom Inc为委托人,Big Think作为承包商。在</p> <p>我的第一个问题:<strong>仅标记我的培训集中的负责人和承包商就足够了,还是另外使用词性标记更好?</strong></p> <p>换句话说,要么</p> <blockquote> <p>Blossom/PRINCIPAL Inc./PRINCIPAL hires/NN the/NN consultants/NN of/NN Big/CONTRACTOR Think/CONTRACTOR to/NN develop/NN an/NN outsourcing/NN strategy/NN ./.</p> </blockquote> <p>或者</p> <blockquote> <p>Blossom/PRINCIPAL Inc./PRINCIPAL hires/VBZ the/DT consultants/NNS of/IN Big/CONTRACTOR Think/CONTRACTOR to/TO develop/VB an/DT outsourcing/NN strategy/NN ./.</p> </blockquote> <p>第二个问题:<strong>一旦我有了训练集,nltk包的哪种算法最有前途?</strong>N-Gram标签,Brill标签,TnT标签,Maxent分类器,Naive Bayes。。。?还是我完全走错了路?在</p> <p>我是新来的NLP,我只是想在我投入大量时间来标记我的训练集之前征求意见。我的文本是德语,这可能会增加一些困难。。。谢谢你的建议!在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>命名实体识别(Stanford)已经足够解决您的问题了。在</p> <p>使用词性标记不会帮助您解决问题。在</p> <p>生成NER模型所需的足够数量的训练数据将给您带来良好的结果。在</p> <p>如果你使用Stanford-NER,那么它使用CRF分类器和算法。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何为此数据帧创建散点图?
2 回答
如何为此编写Django模板
8 回答
如何为此表达式编写正则表达式?
9 回答
如何为步进电机选择合适的值?
9 回答
如何为每15分钟间隔的日期时间行(在新列中)添加标签?
9 回答
如何为每一列创建汇总表?
7 回答
如何为每一组groupbyPandas做滚动“得到假人”
8 回答
如何为每一行分别运行函数(python)?
2 回答
如何为每一行生成一个随机数?
6 回答
如何为每一轮将pytorch模型输出存储到numpy
10 回答
如何为每个.py-fi文件创建单独的zip文件
3 回答
如何为每个<li class=”“><a>找到最近的上述同级<li>?
3 回答
如何为每个CSV列生成特定的文件?
7 回答
如何为每个csv文件使用read_csv,即使它是空的?PythonPandas
10 回答
如何为每个CSV文件创建单独的Pandas数据帧并给它们起有意义的名称?
2 回答
如何为每个datetime和每个id创建一行?
5 回答
如何为每个Django型号选择赋予不同的颜色
1 回答
如何为每个Django模型实例安排一个周期性的芹菜任务?
4 回答
如何为每个Django视图设置一个装饰器?
1 回答
如何为每个for循环迭代分配变量
4 回答