词性标注与实体识别python - 问答 - Python中文网

词性标注与实体识别python

2024-09-27 09:35:22 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想在python中执行词性标注和实体识别，类似于R中openNLP的Maxent_POS_Tag_Annotator和Maxent_entity_Annotator函数。我更喜欢python中的代码，它将输入作为文本语句，并将输出作为不同的特征-如“CC”的数量、“CD”的数量、“DT”的数量等。。CC、CD、DT是Penn Treebank中使用的POS标记。因此应该有36列/特征对应于36个POS标记，如Penn Treebank POS。我想在azureml“executepythonscript”模块上实现这个功能，azureml支持python2.7.7。我听说python中的nltk可以胜任这项工作，但我是python的初学者。任何帮助都将不胜感激。在

Tags：标记 pos 实体数量 dt cd 特征 azureml

1条回答

网友

1楼 · 发布于 2024-09-27 09:35:22

看看NTLK book，分类和标记单词部分。在

简单的例子是，它使用Penn Treebank标记集：

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]

然后你可以使用

^{pr2}$

要获得频率：

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})

相关问题更多 >

编程相关推荐

热门问题

热门文章