我想在python中执行词性标注和实体识别,类似于R中openNLP的Maxent_POS_Tag_Annotator和Maxent_entity_Annotator函数。我更喜欢python中的代码,它将输入作为文本语句,并将输出作为不同的特征-如“CC”的数量、“CD”的数量、“DT”的数量等。。CC、CD、DT是Penn Treebank中使用的POS标记。因此应该有36列/特征对应于36个POS标记,如Penn Treebank POS。我想在azureml“executepythonscript”模块上实现这个功能,azureml支持python2.7.7。我听说python中的nltk可以胜任这项工作,但我是python的初学者。任何帮助都将不胜感激。在
看看NTLK book,分类和标记单词部分。在
简单的例子是,它使用Penn Treebank标记集:
然后你可以使用
^{pr2}$要获得频率:
相关问题 更多 >
编程相关推荐