有没有办法告诉NLTK某个词不是专有名词而是名词?

2024-09-30 06:12:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一些NLP,在那里我发现病人被诊断为多发性硬化症。在

我想用nltk来告诉我,一个句子的名词是多发性硬化症。问题是,医生经常把多发性硬化症称为多发性硬化症,nltk把它当作专有名词。在

例如,这句话,“他的MS是在1999年被诊断出来的。”被标记为:[('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]

MS应该是个名词。有什么建议吗?在


Tags: 标记nlp句子ms医生nltkwas名词
1条回答
网友
1楼 · 发布于 2024-09-30 06:12:42

综上所述,您有以下几种选择:

  1. 在后处理中更正标签-有点难看,但又快又容易。在
  2. 使用一个外部的名称实体识别器(Stanford NER是@Bob Dylan深思熟虑地建议的)-这一个更复杂,特别是因为Stanford NER是java语言,速度不是特别快。在
  3. 在特定于域的数据上重新训练POS标记器(您是否有足够大的带注释的数据集来使用它?)在
  4. 使用WSD(词义消歧)方法-首先你需要有一个好的领域字典来使用。在

相关问题 更多 >

    热门问题