Python中针对民族的智能词干/柠檬化

2024-10-06 11:43:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究Python,我想找出一些单词的词根,它们主要指的是国家。一些例子可以说明我需要的是:

  • 西班牙人应该给我西班牙。在
  • 英语应该给我英格兰。在
  • 美国人应该给我美国。在
  • 尼日利亚人应该给我尼日利亚。在
  • 希腊人(复数)应该给我希腊。在
  • 波多黎各人(复数)应该给我波多黎各
  • 葡萄牙应该给我葡萄牙语。在

我对NLTK模块的Porter、Lancaster和Snowball词干分析器做了一些实验。但是波特和斯诺鲍根本不换代币,而兰开斯特太咄咄逼人了。例如,美国的兰开斯特词干是“Am”,这是相当严重的屠宰。我也玩过一些WordNet词缀,但没有成功。在

有没有办法得到上述结果,即使它只对国家有效?在


Tags: 模块分析器国家am单词wordnet例子复数
1条回答
网友
1楼 · 发布于 2024-10-06 11:43:03

您可能需要查看Unicode的CLDR(公共区域设置数据存储库): http://cldr.unicode.org/

它有可能有用的地区和语言列表,因为您可以使用它们共享的标准iso639代码(en、de、fr等)将它们映射到一起。在

下面是一个有用的JSON存储库:

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看领土.json语言.json文件在那里。在

相关问题 更多 >