Python中针对民族的智能词干/柠檬化 - 问答 - Python中文网

Python中针对民族的智能词干/柠檬化

2024-10-06 11:43:03 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在研究Python，我想找出一些单词的词根，它们主要指的是国家。一些例子可以说明我需要的是：

西班牙人应该给我西班牙。在
英语应该给我英格兰。在
美国人应该给我美国。在
尼日利亚人应该给我尼日利亚。在
希腊人（复数）应该给我希腊。在
波多黎各人（复数）应该给我波多黎各
葡萄牙应该给我葡萄牙语。在

我对NLTK模块的Porter、Lancaster和Snowball词干分析器做了一些实验。但是波特和斯诺鲍根本不换代币，而兰开斯特太咄咄逼人了。例如，美国的兰开斯特词干是“Am”，这是相当严重的屠宰。我也玩过一些WordNet词缀，但没有成功。在

有没有办法得到上述结果，即使它只对国家有效？在

Tags：模块分析器国家 am 单词 wordnet 例子复数

1条回答

网友

1楼 · 发布于 2024-10-06 11:43:03

您可能需要查看Unicode的CLDR（公共区域设置数据存储库）： http://cldr.unicode.org/

它有可能有用的地区和语言列表，因为您可以使用它们共享的标准iso639代码（en、de、fr等）将它们映射到一起。在

下面是一个有用的JSON存储库：

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看领土.json和语言.json文件在那里。在

相关问题更多 >

编程相关推荐

热门问题

热门文章