NLTK词干处理不通过简单的cas

1条回答

网友

1楼 · 发布于 2024-10-06 11:55:10

尝试在词干提取之前运行拼写检查器（例如pyenchant）：

>>> import enchant
>>> from nltk.stem import SnowballStemmer

>>> d = enchant.Dict("en_US")
>>> d.suggest('lightin')
['lighting', 'lighten', 'light in', 'light-in', 'lightning', 'lightering', 'sighting', 'light', 'flitting', 'Litton']

>>> snowball = SnowballStemmer('english')
>>> snowball.stem(d.suggest('lightin')[0])
u'light'

>>> sent = "Turn on the lightin".split()
>>> [snowball.stem(word if d.check(word) else d.suggest(word)[0]) for word in sent]
[u'turn', 'on', u'the', u'light']

编程相关推荐

java如何在设置AtomicBoolean之前检查另一个条件？
通过java将文件从windows计算机复制到另一台windows计算机
java如何在使用Cobertura时忽略与记录器相关的If条件？
java无法在Eclipse中导出Android应用程序
带GSON的java parse JSON返回null
java Extract/filter Splunk查询和条件逻辑
java ProgressBar带有一个倒计时器Android
java我应该为每个DAO编写通用方法的集成测试吗？
java从命令行访问执行JAR的文本文件
任务应用程序的java Gradle生成失败：processReleaseResources

相关问题更多 >

编程相关推荐

热门问题

热门文章

NLTK词干处理不通过简单的cas

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >