雪球茎干：糟糕的法语词干

1条回答

网友

1楼 · 发布于 2024-10-06 11:47:29

词干分析器的词干是单词而不是句子，所以要对句子进行标记，并对标记进行单独的词干处理。在

>>> from nltk import word_tokenize
>>> from nltk.stem import SnowballStemmer

>>> fr = SnowballStemmer('french')

>>> sent = "pommes, noisettes dorées & moelleuses, la boîte de 350g"
>>> word_tokenize(sent)
['pommes', ',', 'noisettes', 'dorées', '&', 'moelleuses', ',', 'la', 'boîte', 'de', '350g']

>>> [fr.stem(word) for word in word_tokenize(sent)]
['pomm', ',', 'noiset', 'dor', '&', 'moelleux', ',', 'la', 'boît', 'de', '350g']

>>> ' '.join([fr.stem(word) for word in word_tokenize(sent)])
'pomm , noiset dor & moelleux , la boît de 350g'

编程相关推荐

java如何在设置AtomicBoolean之前检查另一个条件？
通过java将文件从windows计算机复制到另一台windows计算机
java如何在使用Cobertura时忽略与记录器相关的If条件？
java无法在Eclipse中导出Android应用程序
带GSON的java parse JSON返回null
java Extract/filter Splunk查询和条件逻辑
java ProgressBar带有一个倒计时器Android
java我应该为每个DAO编写通用方法的集成测试吗？
java从命令行访问执行JAR的文本文件
任务应用程序的java Gradle生成失败：processReleaseResources

相关问题更多 >

编程相关推荐

热门问题

热门文章

雪球茎干：糟糕的法语词干

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >