如何正确使用NLTK停用词？

1条回答

网友

1楼 · 发布于 2024-05-08 04:43:30

没有正确的方法来使用停止语。这取决于你想完成什么任务。然而，根据您提供的信息，NLTK似乎在假设您正在用空格和标点符号分割文档。但是，我可以猜测非索引字列表也将包含诸如could和{}之类的单词。我的方法是先使用NLTK的tokenize包创建语料库的标记，然后运行difference_update：

words = set(nltk.word_tokenize(document))

请注意，根据标记化模型，函数可以将诸如couldn't等否定词拆分为['could',"n't"]。因此，如果stopword列表不包括n't字符串，那么您也必须将其从集合中删除。在

我的另一个假设是你的语料库只包含小写单词。在

希望有帮助！在

编程相关推荐

java WebSphere ClassNotFoundException在启动后调用WebService时（但不在以后）
java无法通过jpa存储库删除记录
爪哇什么是阿克卡。派遣调度员$$anon$1？
java VLCj：如何设置运动模糊？
使用JavaFX时java If语句不起作用？
mysql java。lang.ExceptionInInitializerRor在Spring+Hibernate+jersey中
Java中的类组织
使用JDom的javaxpath
用于读取UTF8 cvs和excel文件的java字节顺序标记
未设置中的java Jboss配置文件java_OPTS=%java_OPTS%Xms128m Xmx512m XX:PermSize=1024m XX:MaxPermSize=2048m？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何正确使用NLTK停用词？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >