python中停止词的实现

网友

1楼 · 编辑于 2024-04-20 01:40:07

文件操作总是比正常的代码执行慢得多。如果你需要的是小文件，那就永远不需要了。在

如果以下任一项为真，则使用文件：

如果你只有有限数量的停止词，如果你不需要经常改变它们，那就永远坚持下去

stopwords = ('a','and', 'etc')

网友

2楼 · 编辑于 2024-04-20 01:40:07

如果您不想下载nltk，stopword文件可以在任何地方找到。他们通常每行列出一个单词，这样就很容易把它们放在自己的结构中。在

stopwords = ()
for line in open('stopwordfile'):
    stopwords += (line,)

然而，比在元组中查找单词更快的是使用字典，可能最好使用默认返回值：

^{pr2}$

网友

3楼 · 编辑于 2024-04-20 01:40:07

NLTK将非索引字作为列表。在

nltk.corpus.stopwords.words('english')

它比使用一个文件并从中读取，同时检查停止字，如果你是这个意思的话。在