python中停止词的实现

2024-04-20 01:40:07 发布

您现在位置:Python中文网/ 问答频道 /正文

对于python中的停止词列表,什么更快:

 stopwords = ('a','and', 'etc')

或者用一个文件来调用它?在


Tags: and文件列表etcstopwords
3条回答

文件操作总是比正常的代码执行慢得多。如果你需要的是小文件,那就永远不需要了。在

如果以下任一项为真,则使用文件:

  • 需要在不更改实际代码的情况下修改输入数据
  • 要处理的大量数据
  • 数据正由另一个进程/应用程序提供

如果你只有有限数量的停止词,如果你不需要经常改变它们,那就永远坚持下去

stopwords = ('a','and', 'etc')

如果您不想下载nltk,stopword文件可以在任何地方找到。他们通常每行列出一个单词,这样就很容易把它们放在自己的结构中。在

stopwords = ()
for line in open('stopwordfile'):
    stopwords += (line,)

然而,比在元组中查找单词更快的是使用字典,可能最好使用默认返回值:

^{pr2}$

NLTK将非索引字作为列表。在

nltk.corpus.stopwords.words('english')

它比使用一个文件并从中读取,同时检查停止字,如果你是这个意思的话。在

相关问题 更多 >