有什么方法可以过滤掉python中的单词吗？ - 问答 - Python中文网

有什么方法可以过滤掉python中的单词吗？

2024-09-28 22:19:20 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

有没有什么方法可以过滤掉python中的冠词（the，a，an）、代词、连接词（and，but）和其他非主题词？或者有一个python包可以帮上忙吗？在

我知道我可以使用过滤器和其他东西，但我需要一个所有单词的长列表。有没有一个已经包含这些词的包裹？我需要删除这些单词，这样所消耗的内存将能够处理删除这些单词的列表，从而使其更轻。在

谢谢

Tags： and the 方法内存 an 过滤器列表单词

1条回答

网友

1楼 · 发布于 2024-09-28 22:19:20

您要查找的术语称为停止删除单词。在

实现这一点的强大库是NLTK

它可以处理输入文本的更复杂的标记化，轻松删除停止字等：

import nltk
from nltk.corpus import stopwords

sentence = """At eight o'clock on Thursday morning ... Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)

filtered_tokens = [w for w in tokens if not w.lower() in stopwords.words('english')]

print tokens
print filtered_tokens

这将打印：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章