在python中删除不重要的词(收缩词、连词、停止词)

2024-09-29 01:33:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从文本文件中删除缩写,不一定是因为撇号,但在我的情况下,我不需要这些类型的词。你知道吗

我知道你可以用压缩包把它们扩展成完整的单词,比如:

import contractions

fixed_conts = contractions.fix(text)

然而,这并不能移除它们。我知道我可以做一个巨大的列表,然后用暴力来完成,但我只是想知道是否有更优雅的东西在那里,像任何包的建议

基本上,我想要的一个示例输出是:

不是这个

He isn't scrumming with us today - > He is not scrumming with us today 

而是这个

He scrumming today

这是一个蹩脚的例子,但它基本上是为了帮助寻找独特的词,这是更大的功能的一部分。你知道吗


Tags: import类型todaywith情况fix单词fixed
1条回答
网友
1楼 · 发布于 2024-09-29 01:33:16

你可以创建一个包含所有缩略语的列表,然后创建一个列表中没有任何单词的新文本

contractions = ["you're", "aren't", ...]
cleaned_up = [word for word in text if word not in contractions]

cleaned_up = " ".join(cleaned_up)

相关问题 更多 >