我想从文本文件中删除缩写,不一定是因为撇号,但在我的情况下,我不需要这些类型的词。你知道吗
我知道你可以用压缩包把它们扩展成完整的单词,比如:
import contractions
fixed_conts = contractions.fix(text)
然而,这并不能移除它们。我知道我可以做一个巨大的列表,然后用暴力来完成,但我只是想知道是否有更优雅的东西在那里,像任何包的建议
基本上,我想要的一个示例输出是:
不是这个
He isn't scrumming with us today - > He is not scrumming with us today
而是这个
He scrumming today
这是一个蹩脚的例子,但它基本上是为了帮助寻找独特的词,这是更大的功能的一部分。你知道吗
你可以创建一个包含所有缩略语的列表,然后创建一个列表中没有任何单词的新文本
相关问题 更多 >
编程相关推荐