我目前在一个包含超过10000条新闻的数据集中工作,我想删除只包含一个词的句子。我搜索了nltk和textcleaner,但是我不能删除只包含一个单词的句子。在
例如,假设: 输入:我想删除一个单词的句子。可以。好吧。让我来是的。 输出:我想删除一个单词的句子。开始吧。
代码是:
import textcleaner as tc
import nltk
import numpy as np
datafile = np.genfromtxt("f12filtered.txt", encoding='utf-8', delimiter=".")
data = tc.document(datafile)
data.remove_stpwrds()
可以使用分隔符“.”将数据拆分为一系列句子。然后,如果一个句子中只有一个单词,则可以删除该句子。数据现在将是一个列表,如果您想处理完整的文本或按原样使用它,您可以加入该列表。可以使用以下代码执行此操作:
连接数据以形成单个字符串:
^{pr2}$相关问题 更多 >
编程相关推荐