doc_clean = []
stopwords_corpus = UrduCorpusReader('./data', ['stopwords-ur.txt'])
stopwords = stopwords_corpus.words()
# print(stopwords)
for infile in (wordlists.fileids()):
words = wordlists.words(infile)
print(infile)
#print(words)
finalized_words = remove_urdu_stopwords(stopwords, words)
print("\n==== WITHOUT STOPWORDS ===========\n")
print(finalized_words)
doc_clean.append(finalized_words)
fdist1 = FreqDist(doc_clean)
print(fdist1)
我试着计算每个单词在词汇。说我有10个文档,首先我执行了标记化,然后从这些文档中删除了一些停止词,我在nltk中读到关于频度分布的文章,我试图用这个来计算每一项的频率文件。但是我收到错误类型错误:不可损坏类型:“列表”
我猜您是想构建一个包含所有单词的列表(在清理之后),但是这行代码将每个列表的元素作为
doc_clean
的元素追加到中:基本上,
^{pr2}$FreqDist
将计算列表中的不同元素,因此如果这些元素是列表,则有问题。要从所有文档中构建单词的单个列表,请将append()
替换为extend()
:相关问题 更多 >
编程相关推荐