获取频率分布错误,类型错误:不可损坏类型:“list”

2024-06-26 17:41:38 发布

您现在位置:Python中文网/ 问答频道 /正文

doc_clean = []
stopwords_corpus = UrduCorpusReader('./data', ['stopwords-ur.txt'])    
stopwords = stopwords_corpus.words()
# print(stopwords)
for infile in (wordlists.fileids()):
    words = wordlists.words(infile)
    print(infile)
    #print(words)
    finalized_words = remove_urdu_stopwords(stopwords, words)
    print("\n==== WITHOUT STOPWORDS ===========\n")
    print(finalized_words)
    doc_clean.append(finalized_words)
fdist1 = FreqDist(doc_clean) 
print(fdist1) 

我试着计算每个单词在词汇。说我有10个文档,首先我执行了标记化,然后从这些文档中删除了一些停止词,我在nltk中读到关于频度分布的文章,我试图用这个来计算每一项的频率文件。但是我收到错误类型错误:不可损坏类型:“列表”


Tags: 文档clean类型datadoc错误corpusinfile
1条回答
网友
1楼 · 发布于 2024-06-26 17:41:38

我猜您是想构建一个包含所有单词的列表(在清理之后),但是这行代码将每个列表的元素作为doc_clean的元素追加到中:

doc_clean.append(finalized_words)

基本上,FreqDist将计算列表中的不同元素,因此如果这些元素是列表,则有问题。要从所有文档中构建单词的单个列表,请将append()替换为extend()

^{pr2}$

相关问题 更多 >