NLTK标记化“不可损坏类型：'list'”

df = pd.read_csv('CountryResponses.csv', encoding='utf-8', skiprows=0, error_bad_lines=False) tokenizer = RegexpTokenizer(r'\w+') df['tokenized_sents'] = df['Responses'].apply(nltk.word_tokenize) words = df['tokenized_sents'] #remove 100 most common words based on Brown corpus fdist = FreqDist(brown.words()) mostcommon = fdist.most_common(100) mclist = [] for i in range(len(mostcommon)): mclist.append(mostcommon[i][0]) words = [w for w in words if w not in mclist] Out: ['the', ',', '.', 'of', 'and', ...] #keep only most common words fdist = FreqDist(words) mostcommon = fdist.most_common(100) mclist = [] for i in range(len(mostcommon)): mclist.append(mostcommon[i][0]) words = [w for w in words if w not in mclist] TypeError: unhashable type: 'list'

TypeError Traceback (most recent call last) <ipython-input-164-a0d17b850b10> in <module>() 1 #keep only most common words ----> 2 fdist = FreqDist(words) 3 mostcommon = fdist.most_common(100) 4 mclist = [] 5 for i in range(len(mostcommon)): /home/*******/anaconda3/envs/*******/lib/python3.5/site-packages/nltk/probability.py in __init__(self, samples) 104 :type samples: Sequence 105 """ --> 106 Counter.__init__(self, samples) 107 108 def N(self): /home/******/anaconda3/envs/******/lib/python3.5/collections/__init__.py in __init__(*args, **kwds) 521 raise TypeError('expected at most 1 arguments, got %d' % len(args)) 522 super(Counter, self).__init__() --> 523 self.update(*args, **kwds) 524 525 def __missing__(self, key): /home/******/anaconda3/envs/******/lib/python3.5/collections/__init__.py in update(*args, **kwds) 608 super(Counter, self).update(iterable) # fast path when counter is empty 609 else: --> 610 _count_elements(self, iterable) 611 if kwds: 612 self.update(kwds) TypeError: unhashable type: 'list'

1条回答

网友

1楼 · 发布于 2024-09-30 02:32:55

FreqDist函数接受可散列对象的iterable（使其成为字符串，但它可能与任何对象一起工作）。您得到的错误是因为您传入了一个列表的iterable。正如您所建议的，这是因为您所做的更改：

df['tokenized_sents'] = df['Responses'].apply(nltk.word_tokenize)

如果我正确理解了Pandas apply function documentation，那么这一行将nltk.word_tokenize函数应用于某个系列word-tokenize返回单词列表

作为解决方案，在尝试应用FreqDist之前，只需将列表添加到一起，如下所示：

allWords = []
for wordList in words:
    allWords += wordList
FreqDist(allWords)

一个更完整的修订，做你想做的。如果您只需要识别第二组100，请注意mclist将在第二次识别

df = pd.read_csv('CountryResponses.csv', encoding='utf-8', skiprows=0, error_bad_lines=False)

tokenizer = RegexpTokenizer(r'\w+')
df['tokenized_sents'] = df['Responses'].apply(nltk.word_tokenize)

lists =  df['tokenized_sents']
words = []
for wordList in lists:
    words += wordList

#remove 100 most common words based on Brown corpus
fdist = FreqDist(brown.words())
mostcommon = fdist.most_common(100)
mclist = []
for i in range(len(mostcommon)):
    mclist.append(mostcommon[i][0])
words = [w for w in words if w not in mclist]

Out: ['the',
 ',',
 '.',
 'of',
 'and',
...]

#keep only most common words
fdist = FreqDist(words)
mostcommon = fdist.most_common(100)
mclist = []
for i in range(len(mostcommon)):
    mclist.append(mostcommon[i][0])
# mclist contains second-most common set of 100 words
words = [w for w in words if w in mclist]
# this will keep ALL occurrences of the words in mclist

相关问题更多 >

编程相关推荐

热门问题

热门文章