在Python中查找词干后的词频

[u'anyon', u'think', u'forgotten', u'day', u'parti', u'friend', u'friend', u'paymast', u'us', u'longer', u'memori'] [u'valu', u'friend', u'bought', u'properti', u'actual', u'relev', u'repres', u'actual', u'valu', u'properti'] [u'monster', u'wreck', u'reef', u'cargo', u'vessel', u'week', u'passeng', u'ship', u'least', u'24', u'hour', u'upload', u'com']

3条回答

网友

1楼 · 编辑于 2024-09-30 10:38:13

您可以先使用^{}来flatten your 2D array：

fdist = nltk.FreqDist(chain.from_iterable(stem_list)):
    for word, frequency in fdist.most_common(50):
        print(u'{};{}'.format(word, frequency))

网友

2楼 · 编辑于 2024-09-30 10:38:13

您只需将所有内容串联在一个列表中：

stem_list = [inner for outer in stem_list for inner in outer]

以同样的方式处理。在

否则，您可以保留相同的代码，但不是打印，而是创建dict并用您获得的值填充它。每次你得到一个新词，你创建一个键，然后你添加值。在

^{pr2}$

网友

3楼 · 编辑于 2024-09-30 10:38:13

我认为最简单的方法是在将数组传递给函数之前组合数组。在

allwords = [inner for outer in stem_list for inner in outer]

fdist = nltk.FreqDist(allwords)
    for word, frequency in fdist.most_common(50):
        print(y'{};{}'.format(word, frequency))

或更短：

^{pr2}$

我认为你的意见是：

stem_list = [[u'anyon', u'think', u'forgotten', u'day', u'parti', u'friend', u'friend', u'paymast', u'us', u'longer', u'memori'],

            [u'valu', u'friend', u'bought', u'properti', u'actual', u'relev', u'repres', u'actual', u'valu', u'properti'],

            [u'monster', u'wreck', u'reef', u'cargo', u'vessel', u'week', u'passeng', u'ship', u'least', u'24', u'hour', u'upload', u'com'],

            [.....], etc for the other sentences ]

所以你有两个数组-第一个是句子，第二个是sentenc中的单词。在allwords=[inner for outer in stem_list for inner in outer]的情况下，你可以遍历句子并将它们组合成一个单词数组。在

相关问题更多 >

编程相关推荐

热门问题

热门文章