SciKit学习和tfidf的个别单词得分?

2024-09-27 09:36:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个由两个字符串和每个条目一个关键字组成的数据帧。看起来是这样的:

    \n  05 Temmuz 2016 17:59                                  \
    0  Suriyelilere vatandaşlığa neden karşı çıkılıyor                                           
    1  Selin Girit Kendi ülkesinde savaştan kaçacak s...                                           

    \n 10 Temmuz 2016 09:01                                  \
    0  Öteki Suriyeliler: Türkiye vatandaşı olursak a...                                           
    1  Cumhurbaşkanı Tayyip Erdoğan Suriyelilere vata...                                           

我要做的是使用sci-kit-learn获取第二个字符串中每个单词的tf-idf,并将其与一般单词的语料库进行比较。但我不知道该怎么做。如果我使用tfidfVectorize(),我会得到如下结果:

    (0, 1)  0.520040083208
    (0, 8)  0.307144050546
    (0, 5)  0.307144050546
    (0, 4)  0.520040083208
    (0, 7)  0.520040083208
    (1, 8)  0.326309521953
    (1, 5)  0.326309521953
    (1, 3)  0.420182921489
    (1, 2)  0.552490047084
    (1, 0)  0.552490047084
    (2, 8)  0.294893556078
    (2, 5)  0.294893556078
    (2, 3)  0.759458290886
    (2, 6)  0.499298193039

但这种输出并不是针对每个单词的,而是字典中单词之间的比较,而不是一般语料库。。。我不知道如何做我要找的,我希望有人可能会有一些建议,因为Sci工具包学习文档不是很清楚。你知道吗


Tags: 数据字符串条目关键字单词语料库yorkar

热门问题