我有一个由两个字符串和每个条目一个关键字组成的数据帧。看起来是这样的:
\n 05 Temmuz 2016 17:59 \
0 Suriyelilere vatandaşlığa neden karşı çıkılıyor
1 Selin Girit Kendi ülkesinde savaştan kaçacak s...
\n 10 Temmuz 2016 09:01 \
0 Öteki Suriyeliler: Türkiye vatandaşı olursak a...
1 Cumhurbaşkanı Tayyip Erdoğan Suriyelilere vata...
我要做的是使用sci-kit-learn获取第二个字符串中每个单词的tf-idf,并将其与一般单词的语料库进行比较。但我不知道该怎么做。如果我使用tfidfVectorize(),我会得到如下结果:
(0, 1) 0.520040083208
(0, 8) 0.307144050546
(0, 5) 0.307144050546
(0, 4) 0.520040083208
(0, 7) 0.520040083208
(1, 8) 0.326309521953
(1, 5) 0.326309521953
(1, 3) 0.420182921489
(1, 2) 0.552490047084
(1, 0) 0.552490047084
(2, 8) 0.294893556078
(2, 5) 0.294893556078
(2, 3) 0.759458290886
(2, 6) 0.499298193039
但这种输出并不是针对每个单词的,而是字典中单词之间的比较,而不是一般语料库。。。我不知道如何做我要找的,我希望有人可能会有一些建议,因为Sci工具包学习文档不是很清楚。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐