回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我按照这个<a href="http://blog.christianperone.com/?p=1589" rel="nofollow">tutorial</a>搜索文档中的相关单词。我的代码:</p>
<pre><code>>>> for i, blob in enumerate(bloblist):
print i+1
scores = {word: tfidf(word, blob, bloblist) for word in blob.words}
sorted_words = sorted(scores.items(), key=lambda x: x[1], reverse=True)
for word, score in sorted_words[:10]:
print("\t{}, score {}".format(word, round(score, 5)))
1
k555ld-xx1014h, score 0.19706
fuera, score 0.03111
dentro, score 0.01258
i5, score 0.0051
1tb, score 0.00438
sorprende, score 0.00358
8gb, score 0.0031
asus, score 0.00228
ordenador, score 0.00171
duro, score 0.00157
2
frentes, score 0.07007
write, score 0.05733
acceleration, score 0.05255
aprovechando, score 0.05255
. . .
</code></pre>
<p>我的问题是,我想导出一个包含以下信息的数据帧:索引,10个最前面的单词(用逗号分隔)。我可以用pandas dataframe保存一些东西。
示例:</p>
^{pr2}$
<p>提前谢谢大家。在</p>