我是python的新手,我想写一个函数,在给定两个参数的情况下,计算词频倒数文档频率。在
参数: docs…….列表列表,其中每个子列表包含一个文档的标记。 doc_frequencs…dict-from term到document frequency(一个特定术语在多少个文档中)。在
期望输出:
index = create_tfidf_index([['a', 'b', 'a'], ['a']], {'a': 2., 'b': 1., 'c': 1.})
index['a']
[[0, 0.0], [1, 0.0]]
index['b']
[[0, 0.301...]]
查找doc_freq的我的代码(tfidf函数中的第二个参数)
^{pr2}$现在有谁能帮我用上面描述的这两个参数来计算tf-idf,并产生如我所示的输出。。在
请帮帮大家!!!在
我会用scikit-learn来做这个,除非你必须自己为考试编写函数。在
这是一个像样的tutorial。在
这方面的官方文件也相当不错。它演示了tokenization和实际的{a4}。在
希望这对你有帮助。在
相关问题 更多 >
编程相关推荐