python中的TfIdf计算

2024-10-01 07:33:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我是python的新手,我想写一个函数,在给定两个参数的情况下,计算词频倒数文档频率。在

参数: docs…….列表列表,其中每个子列表包含一个文档的标记。 doc_frequencs…dict-from term到document frequency(一个特定术语在多少个文档中)。在

期望输出:

index = create_tfidf_index([['a', 'b', 'a'], ['a']], {'a': 2., 'b': 1., 'c': 1.})
index['a']
[[0, 0.0], [1, 0.0]]
index['b']  
[[0, 0.301...]]

查找doc_freq的我的代码(tfidf函数中的第二个参数)

^{pr2}$

现在有谁能帮我用上面描述的这两个参数来计算tf-idf,并产生如我所示的输出。。在

请帮帮大家!!!在


Tags: 函数文档标记docs列表参数indexdoc
1条回答
网友
1楼 · 发布于 2024-10-01 07:33:54

我会用scikit-learn来做这个,除非你必须自己为考试编写函数。在

这是一个像样的tutorial。在

这方面的官方文件也相当不错。它演示了tokenization和实际的{a4}。在

希望这对你有帮助。在

相关问题 更多 >