中文文本的TFIDF算法

2024-10-04 13:25:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在对中文文本进行TF-IDF,并搜索文本中最常用的10个单词。
当我得到前10个单词时,我有一些毫无意义的单词,比如“成为", "表示" 和其他。
有没有什么方法只能得到有意义的词语?
我用“解霸”把中文句子改成单词


Tags: 方法文本tf单词句子意义idf词语
1条回答
网友
1楼 · 发布于 2024-10-04 13:25:09

像这样的词成为", "表示" 是我们所说的停止词。在许多情况下,它们是常用词,在句子中没有什么意义,想想英语中的“a”和“the”

在执行分析之前,有时有必要删除这些停止字,特别是对于TF-IDF,因为它可能会导致无意义的结果,正如您所看到的

似乎Jieba没有删除停止词的功能,但是genediazjr收集了一个相当全面的中文停止词列表。您可以在TF-IDF分析之前导入该列表并从原始文本中删除这些停止词

相关问题 更多 >