2024-10-04 13:25:09 发布
网友
我正在对中文文本进行TF-IDF,并搜索文本中最常用的10个单词。 当我得到前10个单词时,我有一些毫无意义的单词,比如“成为", "表示" 和其他。 有没有什么方法只能得到有意义的词语? 我用“解霸”把中文句子改成单词
像这样的词成为", "表示" 是我们所说的停止词。在许多情况下,它们是常用词,在句子中没有什么意义,想想英语中的“a”和“the”
在执行分析之前,有时有必要删除这些停止字,特别是对于TF-IDF,因为它可能会导致无意义的结果,正如您所看到的
似乎Jieba没有删除停止词的功能,但是genediazjr收集了一个相当全面的中文停止词列表。您可以在TF-IDF分析之前导入该列表并从原始文本中删除这些停止词
像这样的词成为", "表示" 是我们所说的停止词。在许多情况下,它们是常用词,在句子中没有什么意义,想想英语中的“a”和“the”
在执行分析之前,有时有必要删除这些停止字,特别是对于TF-IDF,因为它可能会导致无意义的结果,正如您所看到的
似乎Jieba没有删除停止词的功能,但是genediazjr收集了一个相当全面的中文停止词列表。您可以在TF-IDF分析之前导入该列表并从原始文本中删除这些停止词
相关问题 更多 >
编程相关推荐