当从文本中提取关键字时,我意识到我得到的大部分是不同格式的相同单词。有没有办法让同一个词只出现一次?你知道吗
Example: updated updates update updating | research researched researchers | files filed
file
代码:此处使用的Summa(TextRank)包:
k_words = keywords.keywords((str(document)), words=10, ratio=0.2, language='english')
Tags:
在对文本进行任何操作之前,您需要对其进行词干和修饰(同时,删除停止词和标点符号)。NLTK有内置的lemmatizers和词干分析器,您可以使用:
用于填塞:
对于柠檬化:
您可以在this article中阅读更多关于Python-NLTK词干分析和柠檬化的内容。你知道吗
相关问题 更多 >
编程相关推荐