如何在一个大的文本组中计算每一个二字组出现的次数我有大量的文本,包括维基百科的文章,新闻文章等。大约15亿字的总数,约300万个独特的字。你知道吗 我想做的是决定什么时候把连续的单词作为一个单词来计算,例如“橙汁”应该作为一个单词来处理。为了决定一 ...2024-09-28 已阅读: n次
使用contex区分颜色和单词的NLTK我正在写一个程序来分析文本中颜色的用法。我想搜索颜色词,如“杏”或“橙”。例如,一位作者可能会写“风中翻滚的杏裙”,然而,我只想数真正描述颜色的杏子/橘子,而不是“我吃了杏子”或“我喝了橙汁” 有没有 ...2024-09-28 已阅读: n次