NLTK多词分词器对大小写敏感。我想同时适用于大写和小写。

1条回答

网友
1楼 · 发布于 2024-06-30 15:45:53

我建议使用优秀的FlashText库。它可以以不区分大小写的方式定位多词表达式（mwe）。从文档中提取这些mwe后，可以将它们添加到MWETokenizer（与文档中的大小写相同）。然后标记文档。你知道吗
以下代码说明了此过程：
from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() keyword_processor.add_keyword('The questions') keyword_processor.add_keyword('Starting Point') sentence = "the questions are the starting point" keywords_found = keyword_processor.extract_keywords(sentence, span_info=True) keywords_found from nltk.tokenize import MWETokenizer tokenizer = MWETokenizer() for a in keywords_found: tokenizer.add_mwe(sentence[a[1]: a[2]].split()) tokenizer.tokenize(sentence.split())
输出：
['The_questions', 'are', 'the', 'starting_point']

编程相关推荐

Android中java解析Conflict multiple if-else和逻辑操作文本
java如何在eclipse下在glassfish上部署REST服务？
java如何在动态添加复选框时查看选中的复选框
代码中的Java修复正则表达式
java如何为JTextPane设置默认背景色
java在自定义listview中从无线组获取数据
如何在Java中使用charAt查找数组中每个值的第一个字母？
jar LSOF命令不显示java和类文件
java如何运行SpringPortlet
java我有一个api函数，它想要一个类<T>，如何给它一个列表<String>的类？

相关问题更多 >

编程相关推荐

热门问题

热门文章