from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()
keyword_processor.add_keyword('The questions')
keyword_processor.add_keyword('Starting Point')
sentence = "the questions are the starting point"
keywords_found = keyword_processor.extract_keywords(sentence, span_info=True)
keywords_found
from nltk.tokenize import MWETokenizer
tokenizer = MWETokenizer()
for a in keywords_found:
tokenizer.add_mwe(sentence[a[1]: a[2]].split())
tokenizer.tokenize(sentence.split())
我建议使用优秀的FlashText库。 它可以以不区分大小写的方式定位多词表达式(mwe)。 从文档中提取这些mwe后,可以将它们添加到MWETokenizer(与文档中的大小写相同)。然后标记文档。你知道吗
以下代码说明了此过程:
输出:
相关问题 更多 >
编程相关推荐