我正在寻找一个Python包,它将获得单词列表,然后根据给定的单词列表在文本中搜索单词。在
我尝试使用FlashText(http://flashtext.readthedocs.io/en/latest/)
所以我构建了一个类,从文件code: keyword_processor.add_keyword(word)
添加关键字
然后用code: keyword_processor.extract_keywords(text)
在文本中搜索关键字
但我也得到了部分单词,例如我有一个“关键字”(希伯来语):גיל
还有一句话:האישהבגילהההלפארק
单词“בגילה”作为已找到的关键字出现,因为它包含גילה,所以对我不好。。。在
这里的任何人都有使用另一个Python包的经验,该包正在执行我在这里描述的内容,并且不会返回“partial keywords”? 也许和flashtext一样快,从我参加的测试来看,它非常快。在
为什么不使用^{} ?在
将返回
['se', 'fes', 'se']
,即,在s
中找到的words
中的单词,按找到它们的顺序并包括重复项。在正则表达式含义:
(?:^|\s+)
(?:$|\s+)
(?:...)
|
是“OR”:我们想要一个单词:'|'.join(words)
({})
可以在单词前面或后面添加更多可接受的字符(我在想
,
,.
,…)。在或者,如果你在文本中寻找单词,你的查找器将返回你已经拥有的单词。如果您这样做是为了检查文本中是否有该单词,您可以使用
^{pr2}$in
:相关问题 更多 >
编程相关推荐