用aho-corasick算法从句子中提取同义词
synonym-extractor的Python项目详细描述
此项目已移到“flash text`”。
---------------------------
synonym extractor
=一次通过。
一个简单的regex匹配将花费大量时间循环10K文档。
,因此我们使用一个更简单但速度更快的算法来获得所需的结果。
installation
----
:
usage
----
:
import module
from synonym.extractor import同义词提取器< BR/>< BR/>创建同义词提取器
同义词提取器=同义词提取():BR/>< BR/>加上同义词=[N','纽约','sf')< BR/> CurryNeX = [ [纽约','纽约','旧金山' ] < BR> > BR/>同义词名,CurrasyNeXip在Zip(同义词名,清除名称:
synonym_extractor.add_to_synonym(synonym_name,clean_name)
synonyms_found=synonym_extractor.get_synonyms_from_sentence('i love sf and ny.“纽约是最好的。”< < >“gt”;“gt”弗朗西斯科;“纽约”,“纽约”;< < > >< > >< > > > >同义词提取器;' Aho Corasick算法';;80%。可以在“read the docs
<;http://synonym extractor.readthedocs.org>;` `.
它将把纽约和纽约视为两个不同的词。
纽约
>然后你可以把纽约和纽约提取为同一文本。
>要对regex做同样的操作需要花费大量的时间:
==============================================
=============================================================================
150万2K:16时数:250万10公里:15天15分钟
================================================
这个库的想法来自下面的“stackoverflow question
<;https://stackoverflow.com/questions/44178449/regex replace正在为数百万个文档花费时间,如何使它更快>;`.
许可证
----
项目是根据麻省理工学院许可证授权的。
---------------------------
synonym extractor
=一次通过。
一个简单的regex匹配将花费大量时间循环10K文档。
,因此我们使用一个更简单但速度更快的算法来获得所需的结果。
installation
----
:
usage
----
:
import module
from synonym.extractor import同义词提取器< BR/>< BR/>创建同义词提取器
同义词提取器=同义词提取():BR/>< BR/>加上同义词=[N','纽约','sf')< BR/> CurryNeX = [ [纽约','纽约','旧金山' ] < BR> > BR/>同义词名,CurrasyNeXip在Zip(同义词名,清除名称:
synonym_extractor.add_to_synonym(synonym_name,clean_name)
synonyms_found=synonym_extractor.get_synonyms_from_sentence('i love sf and ny.“纽约是最好的。”< < >“gt”;“gt”弗朗西斯科;“纽约”,“纽约”;< < > >< > >< > > > >同义词提取器;' Aho Corasick算法';;80%。可以在“read the docs
<;http://synonym extractor.readthedocs.org>;` `.
它将把纽约和纽约视为两个不同的词。
纽约
>然后你可以把纽约和纽约提取为同一文本。
>要对regex做同样的操作需要花费大量的时间:
==============================================
=============================================================================
150万2K:16时数:250万10公里:15天15分钟
================================================
这个库的想法来自下面的“stackoverflow question
<;https://stackoverflow.com/questions/44178449/regex replace正在为数百万个文档花费时间,如何使它更快>;`.
许可证
----
项目是根据麻省理工学院许可证授权的。