用aho-corasick算法从句子中提取同义词

synonym-extractor的Python项目详细描述


此项目已移到“flash text`”。
---------------------------



synonym extractor
=一次通过。

一个简单的regex匹配将花费大量时间循环10K文档。

,因此我们使用一个更简单但速度更快的算法来获得所需的结果。


installation
----




usage
----


import module
from synonym.extractor import同义词提取器< BR/>< BR/>创建同义词提取器
同义词提取器=同义词提取():BR/>< BR/>加上同义词=[N','纽约','sf')< BR/> CurryNeX = [ [纽约','纽约','旧金山' ] < BR> > BR/>同义词名,CurrasyNeXip在Zip(同义词名,清除名称:
synonym_extractor.add_to_synonym(synonym_name,clean_name)


synonyms_found=synonym_extractor.get_synonyms_from_sentence('i love sf and ny.“纽约是最好的。”< < >“gt”;“gt”弗朗西斯科;“纽约”,“纽约”;< < > >< > >< > > > >同义词提取器;' Aho Corasick算法';;80%。可以在“read the docs
<;http://synonym extractor.readthedocs.org>;` `.



它将把纽约和纽约视为两个不同的词。

纽约


>然后你可以把纽约和纽约提取为同一文本。



>要对regex做同样的操作需要花费大量的时间:


==============================================








=============================================================================
150万2K:16时数:250万10公里:15天15分钟
================================================


这个库的想法来自下面的“stackoverflow question
<;https://stackoverflow.com/questions/44178449/regex replace正在为数百万个文档花费时间,如何使它更快>;`.



许可证
----


项目是根据麻省理工学院许可证授权的。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用ApachePOI将excel文件导入postgreSQL表   java多线程从iText pdf提取文本   winapi Java和SetWindowDisplayAffinity   eclipse juno的java Websphere 6.1插件   java MPAndroidChart:为Y轴提供一些偏移   java中作为参数传递枚举类型的继承   java Gui jframe的工作原理与netbeans不同   使用Bouncy Castle和PDFBox在Java中验证PDF签名   优化缩小Java代码   java无法在安卓中从Firebase取回子数据   返回的java方法?我应该什么时候用?   java错误处理已完成,退出代码为1。与穿过阵列的for循环有关   多线程Java volatile是否阻止缓存或强制执行写缓存?   java Multi-collectItems如何提前终止并返回已收集的项目   java为什么不在服务(请求,响应)中直接调用processRequest(请求,响应)?   java如何从字符串生成int数组?   打印获取用户输入的值并在其他预选文本中显示。JAVA   未显示java DynamicAsper UTF8字符   java Eclipse RCP:不启动应用程序的命令行参数