用于执行字符串相似性联接的python库。
py-stringsimjoin的Python项目详细描述
py_stringsimjoin
本项目旨在构建一个python软件包,为jaccard、dice、cosine、overlap、overlap coefficient和edit distance等常用的相似度度量提供两个表上字符串相似度连接的可伸缩实现。该软件包是免费的,开源的,并且有bsd许可。
重要链接
- Project Homepage: https://sites.google.com/site/anhaidgroup/projects/magellan/py_stringsimjoin
- Code repository: https://github.com/anhaidgroup/py_stringsimjoin
- Issue Tracker: https://github.com/anhaidgroup/py_stringsimjoin/issues
- Mailing List: https://groups.google.com/forum/#!forum/py_stringsimjoin
依赖关系
py_stringsimjoin已经在python 2.7、3.5+上进行了测试。
构建包所需的依赖项是pandas 0.16.0或更高版本,py_stringmatching 0.2.1或更高版本, JoopLIB、PyPrimd、六和C++编译器。对于开发版本,您还需要cython。
平台
py_stringsimjoin已经在linux、os x和windows上进行了测试。