用于端到端实体匹配的python库。
py-entitymatching的Python项目详细描述
Py实体匹配
这个项目试图构建一个python软件包来匹配实体 在两张桌子之间使用监督学习。这个问题经常 称为实体匹配(em)。给出两个表A和B,目标是 em是发现两个表之间的元组对,这两个表引用 同样的现实世界实体。实体匹配涉及两个主要步骤: 分块匹配。阻塞步骤旨在消除明显的不匹配 元组对并减少要匹配的集合。实体匹配 实践涉及许多步骤,而不仅仅是阻塞和匹配。执行EM时 用户通常执行许多步骤,例如探索、清理、调试、采样, 估计精度等。但是,当前的电磁系统不包括 em pipeline,只支持几个步骤(例如阻塞、匹配),而 忽略不太知名但同样重要的步骤(例如,去毛刺、取样)。 此软件包旨在支持em pipeline中涉及的所有步骤。
该软件包是免费的,开源的,并且有bsd许可。
重要链接
依赖关系
生成包所需的依赖项为:
- pandas(提供存储和管理表的数据结构)。在0.23.2版上测试。
- scikit learn(提供通用机器学习算法的实现)。在0.18.0版上测试。
- joblib(提供多处理功能)。在0.12.0版上测试。
- pyqt5(提供构建gui的工具)。在5.6.0版上测试。
- py_stringsimjoin(提供字符串相似性连接的实现)。在0.3.0版上测试。
- py_stringmatching(提供一组字符串标记器和字符串相似性函数)。在0.4.0版上测试。
- cloudpickle(提供序列化python构造的函数)。在0.2.1版上测试。
- Pyprind(显示进度指示器的库)。在2.10.0版上测试。
- pyparsing(用于分析字符串的库)。在2.2.0版上测试。
- 六个(提供跨Python2和3编写兼容代码的函数)。在2.11.0版上测试。
平台
py-entitymatching已经在linux、os x和windows上进行了测试。