用于端到端实体匹配的python库。

py-entitymatching的Python项目详细描述


Py实体匹配

这个项目试图构建一个python软件包来匹配实体 在两张桌子之间使用监督学习。这个问题经常 称为实体匹配(em)。给出两个表A和B,目标是 em是发现两个表之间的元组对,这两个表引用 同样的现实世界实体。实体匹配涉及两个主要步骤: 分块匹配。阻塞步骤旨在消除明显的不匹配 元组对并减少要匹配的集合。实体匹配 实践涉及许多步骤,而不仅仅是阻塞和匹配。执行EM时 用户通常执行许多步骤,例如探索、清理、调试、采样, 估计精度等。但是,当前的电磁系统不包括 em pipeline,只支持几个步骤(例如阻塞、匹配),而 忽略不太知名但同样重要的步骤(例如,去毛刺、取样)。 此软件包旨在支持em pipeline中涉及的所有步骤。

该软件包是免费的,开源的,并且有bsd许可。

依赖关系

生成包所需的依赖项为:

  • pandas(提供存储和管理表的数据结构)。在0.23.2版上测试。
  • scikit learn(提供通用机器学习算法的实现)。在0.18.0版上测试。
  • joblib(提供多处理功能)。在0.12.0版上测试。
  • pyqt5(提供构建gui的工具)。在5.6.0版上测试。
  • py_stringsimjoin(提供字符串相似性连接的实现)。在0.3.0版上测试。
  • py_stringmatching(提供一组字符串标记器和字符串相似性函数)。在0.4.0版上测试。
  • cloudpickle(提供序列化python构造的函数)。在0.2.1版上测试。
  • Pyprind(显示进度指示器的库)。在2.10.0版上测试。
  • pyparsing(用于分析字符串的库)。在2.2.0版上测试。
  • 六个(提供跨Python2和3编写兼容代码的函数)。在2.11.0版上测试。

平台

py-entitymatching已经在linux、os x和windows上进行了测试。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Hibernate会话。save()不返回值吗?   java JMS应用程序发布订阅   java使用字符串创建一个长度为n,高度为n的正方形   java如何在MySQL的SQL查询中传递ArrayList<>如IN子句   安卓 java。lang.IllegalArgumentException:指定为非null的参数为null:方法kotlin。jvm。内部的内在的。检查参数不完整   如何用Java绘制交互式图形/线条?   java Blackberry移动Web应用快捷方式   java Json LocalDateTIme问题   java更改密钥的颜色   java在过滤条件之后在流上迭代时如何获取上一个对象   Java:按位和创建无符号字节   java在JavaScript中检索Velocity循环变量   java JButton不会出现在GUI上   java Cell API json转换到POJO   java在模拟中初始化静态最终变量