用于在实体匹配过程中标记的python gui。
py-labeler的Python项目详细描述
皮尤贴标机
本项目旨在构建一个基于python的gui,用于手动标记 候选配对。
给出两个表A和B,目标是 em是发现两个表之间的元组对,这两个表引用 同样的现实世界实体。实体匹配涉及两个主要步骤: 分块匹配。阻塞步骤旨在消除明显的不匹配 元组对并减少要匹配的集合。实体匹配 实践涉及许多步骤,而不仅仅是阻塞和匹配。执行EM时 用户通常执行许多步骤,例如探索、清理、调试、采样, 估计精度等。但是,当前的电磁系统不包括 em pipeline,只支持几个步骤(例如阻塞、匹配),而 忽略不太知名但同样重要的步骤(例如调试、采样)。 py_entitymatching寻求支持em pipeline中涉及的所有步骤。
在匹配步骤中,用户需要检查并验证候选对是否匹配 或不匹配这是一个手动过程,这个包py_labeler提供了一个GUI来实现 更容易处理。
该软件包是免费的,开源的,并且有bsd许可。
重要链接
依赖关系
生成包所需的依赖项为:
- pandas(提供存储和管理表的数据结构)
- pyqt5(提供构建gui的工具)
- jinja2(为gui提供模板)
平台
py_labeler已经在linux、os x和windows上进行了测试。