用于精确和可扩展的重复数据消除和实体解析的python库

dedupe的Python项目详细描述


重复数据消除是一种库,它使用机器学习快速对结构化数据执行重复数据消除和实体解析。重复数据消除是dedupe.io的开源引擎

dedupe will help you:

  • remove duplicate entries from a spreadsheet of names and addresses
  • link a list with customer information to another with order history, even without unique customer id’s
  • take a database of campaign contributions and figure out which ones were made by the same person, even if the names were entered slightly differently for each record

dedupe takes in human training data and comes up with the best rules for your dataset to quickly and automatically find similar records, even with very large databases.

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JAVAutil。扫描器Java扫描器在读取行时是否有方法包含“\n”?   带有远程ejb xa事务错误的java WebSphere 8,5 spring作业   java无法使用模型映射器将POJO的字符串表示形式映射到另一个POJO   安卓改造和JSON java。无法将lang.String转换为JSONObject   java Pascal三角格式   java如何平滑调整LibGdx窗口的大小   java如何为依赖同一jar的两个独立项目设置maven   java使用PLSQL执行jar文件   java测试在通过testng运行时失败。但单独运行时会传递xml   Android中的java新PDF页面创建产生的页面比预期的多   Java Swing GUI更新/更改循环中的方法冻结   马文少校。次要版本52.0尝试查找Java 8,Java_home和Path中已经设置了Java 8   多线程如何暂停/恢复Java线程   字符串数组中的java通用NxM矩阵   java for循环重置构造输入