评价实体分辨率的广义合并距离的实现
entity-resolution-evaluation的Python项目详细描述
实体分辨率评估
用于评估实体分辨率的python包
这个包允许通过有效计算几个最新的度量来评估实体分辨率:基本合并距离、精度、召回、信息变化。它使用的是论文中的切片算法:
Menestrina、David和Whang、Steven Euijong和Garcia Molina、Hector(2010)评估实体分辨率结果 http://ilpubs.stanford.edu:8090/975/3/ERMetricVLDB.pdf
开始
安装
pip install entity-resolution-evaluation
测试
使用metric根据金标准s评估分辨率r。
示例
S = [[0, 1], [2, 3, 4], [5]]
R = [[0, 1, 2], [3, 4], [5]]
evaluate(R,S, 'bmd')
# returns 2
要从r转到s,必须执行1个拆分和1个合并。
evaluate(R,S,'precision')
# returns 0.5,
一半的r对是不正确的。(0,2)和(1,2)不正确。(0,1)和(3,4)是正确的
evaluate(R,S,'recall')
# returns 0.5
一半的s对存在于r(0,1)和(3,4)中。(2,3)和(2,4)不存在。
evaluate(R,S,'variation of information')
# returns 0.6365141682948129
指标
您当前可以计算以下指标:
metric | value if perfect | bounds | intepretation |
---|---|---|---|
'bmd' | 0 | [0,infinity] | basic merge distance : the number of split and merge necessary to go from R to S |
'precision' | 1 | [0,1] | proportion of pairs in R present in S |
'recall' | 1 | [0,1] | proportion of pairs in S present in R |
'f1' | 1 | [0,1] | harmonic mean of precision and recall |
'variation_of_information' | 0 | [0,infinity] | amount of information that is lost and added to go from R to S |
学分
有关详细信息,请访问Hopkins mission页
许可证
麻省理工学院许可证
版权所有(c)2018年公共事务部,Paul Boosz,Beno_t Guigal
兹免费准许任何人取得副本 本软件和相关文档文件(“软件”)的 在软件中不受限制,包括但不限于 使用、复制、修改、合并、发布、分发、再授权和/或出售 软件的副本,并允许接受软件的人员 在满足以下条件的情况下,可以这样做:
上述版权公告及本许可公告须包括在 软件的拷贝或大部分。
本软件按“原样”提供,无任何形式的保证,明示或 默示的,包括但不限于适销性保证, 适合特定目的和不侵权。在任何情况下 作者或版权所有者应对任何索赔、损害或其他 责任,无论是在合同诉讼、侵权诉讼或其他诉讼中, 不属于或与本软件有关,或使用或与本软件的其他交易有关。 软件。