快速带状编辑距离
tinyalign的Python项目详细描述
丁尼亚林
一个提供编辑距离(又称Levenshtein distance,即 是,计算插入、删除和替换)和汉明距离 计算。在
它的主要目的是通过
允许指定最大差异数maxdiff
(分带)。如果
提供该参数后,返回的编辑距离精确到
maxdiff
。也就是说,如果实际编辑距离大于maxdiff
,则
返回大于maxdiff
的值,但不一定是实际的编辑
距离。在
对于计算常规编辑距离,或者如果您的maxdiff小于4,则
应该更喜欢https://github.com/fujimotos/polyleven,就这样
在这种情况下更快。当maxdiff
为4或更多,但不太接近
长度最短的串,这个模块比较快。在
>>> from tinyalign import edit_distance, hamming_distance
>>> edit_distance("banana", "ananas")
2
>>> hamming_distance("hello", "yello")
1
>>> edit_distance("hello", "world", maxdiff=2)
3
- 项目
标签: