OCR特定的近似字符串匹配库

2024-09-29 23:24:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我用OCR从图像中提取了一个文本。文中有些词语没有正确识别,如下所示:

'DRDER 0F OFF1CE RESTAURAUT,QNE THO…'

如您所见,有些字符很容易与其他字符混合:1->;I,O->;D->;Q,H->;W,U->;N等等。在

问题:除了Levenshtein distance等标准算法外,是否有一个Java或Python库实现OCR特定算法,以帮助将单词与预定义字典进行比较并给出分数,同时考虑到可能的OCR字符混叠?在


Tags: 图像文本gt算法标准字符levenshteindistance
1条回答
网友
1楼 · 发布于 2024-09-29 23:24:17

我不知道有什么OCR特定的,但是你也许可以用Bioython来实现这一点,因为在生物信息学中,使用一个矩阵将一个字符串与另一个字符串进行比较的基本问题是非常普遍的。我们称之为序列比对问题。在

看看Biopython提供的pairwise2 module;您可以使用一个具有所有成对字符相似性的dict将每个输入单词与字典中的pairwise2.align.globaldx进行比较。其中还有一些函数可以对删除/插入的字符进行评分。在

计算成对字符的相似性将是你必须自己做的事情,也许通过渲染每个字符在你选择的字体和比较图像,或者可能手动只评级哪些字符看起来像你。您还可以看看this other SO answer,在这里,字符根据笔划的存在/不存在而被分成类。在

如果你想要比O(input*dictionary)更好的东西,你必须从暴力比较转换到某种基于种子匹配的算法。例如,如果您假设总是有两个字符的完全匹配,则可以索引字典,其中单词包含每个长度为2的字符串,并且只将输入单词与与其共享长度为2字符串的字典单词进行比较。在

相关问题 更多 >

    热门问题