提高打印速度OCR

2024-10-01 13:30:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用pytesseract v.0.1.5和tesseract v.3.02.02来分析大量的jpeg图像。质量很好,但速度有点问题。在

在我的设置(i5-4460,8gbram)中,OCR大约需要25秒来处理100个图像(1900x250)。在同一台机器上,同样基于谷歌tesseract代码的Matlab2014BOCR速度快了30%。在

是否有必要修改OCR的设置(例如删除不需要的词典)以加快速度?我的文本只包含英语、数字和特殊字符/-。在

我通过标准方式使用命令:

pytesseract.image_to_string(im)

非常感谢

哈里


Tags: 代码图像文本机器质量数字速度词典
1条回答
网友
1楼 · 发布于 2024-10-01 13:30:01

pytesseract是tesseract cli的一个瘦包装器,如果您不真正需要pythonapi,只需调用纯tesseract。使用包装器会增加开销。我不知道有多少,根据你的平台,你有不同的分析工具来衡量这一点。在linux上,有perf:perf record yourcommand来记录,而{}来查看结果。在

正如你从代码中看到的,你可以把语言限制为只使用英语,你可以重新分析一下它是否有什么不同。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128

相关问题 更多 >