我使用pytesseract v.0.1.5和tesseract v.3.02.02来分析大量的jpeg图像。质量很好,但速度有点问题。在
在我的设置(i5-4460,8gbram)中,OCR大约需要25秒来处理100个图像(1900x250)。在同一台机器上,同样基于谷歌tesseract代码的Matlab2014BOCR速度快了30%。在
是否有必要修改OCR的设置(例如删除不需要的词典)以加快速度?我的文本只包含英语、数字和特殊字符/
和-
。在
我通过标准方式使用命令:
pytesseract.image_to_string(im)
非常感谢
哈里
Tags:
pytesseract是tesseract cli的一个瘦包装器,如果您不真正需要pythonapi,只需调用纯tesseract。使用包装器会增加开销。我不知道有多少,根据你的平台,你有不同的分析工具来衡量这一点。在linux上,有perf:}来查看结果。在
perf record yourcommand
来记录,而{正如你从代码中看到的,你可以把语言限制为只使用英语,你可以重新分析一下它是否有什么不同。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128
相关问题 更多 >
编程相关推荐