在python中使用tesseract 4

2024-05-04 00:59:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经在python和pytesseract中使用了tesseract 3.04,现在我想使用新的基于LSTM的4.00.00alpha
我使用的是kali linux,所以我安装了libtesserct4(使用apt get),它在tesseract ocr中创建了一个名为4.00的文件夹,但当我尝试将其与pytesseract一起使用时,它无法识别--eom input
代码是:

pytesseract.image_to_string(Image.open(filename),lang="en",config='--eom 2')

结果:

^{pr2}$

使用tesseract-h命令时,oem输入也不会出现。在

它不识别文件夹tesseract ocr/4.00/tessdata中的培训数据文件它只识别tesseract ocr/tessdata文件夹中的培训数据
如果pytesseract有任何问题,可以告诉我如何为tesseract 4设置python包装器吗

谢谢


Tags: 代码image文件夹inputgetlinuxaptocr
2条回答

我建议使用tesserocr。它支持TestSerAcess 4,并且是一个围绕C++ API的真正包装,与PyTestServ相比,它只调用TestSerACT CLI。 培训是一个完全不同的故事,你应该遵循开发人员提供的指南。在

你可以试试下面的。它适用于Tesseract 4.0.0a和{}。在

ocr = pytesseract.image_to_string(Image.open(filename), lang="eng",\
      boxes=False, config=" psm 3  oem 2")

psm 3是默认的页面分段模式。在

希望这能有所帮助。在

相关问题 更多 >