Pytesseract:打开数据文件\\程序文件(x86)\\ Tesseract OCR\\en.trainedd时出错

2024-09-27 07:28:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图在Jupyter笔记本上使用pytesseract。

  • Windows 10 x64
  • 以管理权限运行Jupyter笔记本(Anaconda3,Python 3.6.1)
  • 包含TIFF文件的工作目录位于不同的驱动器(Z:)

当我运行以下代码时:

try:
    import Image
except ImportError:
    from PIL import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'

print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en', config = tessdata_dir_config))

我得到以下错误:

TesseractError                            Traceback (most recent call last)
<ipython-input-37-c1dcbc33cde4> in <module>()
     11 # tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
     12 
---> 13 print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en'))
     14 # print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

C:\Users\cpcho\AppData\Local\Continuum\Anaconda3\lib\site-packages\pytesseract\pytesseract.py in image_to_string(image, lang, boxes, config)
    123         if status:
    124             errors = get_errors(error_string)
--> 125             raise TesseractError(status, errors)
    126         f = open(output_file_name, 'rb')
    127         try:

TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\en.traineddata')

我发现这两份推荐信很有帮助,但我遗漏了一些东西: https://github.com/madmaze/pytesseract/issues/50https://github.com/madmaze/pytesseract/issues/64

谢谢你在这上面花时间!


Tags: toimageconfiglangstringdirfilesopen
2条回答

我也面临同样的问题。我在谷歌上尝试了所有的解决方案,但都没有成功。最后,我通过替换解决了这个问题。

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe' 

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'.

从你的帖子中,观察到两个可能的问题。

  1. 所有经过训练的语言数据都应该保存在TESSDATA_PREFIX, 一个Windows环境变量,在本例中位于C:\Program Files (x86)\Tesseract-OCR\tessdata

  2. 经过tesseract训练的英语数据被命名为eng.traineddata(即'eng'),除非修改其名称。有关详细信息,请参阅此Tesseract Data Files

此外,要使pytesseract读取图像文件Image.open(),如果无法找到图像文件,则可以包含完整的文件路径(例如'z:\\path\\to\\image')。

希望如此。

相关问题 更多 >

    热门问题