Pytesseract:打开数据文件\\程序文件（x86）\\ Tesseract OCR\\en.trainedd时出错

try: import Image except ImportError: from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe' tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"' print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en', config = tessdata_dir_config))

TesseractError Traceback (most recent call last) <ipython-input-37-c1dcbc33cde4> in <module>() 11 # tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"' 12 ---> 13 print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en')) 14 # print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) C:\Users\cpcho\AppData\Local\Continuum\Anaconda3\lib\site-packages\pytesseract\pytesseract.py in image_to_string(image, lang, boxes, config) 123 if status: 124 errors = get_errors(error_string) --> 125 raise TesseractError(status, errors) 126 f = open(output_file_name, 'rb') 127 try: TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\en.traineddata')

2条回答

网友

1楼 · 编辑于 2024-09-27 07:28:49

我也面临同样的问题。我在谷歌上尝试了所有的解决方案，但都没有成功。最后，我通过替换解决了这个问题。

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

与

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'.

网友

2楼 · 编辑于 2024-09-27 07:28:49

从你的帖子中，观察到两个可能的问题。

所有经过训练的语言数据都应该保存在TESSDATA_PREFIX，一个Windows环境变量，在本例中位于C:\Program Files (x86)\Tesseract-OCR\tessdata。
经过tesseract训练的英语数据被命名为eng.traineddata（即'eng'），除非修改其名称。有关详细信息，请参阅此Tesseract Data Files。

此外，要使pytesseract读取图像文件Image.open()，如果无法找到图像文件，则可以包含完整的文件路径（例如'z:\\path\\to\\image'）。

希望如此。

相关问题更多 >

编程相关推荐

热门问题

热门文章