我正试图在Jupyter笔记本上使用pytesseract。
当我运行以下代码时:
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en', config = tessdata_dir_config))
我得到以下错误:
TesseractError Traceback (most recent call last)
<ipython-input-37-c1dcbc33cde4> in <module>()
11 # tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
12
---> 13 print(pytesseract.image_to_string(Image.open('Multi_page24bpp.tif'), lang='en'))
14 # print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))
C:\Users\cpcho\AppData\Local\Continuum\Anaconda3\lib\site-packages\pytesseract\pytesseract.py in image_to_string(image, lang, boxes, config)
123 if status:
124 errors = get_errors(error_string)
--> 125 raise TesseractError(status, errors)
126 f = open(output_file_name, 'rb')
127 try:
TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\en.traineddata')
我发现这两份推荐信很有帮助,但我遗漏了一些东西: https://github.com/madmaze/pytesseract/issues/50https://github.com/madmaze/pytesseract/issues/64
谢谢你在这上面花时间!
我也面临同样的问题。我在谷歌上尝试了所有的解决方案,但都没有成功。最后,我通过替换解决了这个问题。
与
从你的帖子中,观察到两个可能的问题。
所有经过训练的语言数据都应该保存在
TESSDATA_PREFIX
, 一个Windows环境变量,在本例中位于C:\Program Files (x86)\Tesseract-OCR\tessdata
。经过
tesseract
训练的英语数据被命名为eng.traineddata
(即'eng'
),除非修改其名称。有关详细信息,请参阅此Tesseract Data Files。此外,要使
pytesseract
读取图像文件Image.open()
,如果无法找到图像文件,则可以包含完整的文件路径(例如'z:\\path\\to\\image'
)。希望如此。
相关问题 更多 >
编程相关推荐