如何在tesseract中添加新的lang并使用它?

2024-09-27 07:35:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我只想读数字。因为Tesseract4.0不支持白名单,所以我下载了shreshrii的tessdata文件,它只支持读取数字。 https://github.com/Shreeshrii/tessdata_shreetest

我复制粘贴所有文件到程序文件(x86)/Tesseract OCR/tessdata

但是,当我在代码中尝试时

文本=pytesseract.image_to_字符串(img,lang='digit_-comma',config='OEM\u LSTM'ONLY')

显示错误。在

在泰瑟拉克特:(1,“打开数据文件C时出错”\Program Files(x86)\tSeract OCR\数字训练数据请确保将TESSDATA U PREFIX环境变量设置为“TESSDATA”目录。加载语言“digit”失败Tesseract无法加载任何语言!在

我检查过了这是有效的。在

文本=pytesseract.image_to_字符串(img,lang='eng',config='OEM\u LSTM\u ONLY')

如果我在cmd上输入“tesseract--list langs”, 它显示了所有来自什莱斯利的附加语言。在

如何使shreshrii的数据在我的代码中工作?在

更新

我发现我的tesseract版本是4.0.0测试版,而Shreeshrii的数据仅适用于4.0.0版。我重新安装了tesseract到4.0.0版本,它工作了。在


Tags: 文件数据代码image文本语言数字x86

热门问题