如何在tesseract中添加新的lang并使用它？

2024-09-27 07:35:36 发布

男 | 程序猿一只，喜欢编程写python代码。

我只想读数字。因为Tesseract4.0不支持白名单，所以我下载了shreshrii的tessdata文件，它只支持读取数字。 https://github.com/Shreeshrii/tessdata_shreetest

我复制粘贴所有文件到程序文件（x86）/Tesseract OCR/tessdata

但是，当我在代码中尝试时

文本=pytesseract.image_to_字符串（img，lang='digit_-comma'，config='OEM\u LSTM'ONLY'）

显示错误。在

在泰瑟拉克特：（1，“打开数据文件C时出错”\Program Files（x86）\tSeract OCR\数字训练数据请确保将TESSDATA U PREFIX环境变量设置为“TESSDATA”目录。加载语言“digit”失败Tesseract无法加载任何语言！在

我检查过了这是有效的。在

文本=pytesseract.image_to_字符串（img，lang='eng'，config='OEM\u LSTM\u ONLY'）

如果我在cmd上输入“tesseract--list langs”，它显示了所有来自什莱斯利的附加语言。在

如何使shreshrii的数据在我的代码中工作？在

更新

我发现我的tesseract版本是4.0.0测试版，而Shreeshrii的数据仅适用于4.0.0版。我重新安装了tesseract到4.0.0版本，它工作了。在

Tags：文件数据代码 image 文本语言数字 x86

0条回答

目前没有回答