我正在使用pytessaract对类似这样的数字板进行图像到文本的转换
tools = pyocr.get_available_tools()
if len(tools) == 0:
print("No OCR tool found")
exit(1)
# The tools are returned in the recommended order of usage
tool = tools[0]
print("Will use tool '%s'" % (tool.get_name()))
# Ex: Will use tool 'libtesseract'
langs = tool.get_available_languages()
print("Available languages: %s" % ", ".join(langs))
lang = langs[0]
print("Will use lang '%s'" % (lang))
我就是这样读的我把所有可能的字符都白名单了
^{pr2}$现在,皮特萨拉克正在读这篇文章,好像在找字典里的单词一样 但这并不是理想的结果 有一种方法可以转换字典中的单词,但我不知道如何用python实现这一点,这是我的问题 谢谢
添加禁用系统和频繁DAWG的配置文件
配置文件应该放在
tessdata/configs
目录中(例如:tessdata/configs/config
),并在Init
过程中传递给tesseract。我不能百分之百地确定它是如何用
pytesseract
来完成的,但我相信你可以在这里详细说明。在init()函数签名如下:
^{pr2}$所以您需要将
configs
设置为指向"config"
的指针,并将configs_size
设置为1所以可能是类似的事情,你可以详细说明,使其发挥作用:
编辑:
还要注意,禁用DAWG可能无法解决您的问题。如果我是你-我将简单地迭代结果的备选方案,并以最高的置信度获取字母(如果启用DAWG搜索-默认字母不一定总是具有最高置信度的字母)&如here所述,在改善输入图像质量方面做更多的工作。在
相关问题 更多 >
编程相关推荐