一种新字体的Tesseract培训

2024-09-30 18:34:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我还不熟悉Tesseract OCR,在我的脚本中使用它之后,我注意到对于我试图从中提取文本的图像,它有一个相对较大的错误率。我遇到了Tesseract培训,它应该能够降低您使用的特定字体的错误率。我发现了一个网站(http://ocr7.com/),它是一个由Anyline提供动力的工具,可以对您指定的字体进行所有培训。因此,我收到了一个.traineddata文件,我不太确定如何处理它。有人能解释一下我要怎么处理这个文件才能使它工作吗?或者我应该学习如何以手动方式进行Tesseract培训,根据Anyline网站的说法,这可能需要一天的工作。提前谢谢


Tags: 文件工具图像文本脚本comhttp网站
3条回答

如果要使用新字体训练tesseract,请使用所需字体生成.traineddata文件。要生成.traineddata,首先需要.tiff文件和.box文件。您可以使用jTessBoxEditor创建这些文件。jBossTextEditor的教程是here。制作.tiff文件时,您可以设置使用的字体。您可以使用jTessBoxEditor生成.traineddata,也可以使用serak-tesseract-trainer生成。我已经使用了这两种方法,我想说的是,对于生成tiff和box文件,jTessBoxEditor非常好,对于培训tesseract,可以使用serak

我制作了一个视频教程,解释最新版本Tesseract(LSTM模型)的过程,希望能有所帮助https://www.youtube.com/watch?v=TpD76k2HYms

对于仍要阅读本文的任何人,您可以使用此工具获取所需字体的traineddata文件。之后,移动数据文件夹中的traineddata文件。要将tesseract与Python或任何其他语言(我想?)中的新字体一起使用,请将lang = "Font"作为image_To_string函数的第二个参数。它显著提高了准确性,但当然也会犯错误。或者,您可以通过以下指南了解如何手动培训tesseract以使用新字体:http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/

相关问题 更多 >