一种新字体的Tesseract培训

网友

1楼 · 编辑于 2024-09-30 18:34:07

如果要使用新字体训练tesseract，请使用所需字体生成.traineddata文件。要生成.traineddata，首先需要.tiff文件和.box文件。您可以使用jTessBoxEditor创建这些文件。jBossTextEditor的教程是here。制作.tiff文件时，您可以设置使用的字体。您可以使用jTessBoxEditor生成.traineddata，也可以使用serak-tesseract-trainer生成。我已经使用了这两种方法，我想说的是，对于生成tiff和box文件，jTessBoxEditor非常好，对于培训tesseract，可以使用serak

网友

2楼 · 编辑于 2024-09-30 18:34:07

我制作了一个视频教程，解释最新版本Tesseract（LSTM模型）的过程，希望能有所帮助https://www.youtube.com/watch?v=TpD76k2HYms

网友

3楼 · 编辑于 2024-09-30 18:34:07

对于仍要阅读本文的任何人，您可以使用此工具获取所需字体的traineddata文件。之后，移动数据文件夹中的traineddata文件。要将tesseract与Python或任何其他语言（我想？）中的新字体一起使用，请将lang = "Font"作为image_To_string函数的第二个参数。它显著提高了准确性，但当然也会犯错误。或者，您可以通过以下指南了解如何手动培训tesseract以使用新字体：http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/

相关问题更多 >

编程相关推荐

热门问题

热门文章