简单列表的Tesseract训练技术

2024-05-20 15:01:06 发布

您现在位置：Python中文网/ 问答频道 /正文

6685

网友

男 | 程序猿一只，喜欢编程写python代码。

所以我在训练自适应分类器（Tesseract中的默认引擎）。但我在这方面有点麻烦，因为文档非常零散和/或丢失。在

我在训练一个非常小的数据集，我以为我刚开始使用arial black，直到我收集到更多关于我的主题的数据。我想知道化妆品上的标签（丹麦语），这只是一个列表（逗号分隔词）。特别是要特别指出的是：

瑟尔，奥斯特，酸奶，伊默，伊莱特，弗洛德，奶昔，拉克托斯，穆尔凯苏克，动物科，费德斯托夫，动物奥利，瑟罗莉，巴格尔马加林，人造奶油，米纳林，里贝格梅尔， inddampet mælk公司，伊克贝斯坦德尔，莫克托夫，托尔姆ælk，梅尔克普勒， skummetmælkspulver公司， sødmælkspolver公司， mælkeprotein，乳清蛋白，卡西因，卡塞纳特，钙钙，卡利乌姆卡西纳特，钠氨酸钠，山谷，缬氨酸蛋白，瓦尔普勒，梅尔克

以及以大写字母开头的相同单词（例如：“Vallepulver”）。但是我一直无法为这种类型的形态学找到一个合适的配置文件，我认为我应该利用DAWG系统，因为准确性和速度是非常重要的。在

到目前为止，我采取了以下步骤：使用jTessboxeditor生成.box文件使用tesseract imagefile将.box文件转换为.tr文件文件名.exp0，箱号箱式列车然后用unicharset_提取器提取unicharset文件名.exp0.盒创建一个字体属性文件，包含以下内容：arial 1 0 0 0 0 然后用“mftraining”“cntraining”对字符特征进行聚类将所有文件重命名为我选择的语言名称创建包含上述列表的单词表将单词表转换为lang.words.dawg使用wordlist2dawg 最后用combine_-tessdata-lang组合数据。但我仍然在实验非常不准确的结果（我正在使用scantalter在将图像提供给Tesseract之前对其进行预处理），下面是我目前正在测试Tesseract的图像（格式为.tif）：

https://drive.google.com/file/d/0B8e0HDFGiNZOOXpWbUQwc0l3N2xqYlE3SGN4d1BPcHlxQVRn/view?usp=sharing

系统只能识别上述列表中的单词（因此列表和图像之间的唯一匹配就是“milk”）。在

任何关于我可能做的错误/改进的建议（尤其是在我不存在的配置中）都将是非常值得赞赏的，因为我已经为此挣扎了很长一段时间了。在

诚恳一个绝望的书呆子。在

Tags：文件数据图像 box 列表文件名系统公司

0条回答

目前没有回答

简单列表的Tesseract训练技术

相关问题更多 >

编程相关推荐

热门问题

热门文章

简单列表的Tesseract训练技术

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >