简单列表的Tesseract训练技术

2024-05-20 15:01:06 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我在训练自适应分类器(Tesseract中的默认引擎)。 但我在这方面有点麻烦,因为文档非常零散和/或丢失。在

我在训练一个非常小的数据集,我以为我刚开始使用arial black,直到我收集到更多关于我的主题的数据。 我想知道化妆品上的标签(丹麦语),这只是一个列表(逗号分隔词)。特别是要特别指出的是:

瑟尔, 奥斯特, 酸奶, 伊默, 伊莱特, 弗洛德, 奶昔, 拉克托斯, 穆尔凯苏克, 动物科,费德斯托夫, 动物奥利, 瑟罗莉, 巴格尔马加林, 人造奶油, 米纳林, 里贝格梅尔, inddampet mælk公司, 伊克贝斯坦德尔, 莫克托夫, 托尔姆ælk, 梅尔克普勒, skummetmælkspulver公司, sødmælkspolver公司, mælkeprotein, 乳清蛋白, 卡西因, 卡塞纳特, 钙钙, 卡利乌姆卡西纳特, 钠氨酸钠, 山谷, 缬氨酸蛋白, 瓦尔普勒, 梅尔克

以及以大写字母开头的相同单词(例如:“Vallepulver”)。 但是我一直无法为这种类型的形态学找到一个合适的配置文件,我认为我应该利用DAWG系统,因为准确性和速度是非常重要的。在

到目前为止,我采取了以下步骤: 使用jTessboxeditor生成.box文件 使用tesseract imagefile将.box文件转换为.tr文件文件名.exp0,箱号箱式列车 然后用unicharset_提取器提取unicharset文件名.exp0.盒 创建一个字体属性文件,包含以下内容:arial 1 0 0 0 0 然后用“mftraining”“cntraining”对字符特征进行聚类 将所有文件重命名为我选择的语言名称 创建包含上述列表的单词表 将单词表转换为lang.words.dawg使用wordlist2dawg 最后用combine_-tessdata-lang组合数据。 但我仍然在实验非常不准确的结果(我正在使用scantalter在将图像提供给Tesseract之前对其进行预处理),下面是我目前正在测试Tesseract的图像(格式为.tif):

https://drive.google.com/file/d/0B8e0HDFGiNZOOXpWbUQwc0l3N2xqYlE3SGN4d1BPcHlxQVRn/view?usp=sharing

系统只能识别上述列表中的单词(因此列表和图像之间的唯一匹配就是“milk”)。在

任何关于我可能做的错误/改进的建议(尤其是在我不存在的配置中)都将是非常值得赞赏的,因为我已经为此挣扎了很长一段时间了。在

诚恳一个绝望的书呆子。在


Tags: 文件数据图像box列表文件名系统公司