您的位置：首页 > 其它

训练tesseract-ocr3.00字典的步骤

2011-11-11 14:08 302 查看

前提条件：

tesseract-ocr3.00正常安装

训练步骤：

1.将要加入字典的图片转化为.tif格式的图片，文件的命名规则为[lang].[fontname].exp[num].tif, 例如：eng.oms261.g4.tif，注意此处[fontname]命名不能相同。再根据.tif格式图片生成.box文件，命令：

tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox

2.纠正.box文件中的错误，这里可以使用工具，有不同的工具，根据环境不同选择，Linux下推荐使用 moshPyTT(下载地址，http://code.google.com/p/moshpytt/)

3.根据生成的.box文件生成.tr文件。命令：

tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train

4.生成unicharset文件。命令：

unicharset_extractor eng.oms261.g4.box ...

注意：从5～9步骤必须在windows环境下进行，Linux下不支持，这是Tesseract-3.00的BUG.

5.生成 pffmtable, inttemp文件. 命令：

mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...

6.生成 normproto文件。命令：

cntraining eng.oms261.g4.tr ...

7.将pffmtable，inttemp，normproto文件加前缀，手动改名为: eng.pffmtable，eng.inttemp，eng.normproto, 前缀名与前面的命名保持一致。

8.字典文件和模糊校正文件可以提高OCR的识别率，我们可以获得官方的eng.traindata的此文件，命令：

combine_tessdata -u tessdata/eng.traineddata path/eng.

此时语言包的所有文件都解压了，挑出我们需要的

eng.unicharambigs

eng.punc-dawg

eng.word-dawg

eng.number-dawg

eng.freq-dawg

这些文件放到我们训练字典的那个路径.

9.合并训练文件，命令：

combine_tessdata eng.

得到我们最终训练的文件

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航