您的位置:首页 > 其它

训练tesseract-ocr3.00字典的步骤

2011-11-11 14:08 302 查看
前提条件:

tesseract-ocr3.00正常安装

训练步骤:

1.将要加入字典的图片转化为.tif格式的图片,文件的命名规则为[lang].[fontname].exp[num].tif, 例如:eng.oms261.g4.tif,注意此处[fontname]命名不能相同。 再根据.tif格式图片生成.box文件,命令:

tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox

2.纠正.box文件中的错误,这里可以使用工具,有不同的工具,根据环境不同选择,Linux下推荐使用 moshPyTT(下载地址,http://code.google.com/p/moshpytt/)

3.根据生成的.box文件生成.tr文件。 命令:

tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train

4.生成unicharset文件。 命令:

unicharset_extractor eng.oms261.g4.box ...

注意:从5~9步骤必须在windows环境下进行,Linux下不支持,这是Tesseract-3.00的BUG.

5.生成 pffmtable, inttemp文件. 命令:

mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...

6.生成 normproto文件。 命令 :

cntraining eng.oms261.g4.tr ...

7.将pffmtable,inttemp,normproto文件加前缀,手动改名为: eng.pffmtable,eng.inttemp,eng.normproto, 前缀名与前面的命名保持一致。

8.字典文件和模糊校正文件可以提高OCR的识别率,我们可以获得官方的eng.traindata的此文件, 命令:

combine_tessdata -u tessdata/eng.traineddata path/eng.

此时语言包的所有文件都解压了,挑出我们需要的

eng.unicharambigs

eng.punc-dawg

eng.word-dawg

eng.number-dawg

eng.freq-dawg

这些文件放到我们训练字典的那个路径.

9.合并训练文件,命令:

combine_tessdata eng.

得到我们最终训练的文件
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: