Tesseract训练注意事项
2014-11-27 16:07
225 查看
生成训练样本
1.如果只为识别有限范围内的字体,一张训练样本就足够了,但是多余的会增加准确度。2.生成训练样本时,确保每个字符有最少数量的样本,10个就很好,针对低频率出现的字符,5个也行。对于频繁出现的字符,至少需要20个样本。
3.让训练样本中的文本更贴近现实,The (quick) brown {fox} jumps! over the $3,456.78<lazy> #90 dog & duck/goose, as 12.5% of E-mail from aspammer@website.com is spam?就比The quick brown
fox jumps over the lazy dog. 0123456789 !@#$%^&(),.{}<>/?好很多。
4.增加字符之前的距离比较安全。
5.训练集应该按字体划分,不能在同一个.tr文件中混入多种字体,否则会丢失字体特征。
6.对于同一个字符,不需要多个大小的训练样本,10Pt就够了。待识别字符小于15像素的需要特别训练或者识别前放大识别图片。
7.修正box文件时,字符被分开了,merge!多个字符连在一起,重新修正训练样本图片。如果识别图像中,这个连在一起的字符块很常见,则使box中的多个字符表示这个box的识别结果。box 的坐标系左下角是(0,0)。
8.在box.train过程中,需要修正输出中的FATALITIES,否则训练过程会失效。
unicharset_extractor lang.fontname.exp0.box lang.fontname.exp1.box ...
<fontname> <italic> <bold> <fixed> <serif> <fraktur>
相关文章推荐
- OpenCV的HOG+SVM训练程序注意事项
- 七月算法深度学习笔记5--CNN训练注意事项与框架使用
- OpenCV3.2.0中使用HOG特征训练SVM分类器时重点注意事项
- opencv SVM 训练行人检测器注意事项
- 采用opencv_cascadetrain进行训练的步骤及注意事项
- 采用opencv_cascadetrain进行训练的步骤及注意事项
- OpenCV的HOG+SVM训练程序注意事项
- noip注意事项,训练时经验与技巧
- 入门训练:写程序应注意的事项
- BatchNorm层训练和测试的注意事项
- (转)采用opencv_cascadetrain进行训练的步骤及注意事项
- 采用opencv_cascadetrain进行训练的步骤及注意事项
- 分类器训练——haar分类器的使用方法及注意事项
- 深度学习第五课-训练注意事项与框架使用
- tensorflow训练时的一些注意事项
- 采用opencv_cascadetrain进行训练的步骤及注意事项
- ITF跆拳道训练注意事项
- 神经网络细节与训练注意事项
- ITF跆拳道训练注意事项
- 乒乓球训练注意事项