OCR 开源软件 Tesseract 的下载和入门使用
2017-12-09 18:30
489 查看
资源下载
tesseract-ocr-setup-3.05.01.exe注: 安装的时候选好要识别的语言
tesseract-4.0-with-LSTM#400-alpha-for-windows
Windows中运行tesseract
1.tesseract是一个命令行OCR程序,打开一个终端(组合键Win +R),输入:
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
imagename The name of the input image. Most image file formats (anything readable by Leptonica) are supported.(输入图片的文件名,可以是Leptonica支持的各种图片格式) outputbase The basename of the output file (to which the appropriate extension will be appended). By default the output will be named outbase.txt.(输出文件的文件名, 默认输出文件是txt格式的,还可以指定Hocr和pdf格式)
2.举个栗子:识别
myscan.png图像,将识别结果存入
out.txt,命令行:
tesseract myscan.png out
3.指定特定语言,指定识别简体中文和英文
-l chi_sim+eng,命令行:
tesseract myscan.png out -l chi_sim+eng
4.指定输出文件格式,在命令行最后加上文件格式即可,可以指定Hocr和pdf格式,hOCR是
是一种HTML文件,它对每个识别的字词会后一些参数的说明。tesseract 3.03及以上的版本才
支持pdf格式,命令行为:
hOCR:
tesseract myscan.png out hocr
pdf:
tesseract myscan.png out pdf
Github 参考文件
运行tesseract参数说明
相关文章推荐
- Tesseract-OCR入门使用(1)-安装包获取和命令行调用
- TINA超级好用的电路仿真软件 中文版 下载 含用户指南入门使用教程
- tesseract-Oct的简单使用(入门)以及安装包下载
- Tesseract-OCR引擎 使用方法入门
- 开源虹膜识别软件OSIRIS4.1的使用入门
- 开源虹膜识别软件OSIRIS4.1的使用入门
- Tesseract-OCR入门使用(2)-VS2010调用API
- Tesseract-OCR图像识别引擎 windows10使用方法入门
- 开源项目管理软件禅道使用帮助下载
- Tesseract-OCR入门使用(3)-VS2010编译源码
- Tesseract-OCR引擎 使用方法入门
- Google开源OCR项目Tesseract安装版在Windows下的使用测试记录
- java图片开源框架tesseract调用OCR实现图片文件识别代码下载
- Mac下Tesseract-OCR文字识别新手使用入门
- 【Tesseract-OCR】在VS2010环境下使用的方法---精简快速入门之总结
- python图像上面字符的识别之tesseract—OCR和中文包的下载使用
- 《软件测试技术--测试入门》(ppt下载)
- 当局域网内某台主机使用P2P进行下载时,P2P软件会占用局域网到互联网出口的大量的带宽,导致其他用户网速慢、卡等现象。BT等软件在下载的同时又作为种子为其他人提供下载服务
- 使用开源的数据挖掘软件Weka