tesseract安装使用,人工智,图文识别验证码 系统操作(python)
2017-12-15 18:08
369 查看
这两天自学关于自我感觉很牛的图文识别系统,给你一张图片可以扫描其中的文字(是不是很牛嘿嘿!!!),以下是我在学习过程中所遇到的一点问题。先前在学习之前肯定是安装各种文件,各种包……(头痛……),查过各种版本的安装流程。其中也有好多大牛写的(大牛请之行绕道……),而我是总结一下自己的安装加理解经验。
1.安装tesseract:这个文件很是智能,我们不用为环境变量中的path发愁,安装时安装包自动设置PATH变量
然而我安装的时候由于各种原因,我的语言包安装一直出现error,所以我直接跳过安装语言,并删除该软件文件夹的tessdata(语言包),在网上直接找到语言包解压,导入……
然后成功。为了检验我们的安装成功,我们可以自己用画图软件(画个数字,简单识别),创建一个imgname.png 图片,保存到一个文件夹,用dos 命令 输入:tesseractimgname.png
imgname -l eng -psm 7 nobatch digits(imgname是自己文件的名字)
会在文件中找到一个文本文档,打开其中就有自己编写的数字。
安装pytesseract(win)
应用Fiddler获得验证码下载并用自己熟悉的语言(python)抓取网站的一系列验证码进行识别训练
2. 下载jTessBoxEditor:http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
合并图像的作用把上面我们爬取的验证码,进行合并,打包,
运行jTessBoxEditor工具
在点击菜单栏中Tools--->Merge TIFF
在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件(注意文件名要严格一样num.font.exp0.tif)
生成Box File文件:CMD:tesseract.exe
定义字体特征文件:在样本图片所在目录下创建一个名称为font_properties的文件,用记事本打开,输入以下下内容:font
注意: font_properties 和.box 一样是个文件不是其他
4. 复制语言文件
将生成的num.traineddata拷贝到Tesseract-OCR安装目录下的tessdata文件夹中
1.安装tesseract:这个文件很是智能,我们不用为环境变量中的path发愁,安装时安装包自动设置PATH变量
然而我安装的时候由于各种原因,我的语言包安装一直出现error,所以我直接跳过安装语言,并删除该软件文件夹的tessdata(语言包),在网上直接找到语言包解压,导入……
然后成功。为了检验我们的安装成功,我们可以自己用画图软件(画个数字,简单识别),创建一个imgname.png 图片,保存到一个文件夹,用dos 命令 输入:tesseractimgname.png
imgname -l eng -psm 7 nobatch digits(imgname是自己文件的名字)
会在文件中找到一个文本文档,打开其中就有自己编写的数字。
安装pytesseract(win)
应用Fiddler获得验证码下载并用自己熟悉的语言(python)抓取网站的一系列验证码进行识别训练
2. 下载jTessBoxEditor:http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
合并图像的作用把上面我们爬取的验证码,进行合并,打包,
运行jTessBoxEditor工具
在点击菜单栏中Tools--->Merge TIFF
在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件(注意文件名要严格一样num.font.exp0.tif)
生成Box File文件:CMD:tesseract.exe
num.font.exp0.tif num.font.exp0 batch.nochop makebox
box文件的矫正:用jTessBoxEditor打开num.font.exp0.tif文件(必须将上一步生成的.box和.tif样本文件放在同一目录,并且为了方便使用我经他们和图片文件夹放到同级目录命名为左边的为img,右边的为生成的几个文件)
定义字体特征文件:在样本图片所在目录下创建一个名称为font_properties的文件,用记事本打开,输入以下下内容:font
0 0 0 0 0
注意: font_properties 和.box 一样是个文件不是其他3.生成语言文件:调用 make_traineddata.bat
将生成的num.traineddata拷贝到Tesseract-OCR安装目录下的tessdata文件夹中
8. 测试
相关文章推荐
- VirtualBox安装及使用说明和虚拟机安装XP系统图文教程(转)
- Memcached 安装、使用(Python操作)以及常用方法
- Mac系统下Homebrew的安装和使用Homebrew安装python
- VirtualBox 虚拟机使用图文教程【系统安装+快照+文件共享+U盘读取】
- 使用U盘安装Debian系统图文教程
- Linux系统(X64)安装Oracle11g完整安装图文教程另附基本操作
- python使用easy_install安装支持excel2007操作的openpyxl
- 如何使用u盘安装win10?u盘安装win10系统最新版图文教程
- VirtualBox安装及使用说明和虚拟机安装XP系统图文教程
- 阿里云云服务器Windows2003系统中安装和使用FTP图文教程
- python下使用mysql.connector 安装以及连接数据库的操作
- VirtualBox安装及使用说明和虚拟机安装XP系统图文教程
- VirtualBox安装及使用说明和虚拟机安装XP系统图文教程
- VirtualBox安装及使用说明和虚拟机安装XP系统图文教程
- [python]使用python进行LINUX系统操作
- PYTHON(DJANGO)使用日记之如何找到linux系统下django的安装路径
- 本地硬盘使用GHOST安装器 安装GHOST XP系统教程 (适合笔记本的图文教程)
- VirtualBox安装及使用说明和虚拟机安装XP系统图文教程
- Linux系统(X64)安装Oracle11g完整安装图文教程另附基本操作