您的位置:首页 > 其它

用于图片文本识别的Tesseract-OCR的安装说明(windows10)

2018-03-22 22:11 381 查看

1. Tesseract-OCR的安装

首先下载Tesseract-OCR的安装文件。
下载地址为:(1) https://github.com/tesseract-ocr/tesseract/wiki/Downloads                     (2) https://digi.bib.uni-mannheim.de/tesseract
我是使用第二个地址,直接下载了一个tesseract-ocr-setup-3.05.01.exe安装文件。
运行该文件即可开始安装。
有两点需要注意:
(1)加载语言数据的时默认是只安装英语,如果希望用tesseract处理其他语种的文本,需要手动勾选Additional language data。但是建议不要全部都勾选,因为大多数语种我们都是用不着的,全部勾选的话后面的安装会消耗很长的时间。



(2)注意记住你的安装路径,因为后面设置环境变量时需要用到。
例如这里我将其安装在了D:/tesseract文件夹中。

2. 修改环境变量

2.1 tesseract-ocr安装结束后,我们需要将它的安装路径添加到系统环境变量PATH中。

通过 控制面板--系统--系统高级设置进入下面界面:



点击环境变量:



选中系统变量中的PATH,点击编辑,然后通过新建将tessdata所在文件夹D:\tesseract\Tesseract-OCR添加到PATH路径中去。



2.2 添加TESSDATA_PREFIX变量

设置完PATH后,我们还要在系统变量新建一个TESSDATA_PREFIX变量,变量值即为tessdata所在路劲D:\tesseract\Tesseract-OCR。如果这个没有设置的话,输入tesseract --list-langs将会显示无法加载任何语言包。
点击新建,设置变量名和变量值如下:



至此,tesseract-ocr就安装完成了。

3.  检查tesseract-ocr是否成功安装

打开命令提示行,输入 tesseract -v会返回当前安装tesseract的版本



再输入 tesseract --list-langs检查语言包



如果一切顺利的话,说明tesseract-ocr已经成功安装并可以使用了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息