开源OCR引擎Tesseract-OCR简介
2010-06-20 11:49
344 查看
这两天需要识别一些图像上的文字,在网上搜索了一下开源的OCR引擎,发现了Tesseract-ocr。它最早是HP开发的,在停滞了差不多10年后,于06年开源出来,目前是google在维护,可以说是too old了。项目首页是http://code.google.com/p/tesseract-ocr/
看了一下它的文档,发现识别效果也是一般,似乎OCR方面的开源实现和商业产品相比,还有很大的距离。不过对于我的应用场景来说,Tesseract已经够用了。我主要是识别一些书写非常规范的数字和英文。
Tesseract使用C++开发,提供了一系列函数,在官网上还能下载到编译好的应用程序供测试。理论上Tesseract能够识别各种语言和符号,前提是你需要有对应语言的数据文件,官网上也可以下载到一些,例如英文、法文德文等,但没有中文。如果没有对应的语言数据文件,或者你对识别效果有特殊要求,你还以对它进行训练,通过提供图像文件和识别结果文件(box文件),Tesseract能够进行学习。
Tesseract能够读取tiff文件,可以是单色或者灰度的,但只能是非压缩格式的。如果需要读取压缩格式的tiff,需要依赖libtiff,然后重新编译。在Windows平台下,还支持bmp文件,效果不错。
简单试用了一下发现,对英文和数字的识别率还算可以,前提是书写得比较正规,对于一些简单的校验码也能够识别得七七八八。不过另外尝试了一比较变态的校验码(扭曲得比较厉害的),发现几乎无法识别,看来用它实现Anti-CAPTCHA还是有困难,不知道增加一些图像预处理过程会不会好的。另外,识别的速度好像有点慢,对于一个1千个单词左右的BMP文件,花费大约9秒钟时间。
过两天正式应用一下,如果发现还行,再详细介绍一下它。
看了一下它的文档,发现识别效果也是一般,似乎OCR方面的开源实现和商业产品相比,还有很大的距离。不过对于我的应用场景来说,Tesseract已经够用了。我主要是识别一些书写非常规范的数字和英文。
Tesseract使用C++开发,提供了一系列函数,在官网上还能下载到编译好的应用程序供测试。理论上Tesseract能够识别各种语言和符号,前提是你需要有对应语言的数据文件,官网上也可以下载到一些,例如英文、法文德文等,但没有中文。如果没有对应的语言数据文件,或者你对识别效果有特殊要求,你还以对它进行训练,通过提供图像文件和识别结果文件(box文件),Tesseract能够进行学习。
Tesseract能够读取tiff文件,可以是单色或者灰度的,但只能是非压缩格式的。如果需要读取压缩格式的tiff,需要依赖libtiff,然后重新编译。在Windows平台下,还支持bmp文件,效果不错。
简单试用了一下发现,对英文和数字的识别率还算可以,前提是书写得比较正规,对于一些简单的校验码也能够识别得七七八八。不过另外尝试了一比较变态的校验码(扭曲得比较厉害的),发现几乎无法识别,看来用它实现Anti-CAPTCHA还是有困难,不知道增加一些图像预处理过程会不会好的。另外,识别的速度好像有点慢,对于一个1千个单词左右的BMP文件,花费大约9秒钟时间。
过两天正式应用一下,如果发现还行,再详细介绍一下它。
相关文章推荐
- 开源OCR引擎Tesseract-OCR
- tesseract-ocr开源的OCR识别引擎
- 如何通过Tesseract开源OCR引擎创建Android OCR应用
- Tesseract-OCR(开源光学字符识别引擎)
- 开源OCR引擎Tesseract
- 开源OCR引擎Tesseract 3.0发布
- 开源OCR引擎Tesseract
- Tesseract-OCR光学识别引擎 入门
- Tesseract-OCR引擎和VS2010工程简单调用
- Tesseract Ocr 引擎识别图形验证码
- .NET 2.0 OCR文字识别技术(Tesseract 引擎)
- Tesseract-OCR引擎试用 rebuild on vs2012【testing】
- 光学字符识别引擎 tesseract-ocr 简介
- Tesseract-OCR引擎 入门
- 字符识别Google开源Tesseract-ocr的DLL调用方法
- OCR----Tesseract引擎核心类TessBaseAPI的操作
- Tesseract OCR 引擎概述
- Tesseract-OCR引擎 入门
- java图片开源框架tesseract调用OCR实现图片文件识别代码下载
- Tesseract Ocr 引擎识别图形验证码