ubuntu10.04下python相关问题
2012-11-04 21:44
351 查看
(1)apt-get install tk-dev
(2)apt-get install python-gtk2-dev
(3)apt-get install python-imaging
(4)tesseract-ocr ubuntu 安装使用
tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下 我的安装步骤其实官方文档上说的很细,下面列出其中的命令,
sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,
sudo apt-get install libleptonica-dev
下载源文件包解压(目前是3.0),进入目录
./runautoconf
./configure
make
sudo make install
下载语言数据包解压:你可以在这找到更多的语言包
gzip -d eng.traineddata.gz
移动到数据包安装目录下,默认为 /usr/local/share/tessdata
mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share/
安装图片格式转换工具,因为tesseract只识别tif格式的图片。
apt-get install imagemagick
你可以使用下面的命令转换图片
convert a.jpg a.tif
好了,测试一下吧
tesseract <image> <outputbasename> [-l lang] [configs]
tesseract a.tif a
默认为英语,如果你要识别其它语言请使用-l 参数指定,如
tesseract a.tif a -l chi_sim
cat a.txt
你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了,
对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,
如果你遇到 lib **.so 找不到请运行
sudo ldconfig
相关文章推荐
- ubuntu10.04下ruby相关问题
- python中访问数据库并打印输出信息相关的问题
- ubuntu14.0 docker 镜像 pip install python相关的包,下载速度很慢很慢的解决办法
- ubuntu下anaconda解决python2与python3共存问题
- ubuntu10.04下解决声音问题(爆音,声音断断续续,时快时慢)
- Ubuntu下安装anaconda以及TensorFlow的安装步骤(附上相关的问题解决)
- SWIG Python-C封装 char*相关问题(2)
- Ubuntu安装CodeBlocks相关问题(不能编译或者编译通过但不能生成可执行文件)
- Python cookbook(数据结构与算法)字典相关计算问题示例
- 解决ubuntu下python使用pymssql能连接sqlserver但返回值为空的问题
- ubuntu安装pip+python27+ipython+scrapy+zlib-及遇到的各种问题解决
- Ubuntu 16.04使用python3.x相关
- NS3编译遇到的Python相关的问题解决办法
- Ubuntu安装Caffe+CUDA 8.0+cuDnn v5.1 以及相关问题的博客
- python相关问题汇总
- ubuntu17安装以及相关问题的解决
- Ubuntu14安装tensorflow以及相关问题
- ubuntu上用python安装扩展包遇到的一些问题
- ubuntu10.04下pdf中文不显示或乱码问题
- python变量相关问题记录