系统:centos6.5 x86_64
安装所需安装包
yum install gcc gcc-c++ make autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica
Leptonica 广泛用于图像处理和图像分析应用。
leptonica 编译安装
官网:
基本架构图
下载安装包
# wget
# tar -zxf leptonica-1.73.tar.gz
# cd leptonica-1.73
编译安装
# ./configure
# make && make install
Tesseract简介:
Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。它能识别一些简单的图片验证码,对于增加了复杂“噪音”验证码识别成功率较低。虽然对复杂验证码识别成功率,但在比较简单的验证码识别时,还是可以非常方便的使用的
# wget
# ./autogen.sh
# configure --prefix=/usr/local/tesseract
# make
# make install
# ls /usr/local/tesseract/ 看到bin include lib share这四个目录就说明安装成功
# vim /etc/profile在最后一行添加下面
export PATH=$PATH:/usr/local/tesseract/bin
# source /etc/profile
# tesseract 执行此命令可能会出现如下的报错
tesseract: error while loading shared libraries: liblept.so.5: cannot open shared object file: No such file or directory
# ll /usr/local/lib/liblept.so.5 可以发现这个文件是存在的,在/etc/ld.so.conf文件中
添加”/usr/local/lib“这行
# ldconfig
ldconfig是一个动态链接库管理命令,为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig ,用途主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文件默认为 /etc/ld.so.cache,此文件保存已排好序的动态链接库名字列表.ldconfig通常在系统启动时运行,而当用户安装了一个新的动态链接库时,就需要手工运行这个命令.
再次执行tesseract就不会报错了
tesseract语言包安装:
下在地址:
英文:
eng.cube.bigrams
Eng.cube.fold
eng.cube.lm
eng.cube.nn
eng.cube.params
eng.cube.size
eng.cube.word-freq
然后将该文件剪切到tessdata目录下去就可以了
测试图片:eng.png
# tesseract eng.png result -l eng
其中result 表示输出结果文件txt名称,eng表示用以识别的语言文件为英文。
# cat result.txt
Tesseract nas umcode (ups) support, and can recogmze more tnan 100 tanguages “out ottne box“ t can be tramed to
recogmze otner tanguages See TesseractTrammg for more tntonnatton
Tesseract supports vanous output tonnats ptawtext, nocrtntmt), pot
Tnts project does not mdude a Gut appttcatton tt you need one, ptease see tne 3rdPany wtkt page
You snouto note tnat ”7 many cases, ”7 orderto get better OCR resutts, you‘H need to nnprove tne quahty ottne nnage you are
gwmg Tesseract
The \atest stabte verston ts 3 04 01, reteased ”7 February 2016
有好多个字符识别错误,但大多数还是时别出来了,识别率还不是很高,那有没有什么方法来提供识别率呢?Tesseract提供了一套训练样本的方法,用以生成自己所需的识别语言库。
阅读(4411) | 评论(0) | 转发(0) |