原文:
http://blog.csdn.net/zhengwhizz/article/details/6605084
参考:
https://muyublog.appspot.com/2010/09/9/imagemagick-tesseract-recognize-verify-code.html
1. 安装依赖库:
- sudo apt-get install autoconf automake libtool libpng12-dev libjpeg62-dev libtiff4-dev zlib1g-dev libleptonica-dev
2. 下载tesseract-ocr,解压缩,编译,安装
- wget
- tar xfz tesseract-3.01.tar.gz
- cd tesseract-3.01
- ./configure
- make
- sudo make install
3. 下载中英语言数据包解压
- wget
- wget
- gzip -d chi_sim.traineddata.gz
- gzip -d eng.traineddata.gz
- sudo mv eng.traineddata chi_sim.traineddata /usr/local/share/tessdata
- export TESSDATA_PREFIX=/usr/local/share
4. 安装图片格式转换工具,因为tesseract只识别tif格式的图片
- sudo apt-get install imagemagick
5. 图片转换
6. 使用tesseract-ocr
tesseract [-l lang] [configs]
7. 默认为英语,如果你要识别其它语言请使用-l 参数指定
- tesseract a.tif a -l chi_sim
- cat a.txt
8. 图片转换优化
提高识别率,可以先把图片转换为灰度。
即弄黑白的:在convert的时候加上参数-monochrome(单色,非黑即白)或者-colorspace Gray(灰度图,黑的程度还会不一样哦,效果会好点)
做放大处理(以150%为例:
- convert a.tif -scale 150% a1.tif
阅读(6135) | 评论(0) | 转发(0) |