Chinaunix首页 | 论坛 | 博客
  • 博客访问: 351212
  • 博文数量: 51
  • 博客积分: 916
  • 博客等级: 准尉
  • 技术积分: 539
  • 用 户 组: 普通用户
  • 注册时间: 2008-12-01 15:37
文章分类

全部博文(51)

文章存档

2014年(1)

2012年(49)

2011年(1)

我的朋友

分类: LINUX

2012-07-28 11:07:41

原文:http://blog.csdn.net/zhengwhizz/article/details/6605084
参考:https://muyublog.appspot.com/2010/09/9/imagemagick-tesseract-recognize-verify-code.html

1. 安装依赖库:

  1. sudo apt-get install autoconf automake libtool libpng12-dev libjpeg62-dev libtiff4-dev zlib1g-dev libleptonica-dev

2. 下载tesseract-ocr,解压缩,编译,安装

  1. wget
  2. tar xfz tesseract-3.01.tar.gz
  3. cd tesseract-3.01
  4. ./configure
  5. make
  6. sudo make install
3. 下载中英语言数据包解压

  1. wget
  2. wget
  3. gzip -d chi_sim.traineddata.gz
  4. gzip -d eng.traineddata.gz
  5. sudo mv eng.traineddata chi_sim.traineddata /usr/local/share/tessdata  
  6. export TESSDATA_PREFIX=/usr/local/share
4. 安装图片格式转换工具,因为tesseract只识别tif格式的图片

  1. sudo apt-get install imagemagick
5. 图片转换

  1. convert a.jpg a.tif
6. 使用tesseract-ocr
   tesseract   [-l lang] [configs]

  1. tesseract a.tif a

7. 默认为英语,如果你要识别其它语言请使用-l 参数指定

  1. tesseract a.tif a -l chi_sim
  2. cat a.txt
8. 图片转换优化
提高识别率,可以先把图片转换为灰度。
即弄黑白的:在convert的时候加上参数-monochrome(单色,非黑即白)或者-colorspace Gray(灰度图,黑的程度还会不一样哦,效果会好点)
做放大处理(以150%为例:
  1. convert a.tif -scale 150% a1.tif

阅读(6058) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~