Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1790655
  • 博文数量: 297
  • 博客积分: 285
  • 博客等级: 二等列兵
  • 技术积分: 3006
  • 用 户 组: 普通用户
  • 注册时间: 2010-03-06 22:04
个人简介

Linuxer, ex IBMer. GNU https://hmchzb19.github.io/

文章分类

全部博文(297)

文章存档

2020年(11)

2019年(15)

2018年(43)

2017年(79)

2016年(79)

2015年(58)

2014年(1)

2013年(8)

2012年(3)

分类: LINUX

2018-04-25 13:48:15

我记得前几天张大妈在帖子里面贴了些狗东的优惠券码。
这些优惠券码是以图像的形式出现的,因此需要开两个浏览器,一个看图,另外一个输入。

当然也可以用tesseract 来识别这些图,而经过我的测试,使用没有经过Train的tesseract 来做这件事,成功率并不是很高。

原始图这里我不贴了

我直接使用命令来识别这些图:

点击(此处)折叠或打开

  1. tesseract 1.jpg 1.txt -l eng
  2. tesseract 2.jpg 2.txt -l eng
  3. tesseract 3.jpg 3.txt -l eng

然后比较tesseract的到结果和肉眼识别的结果:

点击(此处)折叠或打开

  1. wdiff -n y1.txt 1.txt |colordiff
  2. [-fb59367a4cbbbd66-]
  3. [-5f345927023fbd73-]
  4.  
  5.  
  6.  
  7.  
  8.  
  9.  
  10.  
  11.  

  12. {+fb59367adcbbbd66+}
  13. {+5345927023fbd73+}
  14. e06ad21966736612
  15. [-f1b83f66faeaa80e-]
  16. {+flb83f66faeaas0e+}
  17. 1c705f43b3b7b5a2
  18. [-002f03f2513ca0d9-]
  19. 9212cfd758db3539
  20. 5a839b0b74388241
  21. [-85bb5b2930b53bcd-]
  22. {+85bb5b2930b53bed+}
  23. 9e56795e85ded228


点击(此处)折叠或打开

  1. wdiff -n y2.txt 2.txt.txt |colordiff
  2. [-79f9bda47a9602d6-]{+7979bda47a9602d6+}
  3. 2705b5c65abb0abe
  4. eb498440d9d502c4
  5. 2db38851d7192c88
  6. [-a7cf9b7f7cced1ff-]
  7. {+ff+}
  8. dd9967f0b3975aee
  9. [-e4ae153c12b9e94d-]
  10. [-ed7e2aa417e3c440-]
  11. {+edae153c12b9e94d+}
  12. {+ed7e2aad17e3c440+}
  13. 291732b612ca071e
  14. [-4514a9c63370986c-]
  15. [-c401c0e06a6292c4-]
  16. [-d9fa11fcfa5249d6-]
  17. [-1266b9f1af4fb44f-]
  18. [-d2412e36da0a174a-]
  19. {+4514a9c63370986C+}
  20. {+cA01c0e06a6292c4+}
  21. {+d9fal1fcfa5249d6+}
  22. {+d2412e36da0al74a+}
  23. 00f45c48eb782a2c
  24. [-672842cf976f2223-]
  25. [-f58bb161657c0e2f-]
  26. [-02f3a7db44ed0e97-]
  27. [-585278bd17f2d035-]
  28. [-8269c2f0a4ac6b86-]
  29. {+f8bb161657c0e2F+}
  30. {+02f8a7db44ed0e97+}
  31. {+585278bd1712d035+}
  32. {+8269c2f0adacéb86+}

点击(此处)折叠或打开

  1. wdiff -n y3.txt 3.txt.txt |colordiff
  2. [-9a72090ca1658f59-]{+9a72090ca1658159+}
  3. 79e44903aa7e2ee7
  4. [-a6183fe1c7b18653-]
  5. {+a6183felc7b18653+}
  6. e9c53c416f791b85
  7. ced79be7906d2ee8
  8. [-6565e4cf15aac08b-]
  9. [-a2122f06a7e07430-]
  10. [-2a69f0243141f1d6-]
  11. [-7273f58fd77da446-]
  12. {+6565e4cfl5aac08b+}
  13. {+a2122{06a7e07430+}
  14. {+2a6910243141f1d6+}
  15. {+7273f68fd77da446+}
  16. 440281af84f3ba22
  17. 577ee43275b0ac2a
  18. 6508c09968c2f0db
  19. 83b1dd1a9162a3b3
  20. c42b235341d88bd3
  21. 23e5befd7de7821d
  22. [-9a2d6a92c2c8a57e-]
  23. {+Sa2d6a92c2c8a57e+}
  24. 742f848626d5bd96
  25. 009339bb0b5d2d78
  26. dacbf47093be9ef8
  27. [-fe10ca6d2ab4e0a8-]
  28. {+fel0ca6d2ab4e0a8+}

没有经过train的tesseract 在识别 这些来自张大妈的image的时候表现的并不是足够的好。
很多次出现 1 和l 无法识别的问题。
然而用眼来识别,我几乎感觉眼都快看瞎了。



阅读(1461) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~