ABBYY真好用-ssfjhh-ChinaUnix博客

ssfjhh的ChinaUnix博客leenkwun.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ssfjhh

博客访问： 116853
博文数量： 15
博客积分： 152
博客等级：入伍新兵
技术积分： 255
用户组：普通用户
注册时间： 2010-05-29 17:10

文章分类

全部博文（15）

Python特性（1）
编程之美（1）
系统修复（1）
python（12）
未分配的博文（0）

文章存档

2017年（1）

2015年（1）

2013年（8）

2012年（5）

我的朋友

相关博文

ABBYY真好用

分类： Python/Ruby

2017-05-04 02:08:04



	
	
		
		
			点击(此处)折叠或打开
		

	

	
		
		
			
			
				>>> from ABBYY import CloudOCR  
			

			
				>>> ocr_engine = CloudOCR(application_id='YOUR_ABBYY_APPLICATION_ID', password='YOUR_ABBY_APPLICATION_PASSWORD') 
			

			
				>>> pdf = open('budget1988.pdf', 'rb') 
			

			
				>>> file = {pdf.name: pdf}
			

			
				>>> result = ocr_engine.process_and_download(file, exportFormat='xml,pdfTextAndImages', language='French') 
			

			
				>>> result
			

			
				{'xml': <_io.BytesIO object at 0x2e2e290>, 'pdfSearchable': <_io.BytesIO object at 0x2e2e2f0>} 
			

		

	


ABBYY 真好用
只需要到官网注册一个账号，注册一个应用ID，就可以方便的用脚本将pdf进行ocr处理。
识别效果比Adobe Acrobat Pro要强不少，但是还是没有桌面版的abbyy要强，每月50页免费额度，分享到社交网站以后，每月增加100页免费额度，也就是说每月有150页额度，轻量经的使用也够了。
下面的代码即可将0.pdf进行原地OCR处理

	
	
		
		
			点击(此处)折叠或打开
		

	

	
		
		
			
			
				with open('0.pdf', 'rb') as pdf:  
			

			
				    file = {pdf.name : pdf} 
			

			
				    result = ocr_engine.process_and_download(file, exportFormat='pdfSearchable', language='ChinesePRC') 
			

			
				
			

			
				with open('0.pdf', 'wb') as pdf: 
			

			
				    pdfSearchable = result.get('pdfSearchable') 
			

			
				    pdf.write(pdfSearchable.read())

阅读(2479) | 评论(0) | 转发(0) |

上一篇：Python版的数字转汉字程序

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6