分类: Python/Ruby
2017-05-04 02:08:04
ABBYY 真好用 只需要到官网注册一个账号,注册一个应用ID,就可以方便的用脚本将pdf进行ocr处理。 识别效果比Adobe Acrobat Pro要强不少,但是还是没有桌面版的abbyy要强,每月50页免费额度,分享到社交网站以后,每月增加100页免费额度,也就是说每月有150页额度,轻量经的使用也够了。 下面的代码即可将0.pdf进行原地OCR处理点击(此处)折叠或打开
- >>> from ABBYY import CloudOCR
- >>> ocr_engine = CloudOCR(application_id='YOUR_ABBYY_APPLICATION_ID', password='YOUR_ABBY_APPLICATION_PASSWORD')
- >>> pdf = open('budget1988.pdf', 'rb')
- >>> file = {pdf.name: pdf}
- >>> result = ocr_engine.process_and_download(file, exportFormat='xml,pdfTextAndImages', language='French')
- >>> result
- {'xml': <_io.BytesIO object at 0x2e2e290>, 'pdfSearchable': <_io.BytesIO object at 0x2e2e2f0>}
点击(此处)折叠或打开
- with open('0.pdf', 'rb') as pdf:
- file = {pdf.name : pdf}
- result = ocr_engine.process_and_download(file, exportFormat='pdfSearchable', language='ChinesePRC')
- with open('0.pdf', 'wb') as pdf:
- pdfSearchable = result.get('pdfSearchable')
- pdf.write(pdfSearchable.read())