pdfminer3k pdf2txt 解析中文pdf不完全 bug 修复-bienilz-ChinaUnix博客

不务正业的灯泡

首页　| 　博文目录　| 　关于我

bienilz

博客访问： 45752
博文数量： 7
博客积分： 10
博客等级：民兵
技术积分： 99
用户组：普通用户
注册时间： 2011-03-09 21:35

个人简介

主要进行软件应用、常常进行程序设计、偶尔搞点设备驱动。运用批处理辅助办公、管理系统；用VBA处理表格；用C/C++处理图像。。。

文章分类

全部博文（7）

硬件（1）
debian（0）
FreeBSD（5）
Emacs（0）
未分配的博文（1）

相关博文

pdfminer3k pdf2txt 解析中文pdf不完全 bug 修复

分类： Python/Ruby

2018-04-08 00:20:14

近日用pdfminer3k处理pdf表格，文本提取不完全，经调试发现在处理'\\'字符串时判断转义和非转义有误，本想提交bug,却发现好久未更新了，也没提供提交渠道，只能暂记如下。
在pslexer.py文件中，词法分析进入instring状态后，找到括号要先判断是否被转义了，原来只是简单判断其前一个词是以'\'结尾，没有考虑共有奇数个还是偶数个反斜线，如果实际上是偶数个则并未被转义。修改t_instring_contents统计反斜线个数判断后一个字符是否被转义并记录到t.lexer.is_escaped中，在t_instring_lparn 和t_instring_rparn中访问并重置为false。
解决问题。

后记为了查找出问题所在，硬是把 yacc 和 lexer 好好学习了一翻。可以做词法和语法分析了，收获挺大。

阅读(2123) | 评论(0) | 转发(0) |

上一篇：修复AW920 四核 miniPad卡在启动界面（ATM7029 ADFU强刷）

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6