Chinaunix首页 | 论坛 | 博客
  • 博客访问: 45197
  • 博文数量: 7
  • 博客积分: 10
  • 博客等级: 民兵
  • 技术积分: 99
  • 用 户 组: 普通用户
  • 注册时间: 2011-03-09 21:35
个人简介

主要进行软件应用、常常进行程序设计、偶尔搞点设备驱动。运用批处理辅助办公、管理系统;用VBA处理表格;用C/C++处理图像。。。

文章分类

全部博文(7)

分类: Python/Ruby

2018-04-08 00:20:14

近日用pdfminer3k处理pdf表格,文本提取不完全,经调试发现在处理'\\'字符串时判断转义和非转义有误,本想提交bug,却发现好久未更新了,也没提供提交渠道,只能暂记如下。
在pslexer.py文件中,词法分析进入instring状态后,找到括号要先判断是否被转义了,原来只是简单判断其前一个词是以'\'结尾,没有考虑共有奇数个还是偶数个反斜线,如果实际上是偶数个则并未被转义。修改t_instring_contents统计反斜线个数判断后一个字符是否被转义并记录到t.lexer.is_escaped中,在t_instring_lparn 和t_instring_rparn中访问并重置为false。
解决问题。


后记   为了查找出问题所在,硬是把 yacc 和 lexer 好好学习了一翻。可以做词法和语法分析了,收获挺大。
阅读(2100) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~