[原]chm转换成txt的url顺序问题-帅得不敢出门-ChinaUnix博客

帅得不敢出门stupidpig.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

帅得不敢出门

博客访问： 4550707
博文数量： 356
博客积分： 10458
博客等级：上将
技术积分： 4734
用户组：普通用户
注册时间： 2008-03-24 14:59

文章分类

全部博文（356）

小程序（6）
python（2）
windows（2）
图像处理（2）
人工智能（18）
ACM（3）
android（13）
vim（3）
Qt（13）
ARM-LINUX（33）
胡写一通的软件（2）
个人日记（2）
Csharp（1）
网络技术（4）
娱乐（1）
VC/MFC（83）

VC常见错误与技巧（15）

其他（12）

文件相关（8）

窗体技巧（16）

网络编程（9）

控件相关（12）

数据库（1）

字符操作（10）
C++/C（111）

其他（0）

库函数源代码（9）

一般知识与技巧（22）

指针与内存相关（22）

试题.面试题（15）

网络（1）

模式-模板-STL（8）

易错与解误区（8）

书评（8）

数据结构与算法（6）
java（2）
程序人生（7）
汇编（2）
linux（46）
未分配的博文（0）

文章存档

2020年（17）

2019年（9）

2018年（26）

2017年（5）

2016年（11）

2015年（20）

2014年（2）

2013年（17）

2012年（15）

2011年（4）

2010年（7）

2009年（14）

2008年（209）

我的朋友

相关博文

[原]chm转换成txt的url顺序问题

分类： C/C++

2009-08-19 18:12:10

作者：帅得不敢出门 C++爱好者灌水天堂群 3503799 转载请保留此信息

目的：chm转换成txt
首先反编译解压chm文件
解压后的html文件是以字母顺序生成的，这样把所有html转成一个txt过程顺序无法查知。
解决方法：
1种.打开.hhc文件，分析
文件内容以如下结构组织

.................
如上面 1313.html就是第一个页面，而1314.html则是第二个，依此类推

2种方法.分析#URLSTR文件
用文本打开，有部分乱码，其中夹杂着1313.html 1314.html 等信息
用ultraedit-32打开
发现其组织形式如下：
0000000: 4200 0000 0000 0000 0031 3331 332e 6874 B........1313.ht
0000010: 6d6c 0000 0000 0000 0000 0031 3331 342e ml.........1314.
0000020: 6874 6d6c 0000 0000 0000 0000 0031 3031 html.........101
可见用windows自带的文件编译器查看时显示的乱码其实是都是二进制0。
大部分间隔都是9个0x00，但是仔细观察发现并非如此
中间有21个0x00间隔。所以分析的时候要小心。
且文件最后会以0d0a做为结束标志：

阅读(2452) | 评论(0) | 转发(0) |

上一篇：[原]三星s3c2410ARM平台下的按键驱动注释

下一篇：[原]提取xpdf中的PDFTOTEXT到vc工程中

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6