作者:帅得不敢出门 C++爱好者灌水天堂群 3503799 转载请保留此信息
目的:chm转换成txt
首先反编译解压chm文件
解压后的html文件是以字母顺序生成的,这样把所有html转成一个txt过程顺序无法查知。
解决方法:
1种.打开.hhc文件,分析
文件内容以如下结构组织
.................
如上面 1313.html就是第一个页面,而1314.html则是第二个,依此类推
2种方法.分析#URLSTR文件
用文本打开,有部分乱码,其中夹杂着1313.html 1314.html 等信息
用ultraedit-32打开
发现其组织形式如下:
0000000: 4200 0000 0000 0000 0031 3331 332e 6874 B........1313.ht
0000010: 6d6c 0000 0000 0000 0000 0031 3331 342e ml.........1314.
0000020: 6874 6d6c 0000 0000 0000 0000 0031 3031 html.........101
可见用windows自带的文件编译器查看时显示的乱码其实是都是二进制0。
大部分间隔都是9个0x00,但是仔细观察发现并非如此
中间有21个0x00间隔。所以分析的时候要小心。
且文件最后会以0d0a做为结束标志:
阅读(2425) | 评论(0) | 转发(0) |