Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3708056
  • 博文数量: 356
  • 博客积分: 10458
  • 博客等级: 上将
  • 技术积分: 4734
  • 用 户 组: 普通用户
  • 注册时间: 2008-03-24 14:59
文章分类

全部博文(356)

文章存档

2020年(16)

2019年(9)

2018年(26)

2017年(5)

2016年(11)

2015年(20)

2014年(2)

2013年(17)

2012年(15)

2011年(4)

2010年(7)

2009年(14)

2008年(209)

分类: C/C++

2009-08-19 18:12:10

作者:帅得不敢出门   C++爱好者灌水天堂群 3503799   转载请保留此信息
目的:chm转换成txt
首先反编译解压chm文件
解压后的html文件是以字母顺序生成的,这样把所有html转成一个txt过程顺序无法查知。
解决方法:
1种.打开.hhc文件,分析
文件内容以如下结构组织













  • .................
    如上面 1313.html就是第一个页面,而1314.html则是第二个,依此类推

  • 2种方法.分析#URLSTR文件
    用文本打开,有部分乱码,其中夹杂着1313.html    1314.html 等信息
    用ultraedit-32打开
    发现其组织形式如下:
    0000000: 4200 0000 0000 0000 0031 3331 332e 6874  B........1313.ht
    0000010: 6d6c 0000 0000 0000 0000 0031 3331 342e  ml.........1314.
    0000020: 6874 6d6c 0000 0000 0000 0000 0031 3031  html.........101
    可见用windows自带的文件编译器查看时显示的乱码其实是都是二进制0。
    大部分间隔都是9个0x00,但是仔细观察发现并非如此
    中间有21个0x00间隔。所以分析的时候要小心。
    且文件最后会以0d0a做为结束标志:
    阅读(1815) | 评论(0) | 转发(0) |
    给主人留下些什么吧!~~