Chinaunix首页 | 论坛 | 博客
  • 博客访问: 731550
  • 博文数量: 130
  • 博客积分: 10
  • 博客等级: 民兵
  • 技术积分: 2198
  • 用 户 组: 普通用户
  • 注册时间: 2011-11-29 12:48
个人简介

每一个“丑得人神共愤”的泡妞高 手都有一颗坚忍的心,这证明了人类 在绝境中毫不妥协的求生精神,反正丑都丑了,索性放开手脚大干一场,这就叫“无产阶级失去的是锁链,得到的是全世界”

文章分类

全部博文(130)

文章存档

2013年(130)

我的朋友

分类: Windows平台

2013-05-25 16:55:49

最近发现从网上复制粘贴到一个word文档中的奇特的格式问题:浏览器网页上是正常的,如左图,可是粘贴到word中则成右图那样,行首出现了个奇怪的符号:

,不知何故,而且无论如何清除格式也去不掉:

于是决定看看word文档是怎么编码的。

新建一个word文档,输入内容如下:

保存之后用UitrlEdit以二进制打开保存的一个word文档,居然发现文件首为PK开头,那说明是就一个压缩文件包了,尝试将该word文档的后缀改为.zip,然后用解压缩软件居然果然能够正常解压缩,得到如下图所示的一些文件:

[Content_Types].xml文件中记录这个文件夹下所有文件的清单:

打开docProps文件夹如下图所示:

App.xml文件中的内容:

Core.xml中的信息就是通常我们直接文件右键得到的文件信息了

打开word文件夹就看到该文档的核心内容了:

为了解决自己的问题个人是对document.xml文件感兴趣了,打开之

绿色圆圈中的字符就是自己在该word文档中输入的字符内容了“132132453书写规范采用和”居然被分成了两个部分分别标记和保存了。整个文 件是各种标记的集合,包含了每部分字符所用的字体和对应的格式。用户字符在文档正文“w:body”标记之中并且以“w:t”标记分割保 存,“w:pgMar”标记记录了字符串的对齐格式吧,应该是以像素单位来定位的,其他还有“w:gutter”分割线信息,“w:cols w:space”文档列信息,“w:rFonts”字体信息等等。

接着将有奇怪字符的字符串保存在一个新建的word文档中,清除所有的格式,如下

保存并以压缩文件包打开分析其内容,发现原来字符串前面那个标记是一个书签符号:

所以要去除那个符号就比较好办了,直接鼠标定位到那个符号处然后通过word的“插入”菜单中的“书签”按钮,得到书签编辑对话框:

然后点击删除按钮就可以去掉那个记号了,结果如下图所示:

看来通过对word文档的分析,了解了其编码和组成对于以后恢复损坏的word文档或者对word文档中的数据进行分析处理也会有帮助的。



转自http://blog.csdn.net/menglongbor/article/details/8518603

阅读(2473) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~