压缩算法-wilsonwong-ChinaUnix博客

图像识别.威软.石柱森林wilsonwong.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wilsonwong

博客访问： 3494128
博文数量： 754
博客积分： 10132
博客等级：上将
技术积分： 7780
用户组：普通用户
注册时间： 2008-01-14 23:36

文章分类

全部博文（754）

原创文档（26）

数学解题（0）
资料收集（668）

医学词汇（7）

其他资料（0）

资源连接（35）

面试题搜集（7）

Study English（10）

Cisco（1）

Java（10）

单片机&电子电路（30）

操作系统（1）

算法&协议（16）

汇编语言（31）

数据库（0）

Matlab&数学（45）

Linux（113）

Windows（8）

网络编程（2）

汇编（1）

输入子系统（1）

USB驱动（14）

Windows优化（1）

内核开发（84）

QT程序设计（4）

图形开发（3）

驱动开发（13）

名称解析（0）

Http协议（26）

股票知识（2）

自己动手写操作系（8）

Makefile（6）

Bootloader　（5）

Linux脚本（1）

常用操作集（41）

Ajax（1）

ARM（7）

实例详解（5）

其它命令（13）

网络命令（2）

文件命令（8）

常用命令（14）

Linux命令（2）

常见操作实例代码（21）

动态连接库（7）

五子棋（0）

SqlServer（16）

DotNet（4）

vc（41）

Winsock编程专辑（1）
学习笔记（40）
森林驿站（18）
未分配的博文（2）

文章存档

2012年（3）

2011年（39）

2010年（66）

2009年（167）

2008年（479）

我的朋友

相关博文

压缩算法

分类： LINUX

2009-07-16 20:44:43

本节介绍几个常见的压缩算法。
（一）字典算法
字典算法是最为简单的压缩算法之一。它是把文本中出现频率比较多的单词或词汇组合做成一个对应的字典列表，并用特殊代码来表示这个单词或词汇。例如：
有字典列表：
00=Chinese
01=People
02=China
源文本：I am a Chinese people,I am from China 压缩后的编码为：I am a 00 01,I am from 02。压缩编码后的长度显著缩小，这样的编码在SLG游戏等专有名词比较多的游戏中比较容易出现，比如《SD高达》。
（二）固定位长算法（Fixed Bit Length Packing）
这种算法是把文本用需要的最少的位来进行压缩编码。
比如八个十六进制数：1，2，3，4，5，6，7，8。转换为二进制为：00000001，00000010，00000011，00000100，00000101，00000110，00000111，00001000。每个数只用到了低4位，而高4位没有用到（全为0），因此对低4位进行压缩编码后得到：0001，0010，0011，0100，0101，0110，0111，1000。然后补充为字节得到：00010010，00110100，01010110，01111000。所以原来的八个十六进制数缩短了一半，得到4个十六进制数：12，34，56，78。
这也是比较常见的压缩算法之一。

（三） RLE算法
这种压缩编码是一种变长的编码，RLE根据文本不同的具体情况会有不同的压缩编码变体与之相适应，以产生更大的压缩比率。

变体1：重复次数+字符
文本字符串：A A A B B B C C C C D D D D，编码后得到：3 A 3 B 4 C 4 D。

变体2：特殊字符+重复次数+字符
文本字符串：A A A A A B C C C C B C C C，编码后得到：B B 5 A B B 4 C B B 3 C。编码串的最开始说明特殊字符B，以后B后面跟着的数字就表示出重复的次数。

变体3：把文本每个字节分组成块，每个字符最多重复 127 次。每个块以一个特殊字节开头。那个特殊字节的第 7 位如果被置位，那么剩下的7位数值就是后面的字符的重复次数。如果第 7 位没有被置位，那么剩下 7 位就是后面没有被压缩的字符的数量。例如：文本字符串：A A A A A B C D E F F F。编码后得到：85 A 4 B C D E 83 F（85H= 10000101B、4H= 00000100B、83H= 10000011B）

以上3种不RLE变体是最常用的几种，其他还有很多很多变体算法，这些算法在Winzip Winrar这些软件中也是经常用到的。

（四） LZ77算法
LZ77算法是由 Lempel-Ziv 在1977发明的，也是GBA内置的压缩算法。LZ77算法有许多派生算法(这里面包括 LZSS算法)。它们的算法原理上基本都相同，无论是哪种派生算法，LZ77算法总会包含一个动态窗口（Sliding Window）和一个预读缓冲器（Read Ahead Buffer）。动态窗口是个历史缓冲器，它被用来存放输入流的前n个字节的有关信息。一个动态窗口的数据范围可以从 0K 到 64K，而LZSS算法使用了一个4K的动态窗口。预读缓冲器是与动态窗口相对应的，它被用来存放输入流的前n个字节，预读缓冲器的大小通常在0 – 258 之间。这个算法就是基于这些建立的。用下n个字节填充预读缓存器（这里的n是预读缓存器的大小）。在动态窗口中寻找与预读缓冲器中的最匹配的数据，如果匹配的数据长度大于最小匹配长度（通常取决于编码器，以及动态窗口的大小，比如一个4K的动态窗口，它的最小匹配长度就是2），那么就输出一对〈长度（length），距离（distance）〉数组。长度(length)是匹配的数据长度，而距离(distance)说明了在输入流中向后多少字节这个匹配数据可以被找到。

例如：（假设一个 10个字节的动态窗口, 以及一个5个字节的预读缓冲器）
文本：A A A A A A A A A A A B A B A A A A A
--------------------- =========
动态窗口预读缓存器
动态窗口中包含10个A ，这就是最后读取的10个字节。预读缓冲器包含了 B A B A A。编码的第一步就是寻找动态窗口与预读缓存器相似长度大于2的字节部分。在动态窗口中找不到B A B A A，所以B就被按照字面输出。然后动态窗口滑过1个字节，现在暂时输出了一个B。
第二步：A A A A A A A A A A A B A B A A A A A
--------------------- =========
动态窗口预读缓存器
现在预读缓冲器包含A B A A A，然后再和动态窗口进行比较。这时，在动态窗口找到了相似长度为2的A B，因此一对〈长度, 距离〉就被输出了。长度(length)是2 并且向后距离也是2，所以输出为<2,2>，然后动态窗口滑过2个字节。现在已经输出了B <2,2>。
第三步：A A A A A A A A A A A B A B A A A A A
--------------------- =========
动态窗口预读缓存器
继续上面的方法得到输出结果<5,8>。现在已经输出了B <2,2> <5,8>。
最终的编码结果是：A A A A A A A A A A A B <2,2> <5,8>。
但数组是无法直接用二进制来表示的，LZ77会把编码每八个数分成一组，每组前用一个前缀标示来说明这八个数的属性。比如数据流：A B A C A C B A C A按照LZ77的算法编码为：A B A C<2,2> <4,5>，刚好八个数。按照LZ77的规则，用“0”表示原文输出，“1”表示数组输出。所以这段编码就表示为：00001111B（等于 0FH），因此得到完整的压缩编码表示：F A B A C 2 2 4 5。虽然表面上只缩短了1个字节的空间，但当数据流很长的时候就会突出它的优势，这种算法在zip格式中是经常用到。

除此之外还有很多压缩算法，像霍夫曼编码（Huffman Encoding）等等。这些编码也是非常的著名而且压缩效率极高，不过这些编码的算法相对比较繁琐，规则也很复杂，由于篇幅就不逐一介绍了。如果大家对这方面感兴趣可以到网站相关网站查询资料。

小结：这一节介绍的几种算法在GBA上是比较容易遇到的典型算法，但绝不是说只有这几种，还是有很多时候都得自己ASM跟踪进行分析，这里介绍给大家希望能拓展大家的思维，方便进行程序分析，对于一切的问题ASM才是万能的。

阅读(990) | 评论(0) | 转发(0) |

上一篇：Linux下getsockopt/setsockopt 函数说明

下一篇：VS2005 出现warning C4996: strcpy was declared deprec

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6