lz77压缩算法-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4635728
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

最近访客

推荐博文

lz77压缩算法

分类：

2011-04-06 23:23:09

首先，对于计算机而言，没有重复冗余的数据无法被压缩，比如：a-z 26个字母组成的一段文字。人工识别为26 alphabet，能节省不少空间，但这个是加入了人工分析的一个字母表的索引，不是压缩，机器解压时也无法识别。

机器自动分析重复出现的一段文字是可行的方法。可以借鉴lz77和lzw。

lz77是适用范围广泛。需要一个装入压缩文字匹配区的滑动窗口，紧接着滑动窗口的是一个前向缓冲，存放还没有被处理的文字。压缩时采用(distance, length) 二元组来表示要匹配的最大长度文字的首文字（前向缓冲区头部）与匹配的滑动窗口中的首文字之间的距离，和匹配的文字的长度。如果没有匹配到，就单纯的输出此文字。如何区分是否有匹配到，可以在编码的最开头加一个标签，如果是0,表示有匹配中，之后跟的是二元组，如果是1,表示没有匹配中，之后跟的是一个8bit的文字。

distance的位数可以用 upper_bound( log2(滑动窗口SIZE) )来计算。length由于较长的匹配出现的概率较小，可以采用一种变长的前缀编码，如：huffman,Golomb,γ编码等节省空间的方式实现。

解码时，匹配开头标签，如果1,则输出8bit文字，如果是0,则朝滑动窗口方向寻找距离当前位置distance的文字，输出length的长度。

如果有较多的大量重复数据，比如gif中的动态变换图片那样，可以使用lzw，lzw的压缩速度比lz77快。

阅读(1525) | 评论(0) | 转发(0) |

上一篇：农夫过河问题——C语言程序设计(转)

下一篇：LZ77算法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6