Mpeg音频压缩简介
未经压缩的音频,例如CD,储存的数据比人脑能够处理的还多。例如如果两个音调非常接近,人脑就只能感知其中一个。如果两个声音相差很多,但是一个比另一
个强很多,人脑通常就无法感知较弱的一个。一个人的耳朵,和其他人相比,可能对某几个频率的声音更敏感。研究这些声音现象的学问称为“心理声学”,这门学
问已经有了很多的研究成果,人们现在已经可以用图标很准确地描述这些现象,并且可以通过数学模型表示人类听觉的一些模式。
Mp3压缩工具分析输入的源信号,将其分解为数学模式,并且将这些数学模式和编码器中保存的心理声学模型作比较。这样一来编码器就可以只保留那些和心理声
学模型匹配的数据,而把那些不匹配的数据丢掉,被丢弃的数据占了输入信号的绝大部分。控制编码过程的人可以指定输出信号的比特率,输出信号的比特率越低,
丢弃的数据就越多,压缩后的音频质量就越低。这种压缩称为有损压缩,因为压缩过程中有数据损失。上述过程结束之后,编码器会对第一趟压缩产生的数据用传统
的数据压缩算法进行第二趟压缩,这一趟压缩会使最后的输出数据量进一步减小。
Mp3文件由一系列的“帧”构成,帧帧相连,好像一卷电影胶片。每一帧数据前都有一个“头部”,头部包含了帧内数据的一些额外信息。在某些编码方式里,这
些帧之间可以有交互。例如如果一个帧有剩余的存储空间(对定长的帧而言),而下一个帧存储空间不足,他们就可以把两帧内的数据进行跨帧分配以达到最好的空
间利用率。
在mp3文件的开始或者结尾处,保存了一些关于文件本身的额外信息,比如这段音频作者的名字,音轨的名字,唱片集的名字,录制时间,作品流派,甚至是个人评论等等。这些数据被称为”ID3数据”。
波形和心理声学
世间万物都是振动(或者说是波)。宇宙由不同波长的波构成,振动于不同频率的波表现出不同的特性,从宇宙本身的缓慢振动,到人类无法感知的物质本身的高速
振动,振动无处不在。在上述两种极端情况之间,有一些波长的波是人类能够感知的,比如声音和光。例如可以引起听觉的波长范围两端之外,分别是超声和次声;
可以引起视觉的光波范围两端之外,分别是红外和紫外光谱区。除此之外还有难以数计的、人类无法感知的频率范围(例如无线电波——广播电视信号、
GSM/CDMA信号,微波炉的微波等等)。
相对宇宙中存在的全部波长范围来说,我们的感官能感知的只是其中很小的一部分。实际上我们平常使用的乐器,会发出很多人耳不能感知的振动。频率的单位通常
是赫兹,即“每秒钟的周期数”。一般来说,人耳能听到的频率范围是20赫兹-20K赫兹(宽度19980赫兹),不同个体的听觉有所不同,但基本上,人都
是感知中频声音比较容易,感知低频、高频声音比较困难。人对高频声音的感知力会随着年龄增大而下降,长时间暴露于高强度声音中也会使感知高频声音的能力下
降。事实上一般人成年以后很难感知16K赫兹以上的声音,绝大多数人能敏锐感知的声音频率范围的宽度不过2K~4K赫兹——正常情况下人类语音的频率范围
是500HZ-2KHZ,宽度为1.5K赫兹,所以上述2K-4KHZ的敏感频率范围宽度可能是和人类的不断进化有关的。
现在我们对人类的听觉机制,已经有了简单、确定的经验观测结论。但是有人提出,人类的意识会起到一种类似减压阀的作用,将真正重要的信息保留下来以待处
理,而忽视了绝大部分无关信息。这个学说认为,我们实际处理的信息量,还不足我们五官感知的总信息量的十亿分之一。我们的意识在这里起到了一个筛选作用,
从输入信号中筛选出最重要的信息,以便我们能集中关注对我们真正有意义的事。
感知编解码器的原理之一,就是丢弃那些本不能被人类感知的数据。这听上去好像挺简单挺明显的,但是你不知道,一个品质优良的原始音频数据储存了大量无法
“听到”的“声音”数据。因为录音设备(例如一个优质麦克风)和我们的耳朵相比,对更为宽广的频率范围敏感,并且有更高的分辨率。
阅读(1769) | 评论(0) | 转发(0) |