Mpeg音频压缩简介
未经压缩的音频,例如CD,储存的数据比人脑能够处理的还多。例如如果两个音调非常接近,人脑就只能感知其中一个。如果两个声音相差很多,但是一个比另一个强很多,人脑通常就无法感知较弱的一个。一个人的耳朵,和其他人相比,可能对某几个频率的声音更敏感。研究这些声音现象的学问称为“心理声学”,这门学问已经有了很多的研究成果,人们现在已经可以用图标很准确地描述这些现象,并且可以通过数学模型表示人类听觉的一些模式。
Mp3压缩工具分析输入的源信号,将其分解为数学模式,并且将这些数学模式和编码器中保存的心理声学模型作比较。这样一来编码器就可以只保留那些和心理声学模型匹配的数据,而把那些不匹配的数据丢掉,被丢弃的数据占了输入信号的绝大部分。控制编码过程的人可以指定输出信号的比特率,输出信号的比特率越低,丢弃的数据就越多,压缩后的音频质量就越低。这种压缩称为有损压缩,因为压缩过程中有数据损失。上述过程结束之后,编码器会对第一趟压缩产生的数据用传统的数据压缩算法进行第二趟压缩,这一趟压缩会使最后的输出数据量进一步减小。
Mp3文件由一系列的“帧”构成,帧帧相连,好像一卷电影胶片。每一帧数据前都有一个“头部”,头部包含了帧内数据的一些额外信息。在某些编码方式里,这些帧之间可以有交互。例如如果一个帧有剩余的存储空间(对定长的帧而言),而下一个帧存储空间不足,他们就可以把两帧内的数据进行跨帧分配以达到最好的空间利用率。
在mp3文件的开始或者结尾处,保存了一些关于文件本身的额外信息,比如这段音频作者的名字,音轨的名字,唱片集的名字,录制时间,作品流派,甚至是个人评论等等。这些数据被称为”ID3数据”。
波形和心理声学
世间万物都是振动(或者说是波)。宇宙由不同波长的波构成,振动于不同频率的波表现出不同的特性,从宇宙本身的缓慢振动,到人类无法感知的物质本身的高速振动,振动无处不在。在上述两种极端情况之间,有一些波长的波是人类能够感知的,比如声音和光。例如可以引起听觉的波长范围两端之外,分别是超声和次声;可以引起视觉的光波范围两端之外,分别是红外和紫外光谱区。除此之外还有难以数计的、人类无法感知的频率范围(例如无线电波——广播电视信号、 GSM/CDMA信号,微波炉的微波等等)。
相对宇宙中存在的全部波长范围来说,我们的感官能感知的只是其中很小的一部分。实际上我们平常使用的乐器,会发出很多人耳不能感知的振动。频率的单位通常是赫兹,即“每秒钟的周期数”。一般来说,人耳能听到的频率范围是20赫兹-20K赫兹(宽度19980赫兹),不同个体的听觉有所不同,但基本上,人都是感知中频声音比较容易,感知低频、高频声音比较困难。人对高频声音的感知力会随着年龄增大而下降,长时间暴露于高强度声音中也会使感知高频声音的能力下降。事实上一般人成年以后很难感知16K赫兹以上的声音,绝大多数人能敏锐感知的声音频率范围的宽度不过2K~4K赫兹——正常情况下人类语音的频率范围是500HZ-2KHZ,宽度为1.5K赫兹,所以上述2K-4KHZ的敏感频率范围宽度可能是和人类的不断进化有关的。
现在我们对人类的听觉机制,已经有了简单、确定的经验观测结论。但是有人提出,人类的意识会起到一种类似减压阀的作用,将真正重要的信息保留下来以待处理,而忽视了绝大部分无关信息。这个学说认为,我们实际处理的信息量,还不足我们五官感知的总信息量的十亿分之一。我们的意识在这里起到了一个筛选作用,从输入信号中筛选出最重要的信息,以便我们能集中关注对我们真正有意义的事。
感知编解码器的原理之一,就是丢弃那些本不能被人类感知的数据。这听上去好像挺简单挺明显的,但是你不知道,一个品质优良的原始音频数据储存了大量无法 “听到”的“声音”数据。因为录音设备(例如一个优质麦克风)和我们的耳朵相比,对更为宽广的频率范围敏感,并且有更高的分辨率。
阅读(1107) | 评论(0) | 转发(0) |