wav文件格式分析-火鸡-ChinaUnix博客

火鸡的笔记本

首页　| 　博文目录　| 　关于我

火鸡

博客访问： 1175621
博文数量： 221
博客积分： 10152
博客等级：上将
技术积分： 1518
用户组：普通用户
注册时间： 2005-07-22 10:42

文章分类

全部博文（221）

python（1）
Blender（2）
ham（7）
电子（6）
科学计算（2）
天文历法（16）
WEB server（3）
DNS（6）
MZ（0）
database（22）

mysql（19）
吹水（18）
mil（0）
Linux（137）

system（10）

embed（9）

Secure（11）

shell（36）

perl（2）

C（16）

develop（15）
未分配的博文（1）

文章存档

2018年（1）

2015年（6）

2014年（3）

2013年（4）

2012年（1）

2011年（5）

2010年（14）

2009年（10）

2008年（28）

2007年（33）

2006年（114）

2005年（2）

我的朋友

相关博文

wav文件格式分析

分类： LINUX

2014-10-28 15:05:38

wav文件格式分析 2010-12-26 18:10:17

分类： C/C++

wav文件格式分析作者：曹京
日期：2006年7月17日

一、综述
WAVE文件作为多媒体中使用的声波文件格式之一，它是以RIFF格式为标准的。
RIFF是英文Resource Interchange File Format的缩写，每个WAVE文件的头四个
字节便是“RIFF”。
WAVE文件是由若干个Chunk组成的。按照在文件中的出现位置包括：RIFF WAVE
Chunk, Format Chunk, Fact Chunk(可选), Data Chunk。具体见下图：

其中除了Fact Chunk外，其他三个Chunk是必须的。每个Chunk有各自的ID，位
于Chunk最开始位置，作为标示，而且均为4个字节。并且紧跟在ID后面的是Chunk大
小（去除ID和Size所占的字节数后剩下的其他字节数目），4个字节表示，低字节
表示数值低位，高字节表示数值高位。下面具体介绍各个Chunk内容。
PS：
所有数值表示均为低字节表示低位，高字节表示高位。

    以'FIFF'作为标示，然后紧跟着为size字段，该size是整个wav文件大小减去ID
和Size所占用的字节数，即FileLen - 8 = Size。然后是Type字段，为'WAVE'，表
示是wav文件。
    结构定义如下：
struct RIFF_HEADER
{
   char szRiffID[4];   // 'R','I','F','F'
   DWORD dwRiffSize;
   char szRiffFormat[4]; // 'W','A','V','E'
};

    以'fmt '作为标示。一般情况下Size为16，此时最后附加信息没有；如果为18
则最后多了2个字节的附加信息。主要由一些软件制成的wav格式中含有该2个字节的
附加信息。
    结构定义如下：
struct WAVE_FORMAT
{
   WORD wFormatTag;
   WORD wChannels;
   DWORD dwSamplesPerSec;
   DWORD dwAvgBytesPerSec;
   WORD wBlockAlign;
   WORD wBitsPerSample;
};
struct FMT_BLOCK
{
   char   szFmtID[4]; // 'f','m','t',' '
   DWORD   dwFmtSize;
   WAVE_FORMAT wavFormat;
};

补充头文件样例说明：

这里按十六进制换算，依次由低字节到高字节存放，注意，是按字节计算的，比如代表声道数的是“01 00”，这是一个WORD，对应十六进制是0x0001，即数字1，表示声道数为1；“10 00”，这是一个WORD，对应WAVE文件的采样位数，十六进制0x0010，数值为16，即采样大小为16Bits

首先是一串“52 49 46 46”这个是Ascii字符“RIFF”，这部分是固定格式，表明这是一个WAVE文件头。
然后是“E4 3C 00 00”，这个是我这个WAV文件的数据大小，记住这个大小是包括头文件的一部分的，包括除了前面8个字节的所有字节，也就等于文件总字节数减去8。这是一个DWORD，我这个文件对应是15588。
然后是“57 41 56 45 66 6D 74 20”，也是Ascii字符“WAVEfmt”，这部分是固定格式。
然后是PCMWAVEFORMAT部分，可以对照一下上面的struct定义，首先就是一个WAVEFORMAT的struct。
随后是“10 00 00 00”，这是一个DWORD，对应数字16，这个对应定义中的Sizeof(PCMWAVEFORMAT)，后面我们可以看到这个段内容正好是16个字节。
随后的字节是“01 00”，这是一个WORD，对应定义为编码格式“WAVE_FORMAT_PCM”，我们一般用的是这个。
随后的是“01 00”，这是一个WORD，对应数字1，表示声道数为1，这是个单声道Wav。
随后的是“22 56 00 00”，这是一个DWORD，对应数字22050，代表的是采样频率22050。
随后的是“44 AC 00 00”，这是一个DWORD，对应数字44100，代表的是每秒的数据量。
然后是“02 00”，这是一个WORD，对应数字是2，表示块对齐的内容，含义不太清楚。
然后是“10 00”，这是一个WORD，对应WAVE文件的采样大小，数值为16，采样大小为16Bits。
然后是一串“64 61 74 61”，这个是Ascii字符“data”，标示头结束，开始数据区域。
而后是数据区的开头，有一个DWORD，我这里的字符是“C0 3C 00 00”，对应的十进制数为15552，看一下前面正好可以看到，文件大小是15596，其中到“data”标志出现为止的头是40个字节，再减去这个标志的4个字节正好是15552，再往后面就是真正的Wave文件的数据体了，头文件的解析就到这里。

    Fact Chunk是可选字段，一般当wav文件由某些软件转化而成，则包含该Chunk。
    结构定义如下：
struct FACT_BLOCK
{
   char   szFactID[4]; // 'f','a','c','t'
   DWORD   dwFactSize;
};

    Data Chunk是真正保存wav数据的地方，以'data'作为该Chunk的标示。然后是
数据的大小。紧接着就是wav数据。根据Format Chunk中的声道数以及采样bit数，
wav数据的bit位置可以分成以下几种形式：
    ---------------------------------------------------------------------
    |   单声道    |    取样1    |    取样2    |    取样3    |    取样4    |
    |                  | --------------------------------------------------------
    | 8bit量化 |    声道0    |    声道0    |    声道0    |    声道0    |
    ---------------------------------------------------------------------
    |   双声道    |          取样1                      |           取样2                      |
    |                  |--------------------------------------------------------
    | 8bit量化 | 声道0(左) | 声道1(右) | 声道0(左) | 声道1(右) |
    ---------------------------------------------------------------------
    |                    |          取样1                         |           取样2                       |
    |   单声道     |--------------------------------------------------------
    | 16bit量化 |    声道0        | 声道0           |    声道0      | 声道0          |
    |                    | (低位字节) | (高位字节) | (低位字节) | (高位字节) |
    ---------------------------------------------------------------------
    |                   |                         取样1                                                      |
    |   双声道     |--------------------------------------------------------
    | 16bit量化 | 声道0(左)    | 声道0(左) | 声道1(右)    | 声道1(右)   |
    |                    | (低位字节) | (高位字节) | (低位字节) | (高位字节) |
    ---------------------------------------------------------------------
                         图6 wav数据bit位置安排方式

    Data Chunk头结构定义如下：
    struct DATA_BLOCK
{
   char szDataID[4]; // 'd','a','t','a'
   DWORD dwDataSize;
};

三、小结
因此，根据上述结构定义以及格式介绍，很容易编写相应的wav格式解析代码。
这里具体的代码就不给出了。

阅读(813) | 评论(0) | 转发(0) |

上一篇：shell字符串的截取

下一篇：WAV文件播放

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6