您的位置：首页 > 其它

Wav文件格式简要分析

2017-04-14 17:43 218 查看

WAVE文件格式是Microsoft的RIFF规范的一个子集，用于存储数字音频，整个文件就是一个RIFF大块，它的基本形式包括两种块：fmt块，用于描述压缩格式、采样率等基本信息；data块。包含实际样本数据。

RIFF标头结构定义

struct RIFF_HEADER
{
char szRiffID[4];  // 四个字符'R','I','F','F'，像这样的字符是低字节存高位，即地址从低到高依次读出'R','I','F','F'
DWORD dwRiffSize;//文件总数据量-8字节（即除去开头8字节），像这样的数字是低字节存低位，读数时应从高字节向低字节读，才能正确读出
char szRiffFormat[4]; //四个字符 'W','A','V','E'
};


地址	字节数	数据类型	变量名	内容
00H~03H	4	char	szRiffID[4]	‘R”I”F”F’标志
04H~07H	4	DWORD	dwRiffSize	文件大小，不包括前8字节
08H~0BH	4	char	szRiffFormat[4]	‘W”A”V”E’标志

FMT块结构定义

先定义一个关于波形文件信息的结构体，再把这个结构体作为FMT块结构体的一个成员。

struct WAVE_FORMAT
{
WORD wFormatTag;// 编码方法，PCM编码时为1，其他压缩方法时参见下文中“wav格式支持的压缩方法”
WORD wChannels;//通道数，1为单声道，2为双声道
DWORD dwSamplesPerSec;//采样率，即每秒的样本数
DWORD dwAvgBytesPerSec; //传输速率，每秒字节数=采样率*每个样点字节数（即下面的wBlockAlign）
WORD wBlockAlign; //每个样点字节数=样本宽度*通道数/8
WORD wBitsPerSample; //样本宽度，即一个样值用多少位表示，通常为8或16
};

FMT块结构体

struct FMT_BLOCK
{
char  szFmtID[4]; // 'f','m','t',三个字符，最后一个字节为空格
DWORD  dwFmtSize;//fmt块的字节数（编码方式为pcm时为16，即下面结构体成员的字节数，不为pcm时，为），不包括前8个字节
WAVE_FORMAT wavFormat;// 上面那个结构体
};


地址	字节数	数据类型	变量名	内容
0CH~0FH	4	char	szFmtID[4]	‘f”m”t’标志
10H~13H	4	DWORD	dwFmtSize	fmt块大小，不包括前8字节（一般为16）
14H~15H	2	WORD	wFormatTag	标识文件采用的编码方法
16H~17H	2	WORD	wChannels	标识单/双(1/2)声道
18H~1BH	4	DWORD	dwSamplesPerSec	采样率
1CH~1FH	4	DWORD	dwAvgBytesPerSec	传输速率
20H~21H	2	WORD	wBlockAlign	每个样点字节数
22H~23H	2	WORD	wBitsPerSample	样本宽度
附加信息（24H~25H）	2	WORD		额外的字节数，即下面2字节的WORD ，当wFormatTag不是pcm时会有这最后两项
附加信息（26H~27H）	2	WORD		每一个data block的采样点数，因为在采用IMA-ADPCM压缩算法data chuck中的数据是以block形式来组织的

可选部分fact chunk

当wav文件由某些软件转成，会含有该chunk，结构定义如下：

struct FACT_BLOCK
{
char  szFactID[4]; //四个字符 'f','a','c','t'
DWORD  dwFactSize;
};

Data chunk头结构定义

struct DATA_BLOCK
{
char szDataID[4]; // 四个字符'd','a','t','a'
DWORD dwDataSize;//数据块字节数，不含前8个字节
};

数据块的具体组织格式，在下面，8bit和16bit的区别中介绍。

QUESTION1: 8bit和16bit样值的二进制编码方式表示一样吗?

对于wFormatTag为WAVE_FORMAT_PCM格式时的非压缩数据，data chunk中紧跟着DataChunkSize后的PCM数据组成如下：

8bit（无符号0~255）

单声道

双声道

16bit：有符号 -32768~32767

单声道

双声道

对于其他压缩形式，储存格式就更为复杂。比如wFormatTag为IMA-ADPCM时，数据从PCM16位采样压缩成4位，单声道是按采样次序写入，每字节2两个样点，低4位是第一个样点，高4位是第二个样点，双声道是先写左声道前8个样点，也就是4字节，作为一个DWORD，再写右声道8个样点，作为一个DWORD，写到最后如果不够8个样点就补0到8个样点。

QUESTION2: 上面提到了ADPCM的压缩格式，那么现有的WAV支持哪几种音频压缩方法？

wFormatTag有10个值对应10种编码算法：


wFormatTag值	编码算法
0001H	PCM/uncompressed
0002H	Microsoft ADPCM
0006H	ITU G.711 a-law
0007H	ITU G.711 Âµ-law
0011H	IMA ADPCM
0016H	ITU G.723 ADPCM (Yamaha)
0031H	GSM 6.10
0040H	ITU G.721 ADPCM
0050H	MPEG
FFFFH	Experimental

QUESTION3: 广泛采用的WAV文件为16bit、 44.1kHz，那么采样率48khz的wav文件如何转换成44.1khz？

由于44.1khz与48khz不是整数倍的关系，所以要先插值再重新取样，48k和44.1k的公倍数为7056k，所以先插值为7056k(=48 k *147=44.1k*160)，比如说有一秒钟的数据量，可以在每个样值后面复制146个该样值达到插值的目的，然后从第一个样值开始取，每隔159个样值取一个新样值，最后就取出了44.1k个样值，就完成了采样率的转换。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航