Technologies for speech and audio coding
2011-01-10 15:26
323 查看
时域编码
当前大多数的语音编码方案是基于时域预测编码。尤其是
CELP
编码框架
频域编码
当前大多数的音频编码方案是基于频域编码的。通过利用非平衡的能量分布在频域获得有效的和自适应的量化噪声控制。这种非平衡性与音频信号的特性有关,像相邻的采样点之间有很强的相关性。编码过程中,最大程度的比特减少也是来自于相关性。在此之上,我们同时在频域利用人类感知特性,例如,掩蔽效应能极大的增强感知音频质量。对于变换,
MDCT
(修正离散余弦变换)非常重要,它能有效的获得信号的频域表示,同时没有引入帧边界的失真。
ITU-T
的语音编码标准:
ITU-T
在制定语音通信标准方面有很长的历史。到
2000
年,大部分的努力都用在比特率的减少上,大多数的标准直接或通过轻微的修改后用于移动应用中,当比特率的减少到达极限后,其更多的努力是用在扩展功能的带宽上,以及与旧系统的兼容性的可扩展上。
G.711-narrowband telephone bandwidth(8-kHz sampling) speech.
广泛的用于双向有线和无线通信,最老的但仍应用最广的标准。
Wideband or Scalable Speech Coding
在窄带语音编码的基础上,大量的标准编码方案用于语音和音频信号的编码,同时有更宽的频带。
G.722
设计用于宽带语音(
16-kHz sample
)比特率为
64kbps
。后来,
G.722.1
和
G.722.2
定义为更低的比特率。尽管
G.722.2
是基于时域
CELP
,另外基于变换编码。
G.722.1 Annex C
是一个扩展,覆盖超宽带信号(
32-kHz sample
)。
G.719
设计用于全频带信号(
48-kHz sample
)。
ISO/IEC MPEG
音频编码标准
自从
1988
年,
ISO/IEC MPEG
开始致力于音频和视频编码方案的标准的指定,产生了非常重要的音频压缩编码方案,像
MPEG layer II
,
MPEG Layer-III (MP3)
和
MPEG AAC (Advanced Audio Coding).
在
MPEG-4
标准中,一些新的技术用来扩展和增强编码方案像
AAC
。并行的,在
MPEG
中,三种类型的无损编码标准已经标准化,
USAC
是最新的和最活跃的标准化工程,我们注意到语音和音频引用正在融合,因此,这些标准方案被联合起来。
AAC
扩展家族技术
:
Ø
SBR
技术
SBR
(频带复制技术)通过信号的低频部分和子带域的一些参数来提供高频带信号的有效表示。这种技术可以结合
AAC
使用来提高编码效率,
也用在
HE-AAC
配置中,用于低比特率音频编码。
HE-AAC
的典型应用是移动广播和音乐下载服务。
Ø
MPEG surround
是一种有效的多通道(例如,
5.1
声道)编码方案,结合过去的立体声压缩编码像
AAC
。多声道信号可以通过立体声信号利用子带域的一些从多声道到立体声信号的映射的参数简单地重建。
Ø
AAC-ELD
(增强低延时
AAC
)
基于特殊设计的用于
HE-AAC
的短帧窗发展而来的一种新的低延时音频编码器。能用于双向通信,可以喝
ITU-T
的一些全频带编码标准竞争。
Ø
SAOC
(空间音频对象编码)是
MPEG surround
的扩展,解码器通过利用
”MPEG surround”
比特流和输入对象的信息可以灵活和有效的呈现多声道声音。
无损编码家族:
MPEG
已经定义了三种类型的无损(可逆的)编码方案用于高质量音频应用。一种是时域预测
ALS
(音频无损编码)用于线性
PCM
信号。另一种方案是频域可扩展
SLS
(可扩展无损编码)用于线性
PCM
。最后一种是
DST
(数字流转移)用于
DSD
(直接数据流,一种比特过采样的数据格式)。所有的这些标准大约在
2005
年建立,将逐渐的变得在市场上可用,所有的重建的波形与原始可变长度编码方案的相似。同时
ITU-T
也开始了
log-PCM
无损编码的标准化,这将有助于
VoIP
传输声道的平均带宽的降低。
USAC
(联合语音和音频编码)
低比特率的语音编码对于语音信号能提高很好的声音,但是对于音频信号效果不好,相反的,音频编码对于音频信号能取得很好的效果,但是不适合语音。实际上,有许多的音频内容同时包括语音和音乐。
USAC
目的是主要用于同一编码方案的标准化,对于各种信号类型少于
24kbps
。
最有发展潜力的提案已近选出作为参考模型,改善方案正在积极的执行中,参考模型基本上是基于自适合(
clever
)选择语音编码(
AMR-WB+
)和音频编码(
HE-AAC
结合
MPEG Surround
)。这种规范将在一年内定下来。
USAC
对于低比特率通用编码将会有重大意义,在各种市场将会被广泛接受,不幸的是,由于编码和解码处理中,其将产生大于
100ms
的延时,音质主要依赖于在编码端正确的选择编码模型,因为基本的结构是在不同的时间帧结合语音和音频编码,尽管在
USAC
标准化后,仍需要更多的工作得到最后的目标。在极低的延时下获得相似的音质,这将使用于双向通信。
当前大多数的语音编码方案是基于时域预测编码。尤其是
CELP
编码框架
频域编码
当前大多数的音频编码方案是基于频域编码的。通过利用非平衡的能量分布在频域获得有效的和自适应的量化噪声控制。这种非平衡性与音频信号的特性有关,像相邻的采样点之间有很强的相关性。编码过程中,最大程度的比特减少也是来自于相关性。在此之上,我们同时在频域利用人类感知特性,例如,掩蔽效应能极大的增强感知音频质量。对于变换,
MDCT
(修正离散余弦变换)非常重要,它能有效的获得信号的频域表示,同时没有引入帧边界的失真。
ITU-T
的语音编码标准:
ITU-T
在制定语音通信标准方面有很长的历史。到
2000
年,大部分的努力都用在比特率的减少上,大多数的标准直接或通过轻微的修改后用于移动应用中,当比特率的减少到达极限后,其更多的努力是用在扩展功能的带宽上,以及与旧系统的兼容性的可扩展上。
G.711-narrowband telephone bandwidth(8-kHz sampling) speech.
广泛的用于双向有线和无线通信,最老的但仍应用最广的标准。
Wideband or Scalable Speech Coding
在窄带语音编码的基础上,大量的标准编码方案用于语音和音频信号的编码,同时有更宽的频带。
G.722
设计用于宽带语音(
16-kHz sample
)比特率为
64kbps
。后来,
G.722.1
和
G.722.2
定义为更低的比特率。尽管
G.722.2
是基于时域
CELP
,另外基于变换编码。
G.722.1 Annex C
是一个扩展,覆盖超宽带信号(
32-kHz sample
)。
G.719
设计用于全频带信号(
48-kHz sample
)。
ISO/IEC MPEG
音频编码标准
自从
1988
年,
ISO/IEC MPEG
开始致力于音频和视频编码方案的标准的指定,产生了非常重要的音频压缩编码方案,像
MPEG layer II
,
MPEG Layer-III (MP3)
和
MPEG AAC (Advanced Audio Coding).
在
MPEG-4
标准中,一些新的技术用来扩展和增强编码方案像
AAC
。并行的,在
MPEG
中,三种类型的无损编码标准已经标准化,
USAC
是最新的和最活跃的标准化工程,我们注意到语音和音频引用正在融合,因此,这些标准方案被联合起来。
AAC
扩展家族技术
:
Ø
SBR
技术
SBR
(频带复制技术)通过信号的低频部分和子带域的一些参数来提供高频带信号的有效表示。这种技术可以结合
AAC
使用来提高编码效率,
也用在
HE-AAC
配置中,用于低比特率音频编码。
HE-AAC
的典型应用是移动广播和音乐下载服务。
Ø
MPEG surround
是一种有效的多通道(例如,
5.1
声道)编码方案,结合过去的立体声压缩编码像
AAC
。多声道信号可以通过立体声信号利用子带域的一些从多声道到立体声信号的映射的参数简单地重建。
Ø
AAC-ELD
(增强低延时
AAC
)
基于特殊设计的用于
HE-AAC
的短帧窗发展而来的一种新的低延时音频编码器。能用于双向通信,可以喝
ITU-T
的一些全频带编码标准竞争。
Ø
SAOC
(空间音频对象编码)是
MPEG surround
的扩展,解码器通过利用
”MPEG surround”
比特流和输入对象的信息可以灵活和有效的呈现多声道声音。
无损编码家族:
MPEG
已经定义了三种类型的无损(可逆的)编码方案用于高质量音频应用。一种是时域预测
ALS
(音频无损编码)用于线性
PCM
信号。另一种方案是频域可扩展
SLS
(可扩展无损编码)用于线性
PCM
。最后一种是
DST
(数字流转移)用于
DSD
(直接数据流,一种比特过采样的数据格式)。所有的这些标准大约在
2005
年建立,将逐渐的变得在市场上可用,所有的重建的波形与原始可变长度编码方案的相似。同时
ITU-T
也开始了
log-PCM
无损编码的标准化,这将有助于
VoIP
传输声道的平均带宽的降低。
USAC
(联合语音和音频编码)
低比特率的语音编码对于语音信号能提高很好的声音,但是对于音频信号效果不好,相反的,音频编码对于音频信号能取得很好的效果,但是不适合语音。实际上,有许多的音频内容同时包括语音和音乐。
USAC
目的是主要用于同一编码方案的标准化,对于各种信号类型少于
24kbps
。
最有发展潜力的提案已近选出作为参考模型,改善方案正在积极的执行中,参考模型基本上是基于自适合(
clever
)选择语音编码(
AMR-WB+
)和音频编码(
HE-AAC
结合
MPEG Surround
)。这种规范将在一年内定下来。
USAC
对于低比特率通用编码将会有重大意义,在各种市场将会被广泛接受,不幸的是,由于编码和解码处理中,其将产生大于
100ms
的延时,音质主要依赖于在编码端正确的选择编码模型,因为基本的结构是在不同的时间帧结合语音和音频编码,尽管在
USAC
标准化后,仍需要更多的工作得到最后的目标。在极低的延时下获得相似的音质,这将使用于双向通信。
相关文章推荐
- Background noise suppression for speech enhancement and coding
- Scalable Wavelet Coding of Wideband Speech and Audio
- RTP Payload Format for Opus Speech and Audio Codec
- Coding for NEON - Part 4: Shifting Left and Right
- Shellcoding for Linux and Windows Tutorial
- "Can I use" provides up-to-date browser support tables for support of front-end web technologies on desktop and mobile web browsers.
- Building Web Parts for Microsoft SharePoint Products and Technologies
- Handbook on Information Technologies for Education and Training
- NEON-----------------Coding for NEON - Part 1: Load and Stores
- Tips For Working With Unity #4: Coding and General Tips
- Using Wppackager to Package and Deploy Web Parts for Microsoft SharePoint Products and Technologies
- New Audio Codec (4) : Daryl Ning 的 Warped LPC and Wavelet Audio Coding 方案
- A Performance Evaluation and Examination of Open-Source Erasure Coding Libraries For Storage
- Command-line reference for the SharePoint Products and Technologies Configuration Wizard
- Coding Standards and Best Practices for "appobjects" Files
- Claim-Based Identity for Windows: Technologies and Scenarios
- Some notes for Codecs and Speech Versions applied in GSM and UMTS
- A streaming audio player class (AudioStreamer) for Mac OS X and iPhone
- ARM指令优化-Coding for NEON - Part 4: Shifting Left and Right
- OpenEars 语音处理Welcome to OpenEars: free speech recognition and speech synthesis for the iPhone