您的位置：首页 > 其它

语音识别技术学习系列（一）——入门

2015-03-15 19:56 387 查看

从这一篇开始，陆续学习语音识别技术，由浅入深。

这一篇是入门，主要学习的是语音识别技术的大致步骤，以及现在的几种主流方法。

下图是语音识别技术的系统框图：

主要包括这样几个步骤：

1）预处理。对输入语音信号进行预加重和分帧加窗等处理，过滤其中不重要信息及背景噪声，进行端点检测，以确定有效的语音段；

2）特征提取。常见的特征参数有基于时域的幅度、过零率、能量，以及基于频域的线性预测倒谱系数（LPCC）、Mel倒谱系数（MFCC）等；

3）模式匹配。

目前已有几种主流的语音识别技术：

1）动态时间规整（DTW）技术。采用动态规整法，并结合时间变换关系，得到特征矢量之间的距离，是语音识别中的一种经典算法。DTW技术比较容易实现，但是不能充分利用语音信号的时序特性和动态特征，因此适合用于孤立词、小词汇等相对简单的汉语语音识别系统。

2）隐马尔可夫模型（HMM）技术。HMM用马尔科夫链中的状态表示语音的发音过程，在单字生成过程中，系统由一个状态转移到另一个状态，在每个状态下产生一个输出，直至该单字输出完毕。HMM用马尔科夫链来模拟信号的变化过程，在通过序列间接地描述这种变化，因此它是一个双重随机过程，因而能很好地描述语音信号的总体非平稳性和短时平稳性。

HMM需要对当前的状态序列分布作先验假设；对高层次声学音素建模能力弱，使声学上相似词容易混淆；HMM语音识别系统用硬件实现起来比较困难。

3）人工神经网络（ANN）技术。训练时间长。

现有语音识别的难点：

1）识别性能依赖周围环境。当训练环境和测试环境不一样时，效果变差；

2）噪声问题。如何去噪；

3）语音信息的模糊性。读音相似的词语，同音不同意思的词语，如何识别。

参考：

《基于隐马尔可夫模型的额语音识别技术研究》

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航