深度学习与语音识别—常用声学模型简介
2016-12-30 15:06
519 查看
2006年,Hinton提出深度学习网络,指出深度神经网络因为层数过多导致训练参数多的问题可以利用逐层初始化解决。在工业界和学术界掀起了深度学习的浪潮,并在语音识别和图像处理领域取得了巨大成功。2011年微软和谷歌在语音识别上采用DNN模型,将词错误率降低20%-30%。这里的DNN主要采用的是DBN,即深度置信网络。随着语音识别以及深度学习的发展,研究人员发现将CNN和RNN模型应用于语音识别领域可以取得更好的效果。本文中主要介绍声学模型的优缺点。
CNN模型,即卷积神经网络,最开始应用于图像处理。而语音识别中的频谱图,应用于CNN模型,可以克服传统语音识别中采用时间、频率而导致的不稳定问题。DBN和CNN模型没有考虑语音之间的关联信息。而RNN模型,充分考虑了语音之间的相互关系,因此取得更加好的效果。现有的最好的基于深度学习的语音识别一般是基于DBN+CNN+RNN模型的。
上述总结成为,现有的声学模型建立,一般可分为:
(1)混合声学模型
混合高斯-隐马尔科夫模型 GMM-HMM
深度神经网络-隐马尔科夫模型 DNN-HMM
深度循环神经网络-隐马尔科夫模型 RNN-HMM
深度卷积神经网络-隐马尔科夫模型 CNN-HMM
(2)端到端的声学模型
连接时序分类-长短时记忆模型CTC-LSTM
注意力模型Attention
各个模型的优缺点介绍
(1)基于GMM-HMM的声学模型
优点:GMM训练速度快
声学模型较小,容易移植到嵌入式平台
缺点:GMM没有利用帧的上下文信息
GMM不能学习深层非线性特征变换
(2)基于DNN-HMM模型
优点: DNN能利用帧的上下文信息,比如前后个扩展5帧
DNN能学习深层非线性特征变换,表现优于GMM
缺点: 不能利用历史信息来辅助当前任务
(3)基于RNN-HMM模型:
优点: RNN能有效利用历史信息,将历史消息持久化
在很多任务上,RNN性能变现优于DNN
缺点: RNN随着层数的增加,会导致梯度爆炸或者梯度消失
(4)基于CNN-HMM声学模型
优点:CNN对于语音信号,采用时间延迟卷积神经网络可以很好地对信号进行描述学习
CNN比其他神经网络更能捕捉到特征的不变形
接下来将详细介绍各个声学模型的应用,现在比较熟悉的是DBN模型以及CNN模型,而RNN模型还在学习中。
CNN模型,即卷积神经网络,最开始应用于图像处理。而语音识别中的频谱图,应用于CNN模型,可以克服传统语音识别中采用时间、频率而导致的不稳定问题。DBN和CNN模型没有考虑语音之间的关联信息。而RNN模型,充分考虑了语音之间的相互关系,因此取得更加好的效果。现有的最好的基于深度学习的语音识别一般是基于DBN+CNN+RNN模型的。
上述总结成为,现有的声学模型建立,一般可分为:
(1)混合声学模型
混合高斯-隐马尔科夫模型 GMM-HMM
深度神经网络-隐马尔科夫模型 DNN-HMM
深度循环神经网络-隐马尔科夫模型 RNN-HMM
深度卷积神经网络-隐马尔科夫模型 CNN-HMM
(2)端到端的声学模型
连接时序分类-长短时记忆模型CTC-LSTM
注意力模型Attention
各个模型的优缺点介绍
(1)基于GMM-HMM的声学模型
优点:GMM训练速度快
声学模型较小,容易移植到嵌入式平台
缺点:GMM没有利用帧的上下文信息
GMM不能学习深层非线性特征变换
(2)基于DNN-HMM模型
优点: DNN能利用帧的上下文信息,比如前后个扩展5帧
DNN能学习深层非线性特征变换,表现优于GMM
缺点: 不能利用历史信息来辅助当前任务
(3)基于RNN-HMM模型:
优点: RNN能有效利用历史信息,将历史消息持久化
在很多任务上,RNN性能变现优于DNN
缺点: RNN随着层数的增加,会导致梯度爆炸或者梯度消失
(4)基于CNN-HMM声学模型
优点:CNN对于语音信号,采用时间延迟卷积神经网络可以很好地对信号进行描述学习
CNN比其他神经网络更能捕捉到特征的不变形
接下来将详细介绍各个声学模型的应用,现在比较熟悉的是DBN模型以及CNN模型,而RNN模型还在学习中。
相关文章推荐
- 深度学习在语音识别中的声学模型以及语言模型的应用
- 常用网络模型结构LeNet,AlexNET,VGG,BN-inception,ResNet网络模型简介和资料整理--caffe学习(8)
- 小知识:深度学习的5大常用模型解读
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- Deep Learning(深度学习)之(三)Deep Learning的常用模型或者方法
- 常用深度学习框架简介
- keras实现常用深度学习模型LeNet,AlexNet,ZFNet,VGGNet,GoogleNet,Resnet
- Deep Learning(深度学习)学习笔记整理系列之常用模型
- 小知识:深度学习的5大常用模型解读
- keras实现常用深度学习模型LeNet,AlexNet,ZFNet,VGGNet,GoogleNet,Resnet
- 深度学习与文本分类总结第一篇--常用模型总结
- Deep Learning(深度学习)学习笔记整理系列之常用模型(四、五、六、七)
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- Deep Learning(深度学习)之(三)Deep Learning的常用模型或者方法
- 深度学习之四:常用模型和方法
- 【深度学习】常用的模型评估指标
- Pocketsphinx语音识别--重新训练声学模型
- 深度学习(Deep Learning)算法简介
- 深度学习 Deep Learning简介 (二):浅层学习(Shallow Learning)和深度学习(Deep Learning)
- 3-深度学习-自然语言模型