speech recognition with deep recurrent neural networks-论文笔记
2016-01-11 16:16
961 查看
论文题目:speech recognition with deep recurrent neural networks
作者:Alex Graves, Abdel-rahman Mohamed and Geoffrey Hinton
论文中第2部分,介绍关于RNN的一些知识:
对于一个给定的输入序列 x = (x1, ..., xT), 一个标准的RNN通过迭代下面一系列方程来计算隐层序列 h = (h1, ..., hT) 和输出层 y = (y1, ..., yT):
for t = 1 -> T:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201601/3857dfd0859f79141d0b5902688ba927)
W表示权重矩阵(例如Wxh表示输入层到隐层的权重矩阵),b表示偏置,H表示隐层函数,通常选择sigmoid function。
作者发现另一种结构Long Short-Term Memory (LSTM)在大范围内容中查找和利用更好(However we have found that the LSTM architecture, which uses puprpose-buit memory cells to store information, is better at finding and exploiting long range context.):
![](https://oscdn.geek-share.com/Uploads/Images/Content/201601/2ba6d039fbf5e4d38be12c1be4044d0f)
上图中描述了单个 LSTM memory cell,在[14]中的H通过下面一系列函数来表示:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201601/5337be1b8d3054968b847704b3546627)
其中sigma是logistic sigmoid函数,然后i,f,o,c分别表示input, forget, output and cell.
传统的RNNs存在一个缺点,只能利用上层的内容。然后在说话识别中,整个说话被转录一次,没有理由不去利用后层的内容。[15]的BRNNs就考虑到了双向(用两个隐层)。然后[16]结合BRNNs和LSTM,直接利用大范围上下文的两个输入方向。而最近hybrid HMM-neural network systems成功的重要原因就是深度结构,所以作者考虑使用deep RNNs,也就是搞很多隐层(N层),然后每个隐层的函数相同,那么第n个隐层的序列计算如下:
for n = 1 -> N:
for t = 1 -> T:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201601/d83cefb47e0fea9924f60deef8fc53bc)
其中h0定义为x,也就是输入。
然后每个隐层也可以弄成双向的!也就是模仿[15,16]。也就形成了该论文的模型。
论文第3部分介绍网络训练:
作者:Alex Graves, Abdel-rahman Mohamed and Geoffrey Hinton
论文中第2部分,介绍关于RNN的一些知识:
对于一个给定的输入序列 x = (x1, ..., xT), 一个标准的RNN通过迭代下面一系列方程来计算隐层序列 h = (h1, ..., hT) 和输出层 y = (y1, ..., yT):
for t = 1 -> T:
W表示权重矩阵(例如Wxh表示输入层到隐层的权重矩阵),b表示偏置,H表示隐层函数,通常选择sigmoid function。
作者发现另一种结构Long Short-Term Memory (LSTM)在大范围内容中查找和利用更好(However we have found that the LSTM architecture, which uses puprpose-buit memory cells to store information, is better at finding and exploiting long range context.):
上图中描述了单个 LSTM memory cell,在[14]中的H通过下面一系列函数来表示:
其中sigma是logistic sigmoid函数,然后i,f,o,c分别表示input, forget, output and cell.
传统的RNNs存在一个缺点,只能利用上层的内容。然后在说话识别中,整个说话被转录一次,没有理由不去利用后层的内容。[15]的BRNNs就考虑到了双向(用两个隐层)。然后[16]结合BRNNs和LSTM,直接利用大范围上下文的两个输入方向。而最近hybrid HMM-neural network systems成功的重要原因就是深度结构,所以作者考虑使用deep RNNs,也就是搞很多隐层(N层),然后每个隐层的函数相同,那么第n个隐层的序列计算如下:
for n = 1 -> N:
for t = 1 -> T:
其中h0定义为x,也就是输入。
然后每个隐层也可以弄成双向的!也就是模仿[15,16]。也就形成了该论文的模型。
论文第3部分介绍网络训练:
相关文章推荐
- 那些年我们一起清除过的浮动
- linuxc时间函数
- Ceph学习----Ceph rbd 作为设备挂载到本地
- 总结的一些iOS App审核被拒的经历.
- 各种音视频编解码学习详解 h264 ,mpeg4 ,aac 等所有音视频格式
- [ACM] hdu 4405 Aeroplane chess (概率DP)
- js 得到当前季度
- LeetCode 26 - Remove Duplicates from Sorted Array
- html code
- PHP实现基于文本的摩斯电码生成器
- 【Redis笔记(一)】 环境配置
- Selenium的PO模式
- 拦截API 注入进程
- 关于button的背景图片全屏以及取消按下的效果
- 修改UISearchBar背景颜色
- 正弦波近似 http://blog.csdn.net/ring0hx/article/details/44492415
- jQuery Mobile 页面事件总结
- Struts2拦截器Interceptor执行顺序理解
- elasticsearch中的mapping映射配置与查询典型案例
- XMLHttpRequest对象实例