您的位置：首页 > 其它

speech recognition with deep recurrent neural networks-论文笔记

2016-01-11 16:16 961 查看

论文题目：speech recognition with deep recurrent neural networks

作者：Alex Graves, Abdel-rahman Mohamed and Geoffrey Hinton

论文中第2部分，介绍关于RNN的一些知识：

对于一个给定的输入序列 x = (x1, ..., xT), 一个标准的RNN通过迭代下面一系列方程来计算隐层序列 h = (h1, ..., hT) 和输出层 y = (y1, ..., yT):

for t = 1 -> T:

W表示权重矩阵（例如Wxh表示输入层到隐层的权重矩阵），b表示偏置，H表示隐层函数，通常选择sigmoid function。

作者发现另一种结构Long Short-Term Memory (LSTM)在大范围内容中查找和利用更好(However we have found that the LSTM architecture, which uses puprpose-buit memory cells to store information, is better at finding and exploiting long range context.)：

上图中描述了单个 LSTM memory cell，在[14]中的H通过下面一系列函数来表示：

其中sigma是logistic sigmoid函数，然后i,f,o,c分别表示input, forget, output and cell.

传统的RNNs存在一个缺点，只能利用上层的内容。然后在说话识别中，整个说话被转录一次，没有理由不去利用后层的内容。[15]的BRNNs就考虑到了双向(用两个隐层)。然后[16]结合BRNNs和LSTM，直接利用大范围上下文的两个输入方向。而最近hybrid HMM-neural network systems成功的重要原因就是深度结构，所以作者考虑使用deep RNNs，也就是搞很多隐层(N层)，然后每个隐层的函数相同，那么第n个隐层的序列计算如下：

for n = 1 -> N:

for t = 1 -> T:

其中h0定义为x，也就是输入。

然后每个隐层也可以弄成双向的！也就是模仿[15，16]。也就形成了该论文的模型。

论文第3部分介绍网络训练：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航