梯度消失/爆炸浅析
2017-07-05 10:25
190 查看
转自:http://blog.sina.com.cn/s/blog_6e32babb0102y1om.html
深度神经网络训练的时候,采用的是反向传播方式,该方式背后其实是链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深,
那么如果连乘的因子大部分小于1,最后乘积的结果可能趋于0,也就是梯度消失,后面的网络层的参数不发生变化,后面的层学不到东西,
那么如果连乘的因子大部分大于1,最后乘积可能趋于无穷,这就是梯度爆炸
为了防止梯度爆炸,一种方式是设置梯度剪切阈值,如果超过了该阈值,直接将梯度置为该值。
同时可以参考 VDSR的调整梯度裁剪
深度神经网络训练的时候,采用的是反向传播方式,该方式背后其实是链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深,
那么如果连乘的因子大部分小于1,最后乘积的结果可能趋于0,也就是梯度消失,后面的网络层的参数不发生变化,后面的层学不到东西,
那么如果连乘的因子大部分大于1,最后乘积可能趋于无穷,这就是梯度爆炸
为了防止梯度爆炸,一种方式是设置梯度剪切阈值,如果超过了该阈值,直接将梯度置为该值。
同时可以参考 VDSR的调整梯度裁剪
相关文章推荐
- 关于梯度消失/爆炸理解
- 机器学习总结(九):梯度消失(vanishing gradient)与梯度爆炸(exploding gradient)问题
- 梯度消失(vanishing gradient)与梯度爆炸(exploding gradient)问题
- 深度学习:梯度消失和梯度爆炸
- 复现梯度爆炸与梯度消失
- 梯度消失(vanishing gradient)与梯度爆炸(exploding gradient)问题
- 关于梯度消失,梯度爆炸的问题
- 深度学习---之梯度消失与梯度爆炸产生的原因
- 关于梯度消失,梯度爆炸的问题
- 【深度学习】RNN的梯度消失/爆炸与正交初始化
- 梯度消失、爆炸原因
- 深度神经网络为何很难训练(包含梯度消失和梯度爆炸等)
- 反向传播与梯度消失梯度爆炸
- 详解机器学习中的梯度消失、爆炸原因及其解决方法
- [rnn]BPTT_梯度消失/爆炸问题
- 深度神经网络的梯度不稳定问题--梯度消失与梯度爆炸
- Coursera | Andrew Ng (02-week-1-1.10)—梯度消失与梯度爆炸
- 梯度消失与梯度爆炸
- 神经网络训练中的梯度消失与梯度爆炸
- 梯度爆炸和梯度消失的本质原因