您的位置：首页 > 其它

梯度消失/爆炸浅析

2017-07-05 10:25 190 查看

转自：http://blog.sina.com.cn/s/blog_6e32babb0102y1om.html

深度神经网络训练的时候，采用的是反向传播方式，该方式背后其实是链式求导，计算每层梯度的时候会涉及一些连乘操作，因此如果网络过深，

那么如果连乘的因子大部分小于1，最后乘积的结果可能趋于0，也就是梯度消失，后面的网络层的参数不发生变化，后面的层学不到东西，

那么如果连乘的因子大部分大于1，最后乘积可能趋于无穷，这就是梯度爆炸

为了防止梯度爆炸，一种方式是设置梯度剪切阈值，如果超过了该阈值，直接将梯度置为该值。

同时可以参考 VDSR的调整梯度裁剪

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

关于梯度消失/爆炸理解
机器学习总结（九）：梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题
梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题
深度学习：梯度消失和梯度爆炸
复现梯度爆炸与梯度消失
梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题
关于梯度消失，梯度爆炸的问题
深度学习---之梯度消失与梯度爆炸产生的原因
关于梯度消失，梯度爆炸的问题
【深度学习】RNN的梯度消失/爆炸与正交初始化
梯度消失、爆炸原因
深度神经网络为何很难训练（包含梯度消失和梯度爆炸等）
反向传播与梯度消失梯度爆炸
详解机器学习中的梯度消失、爆炸原因及其解决方法
[rnn]BPTT_梯度消失/爆炸问题
深度神经网络的梯度不稳定问题--梯度消失与梯度爆炸
Coursera | Andrew Ng (02-week-1-1.10)—梯度消失与梯度爆炸
梯度消失与梯度爆炸
神经网络训练中的梯度消失与梯度爆炸
梯度爆炸和梯度消失的本质原因

新的分享

一次教科书级别的Redis高可用架构设计实践 - Redis
曾光：北京这次的毒株不像国内流行类型
从PRD文档到产品上线，有哪些问题需要解决？
vue3自定义指令的使用
Oracle SQL性能优化最常用的40条建议 - ORACLE
程序员翻车常见反应，你中枪了吗？ - 职场生涯
新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
嵌入式软件开发之程序架构设计-任务调度
【Java面试】请简单说一下你对受检异常和非受检异常的理解
奇安信更新招股书：第一季亏损过5亿，齐向东持股38%
艾瑞咨询：2020年中国后智能厨房案例研究报告
艾瑞咨询：2020年中国人工智能+物流发展研究报告

章节导航