CVPR17最佳论文-densenet 及 resnet :为什么可以消除梯度反向传播的梯度弥散问题
2017-11-14 22:35
671 查看
说是原创,其实是看了大牛的知乎来的,链接:https://zhuanlan.zhihu.com/p/28124810?group_id=883267168542789632
但是看知乎下面的评论,这个观点蛮有争议的,大家还是认为梯度弥散和爆炸的解决主要归功于BN. resnet的残差则主要是使得学习更快了(虽然这一点我还没理解清楚为什么就学习更快了?!!?)
不过感觉理解resnet可以解决弥散问题,也是有点合理的。。。。如下:
首先是resnet,直接上图:
首先我觉得这张图对理解反向梯度的传播有点辅助作用:
来自cs视频的图。。。。
精髓就在于直接连过来的那个x了。h(x)=f(x)+ x,h(x)对 x 求偏导,值为1,这个1直接传到block的最前端,保证了来自后一层的梯度值完好的传过了这一层然后进入到前一层,使得浅层的weights也可以得到很好的训练。真的很精髓!!!
那么接下来是densenet,它的结构如下:
ok,以上,关于resnet的使学习加快的理解我会补充的,得等我理解清楚再来写啊。。。欢迎大家指正~!
但是看知乎下面的评论,这个观点蛮有争议的,大家还是认为梯度弥散和爆炸的解决主要归功于BN. resnet的残差则主要是使得学习更快了(虽然这一点我还没理解清楚为什么就学习更快了?!!?)
不过感觉理解resnet可以解决弥散问题,也是有点合理的。。。。如下:
首先是resnet,直接上图:
首先我觉得这张图对理解反向梯度的传播有点辅助作用:
来自cs视频的图。。。。
精髓就在于直接连过来的那个x了。h(x)=f(x)+ x,h(x)对 x 求偏导,值为1,这个1直接传到block的最前端,保证了来自后一层的梯度值完好的传过了这一层然后进入到前一层,使得浅层的weights也可以得到很好的训练。真的很精髓!!!
那么接下来是densenet,它的结构如下:
ok,以上,关于resnet的使学习加快的理解我会补充的,得等我理解清楚再来写啊。。。欢迎大家指正~!
相关文章推荐
- 为什么ResNet和DenseNet可以这么深?一文详解残差块为何有助于解决梯度弥散问题
- 浅谈神经网络反向传播的梯度丢失问题
- ICML论文|这违反直觉的“升噪”方法,反而能很好的解决激活函数梯度弥散的问题
- Python神经网络代码实现流程(三):反向传播与梯度下降
- CNN中的梯度的求法和反向传播过程
- AI大事件 | Geoffrey Hinton决定抛弃反向传播,预期策略梯度算法
- C++第六周任务一【任务1】下面的程序存在编译错误。有两种方法可以修改,请给出这两种修改方案,在报告中说明你倾向于用哪一种?为什么?处理此类问题的原则是什么?
- 梯度下降与反向传播详解
- 梯度下降法与反向传播
- 梯度下降和反向传播
- 初学iOS,刚看到控件的strong&weak问题,如果答的不对还请指正。首先有一点,在OC中,如果对象没有强引用,就会被自动释放,那么为什么控件还可以设为weak?
- 最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?
- 问题提出:Java为什么可以跨平台???
- 回答了这四个问题,你就可以打造最佳App首页
- CVPR 2017最佳论文解读:密集连接卷积网络DenseNet
- 神经网络之梯度下降与反向传播(上)
- 【CV知识学习】神经网络梯度与归一化问题总结+highway network、ResNet的思考
- 请问大侠,为什么将Trusted_Connection=true改为Trusted_Connection=false可以消除错误:"用户 'NT AUTHORITY\NETWORK SERVICE' 登录失败。"?
- 神经网络之梯度下降与反向传播(下)
- 魅族面试的一个问题,img是行内元素,为什么也可以设置框高?