超参数momentum与weight-decay的作用
2016-10-05 17:09
555 查看
一、weight decay(权值衰减)使用的目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。
二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为x←x−α∗dx,x沿负梯度方向下降。而带momentum项的SGD则写生如下形式:
v=β∗v−a∗dxx←x+v
其中β 即momentum系数,通俗的理解上面式子就是,如果上一次的momentum(即v)与这一次的负梯度方向是相同的,那这次下降的幅度就会加大,所以这样做能够达到加速收敛的过程。
作者:陈永志
链接:https://www.zhihu.com/question/24529483/answer/114711446
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为x←x−α∗dx,x沿负梯度方向下降。而带momentum项的SGD则写生如下形式:
v=β∗v−a∗dxx←x+v
其中β 即momentum系数,通俗的理解上面式子就是,如果上一次的momentum(即v)与这一次的负梯度方向是相同的,那这次下降的幅度就会加大,所以这样做能够达到加速收敛的过程。
作者:陈永志
链接:https://www.zhihu.com/question/24529483/answer/114711446
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
相关文章推荐
- 深度学习超参数简单理解------>learning rate,weight decay和momentum
- 优化方法,一些重要参数learning rate,weight decay,momentum,learing rate decay
- 深度学习超参数简单理解------>learning rate,weight decay和momentum
- 深度学习超参数简单理解 learning rate,weight decay和momentum
- 深度学习超参数简单理解------>learning rate,weight decay和momentum
- 超参数简单理解-->learning rate,weight decay和momentum
- 在神经网络中weight decay起到的做用是什么?momentum呢?normalization呢?
- 学习笔记一:learning rate,weight decay和momentum的理解
- 在神经网络中weight decay、momentum、batch normalization各自意义
- CNN:weight decay,momentum,batch normalization
- 神经网络中weight decay起到的做用是什么?momentum呢?normalization呢?
- learning_rate&weight_decay&momentum
- 机器学习中regularization正则化(加入weight_decay)的作用
- C++指针与引用在传递函数参数时的作用
- ListView的监听器中OnItemClick各个参数的作用
- 使用make编译源码,使用-j 参数的作用
- ASP.net 中 OutputCache 指令各个参数的作用
- 论文阅读《2018.2-Do deep nets really need weight decay and dropout》
- jQuery ajax的traditional参数的作用
- C#类方法中使用数组参数params关键字的作用