DeepLearning(基于caffe)优化策略(3)--调参篇
2017-06-09 14:09
369 查看
我们都知道,DeepLearning是一个非常好用的方法,纵使很多人认为DeepLearning是炼药炉,学习它的是炼药师,但不可否认的是,很多场景下,DeepLearning有着非常好的效果,比如说人脸识别等等。
DeepLearning中有着成千上万个参数(每一层都有很多的参数),调参自然而然也就成为了一个不可避免的话题。接下来,总结一下深度学习中的调参方法。
如果不进行必要的归一化的话,就会使得各个特征相差很小,减小学习的速率,增加网络时间,并有可能导致无法收敛。
设置太大了,影响收敛的速度,甚至无法达到收敛,设置太小了,则参数寻优的时候会不动。
虽然原则上是随机找一堆参数初始值,然后通过随机梯度下降,找到最好的参数,但是在这篇论文中,论证了初始权值选好的话,会对效果以及收敛速度有着明显的作用,当然如何设置初始化参数,不仅需要在大量实践经验总结而来,而且还要经常看一些paper。
velocity,and NAG is able to avoid these oscillations almost entirely)
在Caffe框架中,会有专门的Dropout层可以使用。
DeepLearning中有着成千上万个参数(每一层都有很多的参数),调参自然而然也就成为了一个不可避免的话题。接下来,总结一下深度学习中的调参方法。
1.训练的数据要尽量准确(包括训练的特征以及标注)
数据是训练的起始阶段,也是重要阶段。数据的好坏直接决定了模型的效果,就好比你要学习的东西本身就是模棱两可的,那自然不会有太好的效果。2.做好相应的归一化操作
详细请见:http://blog.csdn.net/sihailongwang/article/details/72818603如果不进行必要的归一化的话,就会使得各个特征相差很小,减小学习的速率,增加网络时间,并有可能导致无法收敛。
3.初始化参数也很重要
推荐论文:《On the importance of initialization and momentum in deep learning》设置太大了,影响收敛的速度,甚至无法达到收敛,设置太小了,则参数寻优的时候会不动。
虽然原则上是随机找一堆参数初始值,然后通过随机梯度下降,找到最好的参数,但是在这篇论文中,论证了初始权值选好的话,会对效果以及收敛速度有着明显的作用,当然如何设置初始化参数,不仅需要在大量实践经验总结而来,而且还要经常看一些paper。
4.使用momentum
还是刚才那篇论文,论文中讲到使用Momentum的效果有目共睹的,还提到了NAG(Nesterovs Accelerated Gradient),并将CM(Classical Momentum)和NAG进行了对比(论文中的结论:While each iteration of NAG may only be slightly more effective than CM at correcting a large and inappropriatevelocity,and NAG is able to avoid these oscillations almost entirely)
5.梯度更新步长
6.梯度归一化
就是结果除以minibatch size,这样就可以不显示依赖minibatch size了7.限制权重参数的最大值
不然迭代的容易飞了。8.使用dropout
详细请见:http://blog.csdn.net/sihailongwang/article/details/72847382在Caffe框架中,会有专门的Dropout层可以使用。
相关文章推荐
- DeepLearning(基于caffe)优化策略(2)--防拟合篇:Dropout
- DeepLearning(基于caffe)优化策略(1)--Normalization篇:BN、WN、LN
- 基于物联网的五年制高职IT类专业结构调整与课程设置优化策略
- 基于暗通道去雾算法的实现与优化(三)优化策略
- EmbCaffe---基于Caffe的优化前向计算的框架
- 基于信赖域的动态径向基函数代理模型优化策略
- 基于动态径向基函数(DRBF)代理模型的优化策略
- 基于DSP的视频算法系统的优化策略
- DeepLearning(基于caffe)实战项目(9)--Python测试训练好的model
- DeepLearning(基于caffe)实战项目(8)--修改caffe源代码从添加loss(层)函数开始
- WebGIS中基于控制点库进行SHP数据坐标转换的一种查询优化策略
- DeepLearning(基于caffe)实战项目(2)--mnist(image转lmdb)
- Caffe - 基于Intel优化的Caffe框架训练和部署深度学习网络
- DeepLearning(基于caffe)实战项目(5)--Matlab画学习(Loss)曲线
- 基于ARM的除法运算优化策略
- DeepLearning(基于caffe)实战项目(1)--mnist_convert函数分析
- <深度学习优化策略-4> 基于Gate Mechanism的激活单元GTU、GLU
- DeepLearning(基于caffe)实战项目(10)--Python编写网络配置文件
- DeepLearning(基于caffe)实战项目(7)--从caffe结构里函数总结一览caffe
- 基于libfiber的高并发服务优化策略