您的位置:首页 > 运维架构

Andrew-Coursera-DL课程-笔记part2-2(Optimization algorithms)

2017-10-06 12:46 363 查看
Mini-batch gradient descent



Understanding mini-batch gradient descent

mini-batch大小为1时,即为SGD



数据集小于2000,使用batch。大数据集时,mini-batch大小选择,64,128,256,512等2的指数级。

Exponentially weight averages

加权的移动平均法,选取各时期权重数值为递减指数数列的均值方法。指数平滑法解决了移动平均法需要几个观测值和不考虑t—n前时期数据的缺点,通过某种平均方式,消除历史统计序列中的随机波动,找出其中主要的发展趋势。

指数加权平均: vt=βvt−1+(1−β)θt

bias correction: vt=vt1−βt

窗口:11−β



当beta设置为0.98时比0.9更平滑,受历史平均值影响更大.

当beta设置为0.5时,标识时间窗口变为2.

0.9^10近似于0.35,so,对于指数加权平均,beta=0.9时,只有近10天的数据会产生影响,因为超过10天的数据会产生小于1/3的影响

0.98^50近似于0.36,对于beta=0.98时,近50天的数据都会产生影响.



Understanding exponetially weighted averages





Bias correction in exponentially weighted averages

bias correction: vt=vt1−βt



Gradient descent with momentum

动量法,思想是前面的指数加权平均,梯度作为当前值,动量作为历史值





RMSprop



Adm optimization algorithm



Learning rate decay

The problem of local optimal
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐