您的位置：首页 > 运维架构

Andrew-Coursera-DL课程-笔记part2-2（Optimization algorithms）

2017-10-06 12:46 363 查看

Mini-batch gradient descent

Understanding mini-batch gradient descent

mini-batch大小为1时，即为SGD

数据集小于2000，使用batch。大数据集时，mini-batch大小选择，64,128,256,512等2的指数级。

Exponentially weight averages

加权的移动平均法，选取各时期权重数值为递减指数数列的均值方法。指数平滑法解决了移动平均法需要几个观测值和不考虑t—n前时期数据的缺点，通过某种平均方式，消除历史统计序列中的随机波动，找出其中主要的发展趋势。

指数加权平均: vt=βvt−1+(1−β)θt

bias correction: vt=vt1−βt

窗口:11−β

当beta设置为0.98时比0.9更平滑，受历史平均值影响更大.

当beta设置为0.5时，标识时间窗口变为2.

0.9^10近似于0.35，so，对于指数加权平均，beta=0.9时，只有近10天的数据会产生影响，因为超过10天的数据会产生小于1/3的影响

0.98^50近似于0.36，对于beta=0.98时，近50天的数据都会产生影响.