【deeplearning.ai笔记第二课】2.3 学习率衰减(learning rate decay),局部极小值和鞍点
2017-11-03 14:55
1096 查看
1. 学习率衰减(learning rate decay)
在训练模型的时候,通常会遇到这种情况:我们平衡模型的训练速度和损失(loss)后选择了相对合适的学习率(learning rate),但是训练集的损失下降到一定的程度后就不在下降了,比如training loss一直在0.7和0.9之间来回震荡,不能进一步下降。如下图所示:遇到这种情况通常可以通过适当降低学习率(learning rate)来实现。但是,降低学习率又会延长训练所需的时间。学习率衰减(learning rate decay)就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是:学习率随着训练的进行逐渐衰减。
1.1 衰减方法
指数衰减decayed_learning_rate = learning_rate * (decay_rate ^ num_epoch)
逆时间衰减
decayed_learning_rate = learning_rate / (1 + decay_rate * t)
离散阶梯衰减
e.g: 学习率在0.5保持不变10000 steps,然后变为0.1保持不变10000 steps,再变为0.05保持不变10000 steps
2 局部最小值和鞍点
对于很多高维非凸函数而言,局部极小值(以及极大值)事实上都远少于另一类梯度为零的点:鞍点。鞍点附近的某些点比鞍点有更大的代价,而其他点则有更小的代价。鞍点激增对于训练算法来说有哪些影响呢?对于只使用梯度信息的一阶优化算法而言,目前情况还不清楚。鞍点附近的梯度通常会非常小。另一方面,实验中梯度下降似乎可以在许多情况下逃离鞍点.。大多数训练时间花费在横穿代价函数中相对平坦的峡谷.
Reference
https://github.com/exacity/deeplearningbook-chinese
相关文章推荐
- Coursera deeplearning.ai 深度学习笔记3-Structuring Machine Learning Projects
- 【deeplearning.ai笔记第二课】1.3 机器学习基本方法(Basic recipe for machine learning)
- 吴恩达deeplearning.ai课程《神经网络和深度学习》____学习笔记(第二周 7~14)
- Fast.ai: Practical Deep Learning for coders 课程学习笔记:Part1 Lesson1 (Lesson0)
- 改善深层神经网络:超参数调试、正则化以及优化-- DeepLearning.ai 学习笔记(2-1)
- Coursera深度学习课程 DeepLearning.ai 提炼笔记(1-4)
- Deeplearning.ai学习笔记-改善深层神经网络(二)-降低方差
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(4-3)-- 目标检测
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(3-2)-- 机器学习策略(2)(转)
- deeplearning论文学习笔记(2)A critical review of recurrent neural networks for sequence learning
- DeepLearning.ai学习笔记(一)神经网络和深度学习--Week3浅层神经网络
- DeepLearning.ai学习笔记(四)卷积神经网络 -- week2深度卷积神经网络 实例探究
- Fast.ai: Practical Deep Learning for coders 课程学习笔记:Part1 Lesson1 (Lesson0)
- pytorch学习笔记(十):learning rate decay(学习率衰减)
- [DeeplearningAI笔记]神经网络与深度学习3.2_3.11(激活函数)浅层神经网络
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(4-4)-- 特殊应用:人脸识别和神经风格迁移
- 吴恩达deeplearning.ai课程《神经网络和深度学习》____学习笔记(第四周)
- [DeeplearningAI笔记]神经网络与深度学习4.深度神经网络
- Coursera deeplearning.ai 深度学习笔记1-4-Deep Neural Networks-深度神经网络原理推导与代码实现
- 目标检测 - -DeepLearning.ai 学习笔记(4-3)