Machine Learning - Gradient Descent (梯度下降)
2014-11-02 22:19
183 查看
为了减少数学知识的引入,先默认有以下几个结论(具体证明可见多元函数微分学中的方向导数与梯度部分):
1. 方向导数是一种单向导数,而偏导数是一种双向导数,即ΔX取正或负时,方向导数变号,而偏导数不变号。
2. 对多元函数求偏导得到一个向量,这个向量在空间中表示的方向上的方向导数(即梯度所指方向)是所有方向上的方向导数的最大值,与这个方向相反方向上的方向导数取得最小值,两者绝对值相同,符号不同。
由以上两点基本可以得到,方向与梯度指向(可由偏导数组成的向量表示)相同时,方向导数取得最大值,即在该方向上,函数值的变化率正向最大(增加最多),在与该方向相反的方向上,函值变化率负向最大,所以当求出梯度后,我们将当前的自变量减去(加上)各自方向上的偏导数即可取得函数值变化负向最大/减少最多(正向最大/增加最多)。
梯度下降法中涉及到的符号,输入X(x1, x2, ... ... , xn),输出Y(y1, y2, ... ... , yn),xi表示第i个样本,是向量形式,由一组特征表示,。。。
在梯度下降法中,我们关注的是函数的参数,其余都是已知的,因此换个角度,将待估计的参数作为自变量,损失函数作为函数值,则此时的梯度即对各个参数求偏导,要使函数值(损失函数)减少最快,就要从当前点按照梯度方向移动,做移动,就相当于各个自变量分别减去对于自变量的偏导,而移动的步子大小,我们可以由一个参数α控制,因此梯度下降法的核心是使损失函数最小,而自变量应该移动的方向有各个点的梯度(偏导数)决定,移动大小由参数α决定,梯度的性质保证我们每次移动的方向都是损失函数值减少最多的方向。(未完待续。。。)
1. 方向导数是一种单向导数,而偏导数是一种双向导数,即ΔX取正或负时,方向导数变号,而偏导数不变号。
2. 对多元函数求偏导得到一个向量,这个向量在空间中表示的方向上的方向导数(即梯度所指方向)是所有方向上的方向导数的最大值,与这个方向相反方向上的方向导数取得最小值,两者绝对值相同,符号不同。
由以上两点基本可以得到,方向与梯度指向(可由偏导数组成的向量表示)相同时,方向导数取得最大值,即在该方向上,函数值的变化率正向最大(增加最多),在与该方向相反的方向上,函值变化率负向最大,所以当求出梯度后,我们将当前的自变量减去(加上)各自方向上的偏导数即可取得函数值变化负向最大/减少最多(正向最大/增加最多)。
梯度下降法中涉及到的符号,输入X(x1, x2, ... ... , xn),输出Y(y1, y2, ... ... , yn),xi表示第i个样本,是向量形式,由一组特征表示,。。。
在梯度下降法中,我们关注的是函数的参数,其余都是已知的,因此换个角度,将待估计的参数作为自变量,损失函数作为函数值,则此时的梯度即对各个参数求偏导,要使函数值(损失函数)减少最快,就要从当前点按照梯度方向移动,做移动,就相当于各个自变量分别减去对于自变量的偏导,而移动的步子大小,我们可以由一个参数α控制,因此梯度下降法的核心是使损失函数最小,而自变量应该移动的方向有各个点的梯度(偏导数)决定,移动大小由参数α决定,梯度的性质保证我们每次移动的方向都是损失函数值减少最多的方向。(未完待续。。。)
相关文章推荐
- 第一讲 梯度下降
- 【机器学习深度学习】教程——学习率,批梯度下降,归一化
- 梯度下降
- 回归与梯度下降法及实现原理
- Adaptive linear neurons model 线性神经元 运用梯度下降法 进行代价函数的最优化
- GD(梯度下降)和SGD(随机梯度下降)比较
- 最小二乘法与梯度下降
- [笔记]线性回归&梯度下降
- 梯度下降法
- 机器学习学习笔记(二)-- 梯度下降
- 机器学习入门:线性回归及梯度下降
- python 梯度下降应用于线性回归
- Machine Learning - Gradient Descent (梯度下降)
- 为什么通常牛顿法比梯度下降法能更快的收敛
- 如何使基于梯度下降的机器学习并行化
- 梯度下降法[转]
- 机器学习入门:线性回归及梯度下降
- 机器学习(回归、梯度下降、最小二乘法)
- 梯度下降法-gradient descent --实例解析
- 梯度下降法