您的位置：首页 > 其它

Machine Learning - Gradient Descent (梯度下降)

2014-11-02 22:19 183 查看

为了减少数学知识的引入，先默认有以下几个结论(具体证明可见多元函数微分学中的方向导数与梯度部分)：

1. 方向导数是一种单向导数，而偏导数是一种双向导数，即ΔX取正或负时，方向导数变号，而偏导数不变号。

2. 对多元函数求偏导得到一个向量，这个向量在空间中表示的方向上的方向导数(即梯度所指方向)是所有方向上的方向导数的最大值，与这个方向相反方向上的方向导数取得最小值，两者绝对值相同，符号不同。

由以上两点基本可以得到，方向与梯度指向(可由偏导数组成的向量表示)相同时，方向导数取得最大值，即在该方向上，函数值的变化率正向最大(增加最多)，在与该方向相反的方向上，函值变化率负向最大，所以当求出梯度后，我们将当前的自变量减去(加上)各自方向上的偏导数即可取得函数值变化负向最大/减少最多(正向最大/增加最多)。

梯度下降法中涉及到的符号，输入X(x1, x2, ... ... , xn)，输出Y(y1, y2, ... ... , yn)，xi表示第i个样本，是向量形式，由一组特征表示，。。。

在梯度下降法中，我们关注的是函数的参数，其余都是已知的，因此换个角度，将待估计的参数作为自变量，损失函数作为函数值，则此时的梯度即对各个参数求偏导，要使函数值(损失函数)减少最快，就要从当前点按照梯度方向移动，做移动，就相当于各个自变量分别减去对于自变量的偏导，而移动的步子大小，我们可以由一个参数α控制，因此梯度下降法的核心是使损失函数最小，而自变量应该移动的方向有各个点的梯度(偏导数)决定，移动大小由参数α决定，梯度的性质保证我们每次移动的方向都是损失函数值减少最多的方向。（未完待续。。。）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航