(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)
2017-03-03 09:53
253 查看
首先介绍一个算法:coordinate-wise minimization
问题的描述:给定一个可微的凸函数
,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。
形式化的描述为:是不是
对于所有的d,i都有
这里的
代表第i个标准基向量。
答案为成立。
这是因为:
但是问题来了,如果对于凸函数f,若不可微该会怎样呢?
答案为不成立,上面的图片就给出了一个反例。
那么同样的问题,现在
,其中g是可微的凸函数,每一个hi都是凸的?
答案为成立。
证明如下,对每一个y
坐标下降(Coordinate descent):
这就意味着,对所有的
,其中g是可微的凸函数,每一个hi都是凸的,我们可以使用坐标下降寻求一个最小值,我们从一个最初的猜想
开始,对k进行循环:
每一次我们解决了
,我们都会使用新的值。
Tseng (2001)的开创性工作证明:对这种f(f在紧集
上连续,且f到达了其最小值),
的极限值,k=1,2,3….是f的一个最小元(minimizer)。
在实分析领域:
随后收敛与x*(
Bolzano-Weierstrass)
收敛于f*(
monotoneconvergence)
其中:
坐标下降的顺序是任意的,可以是从1到n的任意排列。
可以在任何地方将单个的坐标替代成坐标块
关键在于一次一个地更新,所有的一起更新有可能会导致不收敛
我们现在讨论一下坐标下降的应用:
线性回归:
令
,其中
,A有p列:
最小化xi,对所有的xj,j不等于i:
解得:
坐标下降重复这个更新对所有的
对比坐标下降与梯度下降在线性回归中的表现(100个实例,n=100,p=20)
将坐标下降的一圈与梯度下降的一次迭代对比是不是公平呢?是的。
其中r=y-Ax。每一次的坐标更新需要O(n)个操作,其中O(n)去更新r,O(n)去计算
,所以一圈就需要O(np),跟梯度下降是一样的。
我们用相同的例子,用梯度下降进行比较,似乎是与计算梯度下降的最优性相违背。
那么坐标下降是一个一阶的方法吗?事实上不是,它使用了比一阶更多的信息。
现在我们再关注一下支持向量机:
SVM对偶中的坐标下降策略:
SMO(Sequentialminimal optimization)算法是两块的坐标下降,使用贪心法选择下一块,而不是用循环。
回调互补松弛条件(complementaryslackness conditions):
v,d,s是原始的系数,截距和松弛,其中
,使用任何的(1)中i使得
来计算d,利用(1)(2)来计算2.
SMO重复下面两步:
选出不满足互补松弛的αi,αj
最小化αi,αj使所有的变量满足条件
第一步使用启发式的方法贪心得寻找αi,αj,第二步使用等式约束。
——————维基百科的解释——————
坐标下降优化方法是一种非梯度优化算法。为了找到一个函数的局部极小值,在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索。在整个过程中循环使用不同的坐标方向。一个周期的一维搜索迭代过程相当于一个梯度迭代。
坐标下降法基于最小化多变量目标函数可以通过每次沿一个方向最小化目标函数来求解。与梯度方法的变化的梯度方向不同,坐标下降方法固定其他的梯度方向。例如,坐标方向为e1,e2,…,en。每次沿一个坐标方向最小化目标函数,循环地沿每个坐标方向进行计算。如果给定Xk,Xk+1的第i个坐标由如下给定:
从初始值X0求取F的局部值,然后迭代的求取一个序列X0,X1,X2,…
通过在每次迭代中进行一维搜索,可以有如下结论:
It can be shown that this sequence has similar convergence properties as steepest descent. No improvement after one cycle
of line
search along coordinate directions implies a stationary point is reached.
This process is illustrated below.
其实,gradient descent 方法是利用目标函数的导数(梯度)来确定搜索方向的,而该梯度方向可能不与任何坐标轴平行。而coordinate descent方法是利用当前坐标系统进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值。
问题的描述:给定一个可微的凸函数
,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。
形式化的描述为:是不是
对于所有的d,i都有
这里的
代表第i个标准基向量。
答案为成立。
这是因为:
但是问题来了,如果对于凸函数f,若不可微该会怎样呢?
答案为不成立,上面的图片就给出了一个反例。
那么同样的问题,现在
,其中g是可微的凸函数,每一个hi都是凸的?
答案为成立。
证明如下,对每一个y
坐标下降(Coordinate descent):
这就意味着,对所有的
,其中g是可微的凸函数,每一个hi都是凸的,我们可以使用坐标下降寻求一个最小值,我们从一个最初的猜想
开始,对k进行循环:
每一次我们解决了
,我们都会使用新的值。
Tseng (2001)的开创性工作证明:对这种f(f在紧集
上连续,且f到达了其最小值),
的极限值,k=1,2,3….是f的一个最小元(minimizer)。
在实分析领域:
随后收敛与x*(
Bolzano-Weierstrass)
收敛于f*(
monotoneconvergence)
其中:
坐标下降的顺序是任意的,可以是从1到n的任意排列。
可以在任何地方将单个的坐标替代成坐标块
关键在于一次一个地更新,所有的一起更新有可能会导致不收敛
我们现在讨论一下坐标下降的应用:
线性回归:
令
,其中
,A有p列:
最小化xi,对所有的xj,j不等于i:
解得:
坐标下降重复这个更新对所有的
对比坐标下降与梯度下降在线性回归中的表现(100个实例,n=100,p=20)
将坐标下降的一圈与梯度下降的一次迭代对比是不是公平呢?是的。
其中r=y-Ax。每一次的坐标更新需要O(n)个操作,其中O(n)去更新r,O(n)去计算
,所以一圈就需要O(np),跟梯度下降是一样的。
我们用相同的例子,用梯度下降进行比较,似乎是与计算梯度下降的最优性相违背。
那么坐标下降是一个一阶的方法吗?事实上不是,它使用了比一阶更多的信息。
现在我们再关注一下支持向量机:
SVM对偶中的坐标下降策略:
SMO(Sequentialminimal optimization)算法是两块的坐标下降,使用贪心法选择下一块,而不是用循环。
回调互补松弛条件(complementaryslackness conditions):
v,d,s是原始的系数,截距和松弛,其中
,使用任何的(1)中i使得
来计算d,利用(1)(2)来计算2.
SMO重复下面两步:
选出不满足互补松弛的αi,αj
最小化αi,αj使所有的变量满足条件
第一步使用启发式的方法贪心得寻找αi,αj,第二步使用等式约束。
——————维基百科的解释——————
坐标下降优化方法是一种非梯度优化算法。为了找到一个函数的局部极小值,在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索。在整个过程中循环使用不同的坐标方向。一个周期的一维搜索迭代过程相当于一个梯度迭代。
坐标下降法基于最小化多变量目标函数可以通过每次沿一个方向最小化目标函数来求解。与梯度方法的变化的梯度方向不同,坐标下降方法固定其他的梯度方向。例如,坐标方向为e1,e2,…,en。每次沿一个坐标方向最小化目标函数,循环地沿每个坐标方向进行计算。如果给定Xk,Xk+1的第i个坐标由如下给定:
从初始值X0求取F的局部值,然后迭代的求取一个序列X0,X1,X2,…
通过在每次迭代中进行一维搜索,可以有如下结论:
It can be shown that this sequence has similar convergence properties as steepest descent. No improvement after one cycle
of line
search along coordinate directions implies a stationary point is reached.
This process is illustrated below.
其实,gradient descent 方法是利用目标函数的导数(梯度)来确定搜索方向的,而该梯度方向可能不与任何坐标轴平行。而coordinate descent方法是利用当前坐标系统进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值。
相关文章推荐
- (转载)机器学习知识点(二十九)LDA入门级学习笔记
- (转载)机器学习知识点(十七)Bagging与随机森林算法原理小结
- (转载)机器学习知识点(十一)隐马尔可夫模型
- (转载)机器学习知识点(十三)吉布斯采样法(Gibbs Sampling)
- 机器学习知识点(五)梯度下降法Java实现
- (转载)机器学习知识点(十四)EM算法原理
- (转载)机器学习知识点(十五)从最大似然到EM算法浅解
- 机器学习小组知识点4:批量梯度下降法(BGD)
- 机器学习小组知识点4&5:批量梯度下降法(BGD)和随机梯度下降法(SGD)的代码实现Matlab版
- 【人工智能】机器学习、深度学习 知识点总结及面试题
- 机器学习小组知识点7:伯努利分布(Bernouli Distribution)
- 梯度下降的概念和在机器学习的应用
- Lasso回归算法: 坐标轴下降法与最小角回归法小结
- 机器学习小组知识点13:泊松分布(Poisson Distribution)
- 和机器学习和计算机视觉相关的数学 (转载)
- TIF、JPG图片手动添加地理坐标的方法(转载)
- 【机器学习】GBDT梯度下降提升算法及参数寻优实例
- 机器学习知识点学习
- 机器学习小组知识点38:谱聚类(Spectral-KMeans)
- 七月算法机器学习笔记6 梯度下降法与拟牛顿法