您的位置：首页 > 其它

优化算法——梯度下降法

2014-01-10 17:18 288 查看

在机器学习，我们需要寻找输入特征与标签之间的映射关系，在寻找这样的映射关系时，有一条重要的原则就是使得寻找到的映射结果与原始标签之间的误差最小。机器学习问题归纳起来就是把一个学习的问题转化为优化的问题，机器学习算法的本质就是如何对问题抽象建模，使一个学习的问题变为一个可求解的优化问题。

优化的算法有很多种，从最基本的梯度下降法到现在的一些启发式算法，如遗传算法(GA)，差分演化算法(DE)，粒子群算法(PSO)和人工蜂群算法(ABC)。

梯度下降法又被称为最速下降法(Steepest descend method)，其理论基础是梯度的概念。梯度与方向导数的关系为：梯度的方向与取得最大方向导数值的方向一致，而梯度的模就是函数在该点的方向导数的最大值。对于一个无约束的优化问题：
$minf(x)$

，例如
$f(x)=x^2$

如图，在
$x=4$
处的切线。显然在
$x=0$
处函数取得最小值。沿着梯度的方向是下降速度最快的方向。具体的过程为：初始时，任取
$x$
的值，如取
$x=4$
，则对应的
$y=16$
。利用梯度下降法
$x_1=x_0-\alpha\frac{dy}{dx}\mid _{x=x_0}$
，其中
$\alpha$
为学习率，可以取固定常数。如取
$\alpha=0.5$
，则
$x_1=0$
，对应的
$y_1=0$
，类似的
$x_2=0$
，对应的
$y_2=0$
。算法终止的判断准则是：
$\left | y_1-y_2 \right |\leqslant e$
，其中
$e$
是一个指定的阈值。梯度的更新公式为：
$x_{k+1}=x_k-\alpha\frac{dy}{dx}\mid _{x=x_k}$

梯度下降法的流程：

1、初始化：随机选取取值范围内的任意数

2、循环操作：

计算梯度；

修改新的变量；

判断是否达到终止：如果前后两次的函数值差的绝对值小于阈值，则跳出循环；否则继续；

3、输出最终结果

与梯度下降法对应的是被称为梯度上升的算法，主要的区别就是在梯度的方向上，一个方向是下降最快的方向，相反的就是梯度上升最快的方法。主要用来求解最大值问题：
$max f(x)$
。梯度的更新公式为：
$x_{k+1}=x_k+\alpha\frac{dy}{dx}\mid _{x=x_k}$
。

下面以
$y=x^2-3x+2$
为例，给出一下的Java程序：

public class SteepestDescend {
	public static double alpha = 0.5;// 迭代步长
	public static double e = 0.00001;// 收敛精度

	public double x0;
	public double y0;

	public double getY(double x) {
		return (x * x - 3 * x + 2);
	}

	public double getDerivative(double x) {
		return (2 * x - 3);
	}

	public void init() {
		x0 = 0;
		y0 = this.getY(x0);
	}

	public double getSteepestDescend() {
		double min = 0;
		double x = x0;
		double y = y0;
		double y1;
		double temp = 0;
		/*
		 * 做梯度运算
		 */
		while (true) {
			temp = this.getDerivative(x);
			x = x - alpha * temp;
			y1 = this.getY(x);
			if (Math.abs(y1 - y) <= e) {
				break;
			}
			y = y1;
			min = y;
		}
		return min;
	}
}

主函数：

public class TestMain {
	public static void main(String args[]) {
		double min;
		SteepestDescend sd = new SteepestDescend();
		sd.init();
		min = sd.getSteepestDescend();
		System.out.println("最小值："+ min );
	}

}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航