目标函数优化中的三种梯度
2016-12-19 15:05
162 查看
原文出处:点击打开链接
考虑一个关于参数矩阵 W 的标量目标函数 J(W) 的极小化问题,即
Wopt=argminWJ(W)
通常,给定 W 的一个初值 W0 ,通过“迭代更新”的方法来搜索求解 Wopt 。设第 k步迭代的矩阵为 W(k) ,则 W(k) 的迭代更新方程可表示为
W(k+1)=W(k)+ΔW(k)
其中 ΔW(k) 为迭代“调整量”或“增量”。现在的问题是:如何选择 ΔW(k) ,使得上式能以最快的速度收敛到 Wopt ?
1. 基于“常规梯度”的调整量
“常规梯度”就是 J(W) 对 W 的微分,即 ∂J(W)/∂W 。选择
ΔW∝−∂J(W)∂W
作为调整量,则
W(k+1)=W(k)−α(k)∂J(W)∂W∣∣∣W=W(k)
在欧几里得正交坐标系里,“负”常规梯度方向是 J(W) 下降最快的方向,所以上式的更新方法称为“最陡下降法”。最陡下降法虽然简单,但是它的不足之处是:
(1)除非 J(W) 非常简单和光滑,否则最陡下降法将 W 引导至最接近的“局部”极值点,而不是“全局”最小点。而非二次型的目标函数具有很多的局部极大点或极小点,因此,初值 W0 的选择非常重要。
(2)如果 J(W) 在极小值附近比较平坦,则在 J(W) 接近最小点时, ∂J(W)/∂W非常小(接近于0)。如果 α(k) 恒定或设置过小,导致在最小点附近收敛速度相当慢;反之, α(k) 设置过大,会导致过冲和不稳定,因此, α(k) 的选取也是一个比较困难的问题。
2. 基于“自然梯度”的调整量
在利用迭代更新方程对 W 进行更新时,一个非常“自然”的想法是:在保持 ∥ΔW∥2不变的前提下,寻找一个最佳的方向,使得 J(W+ΔW) 最小。
Amari对这个想法进行了深入的研究,利用黎曼几何的有关理论证明,该最佳方向
不是“负”常规梯度方向,而是“负”黎曼梯度!因此, ΔW 应选择为
ΔW∝−∂J(W)∂WWTW
并将
∂J(W)∂WWTW
定义为 J(W) 的“自然梯度”。
3. 基于“相对梯度”的调整量
Cardoso等人从等变化性出发,给出了 J(W) 的“相对梯度”。其基本思想是:调整量 ΔW 正比于 W 自身,即 ΔW=DW ,选择适当的 D ,使得 J(W+ΔW) 最小。分析表明,当
D∝−∂J(W)∂WWT
时, J(W+ΔW) 取得最小值,此时有
ΔW∝−∂J(W)∂WWTW
Cardoso等人将
∂J(W)∂WWT
定义为 J(W) 的“相对梯度”。
比较常规梯度、自然地图和相对梯度可知:
(1)对于矩阵 W 的目标函数 J(W) ,基于“自然梯度”调整量和基于“相对梯度”调整量是等价的,表明自然梯度也具有等变化性。
(2)对于标量 w 的目标函数 J(w) 或向量 w 的目标函数 J(w) ,对于常规梯度、自然梯度和相对梯度的调整量基本上是等价的。
考虑一个关于参数矩阵 W 的标量目标函数 J(W) 的极小化问题,即
Wopt=argminWJ(W)
通常,给定 W 的一个初值 W0 ,通过“迭代更新”的方法来搜索求解 Wopt 。设第 k步迭代的矩阵为 W(k) ,则 W(k) 的迭代更新方程可表示为
W(k+1)=W(k)+ΔW(k)
其中 ΔW(k) 为迭代“调整量”或“增量”。现在的问题是:如何选择 ΔW(k) ,使得上式能以最快的速度收敛到 Wopt ?
1. 基于“常规梯度”的调整量
“常规梯度”就是 J(W) 对 W 的微分,即 ∂J(W)/∂W 。选择
ΔW∝−∂J(W)∂W
作为调整量,则
W(k+1)=W(k)−α(k)∂J(W)∂W∣∣∣W=W(k)
在欧几里得正交坐标系里,“负”常规梯度方向是 J(W) 下降最快的方向,所以上式的更新方法称为“最陡下降法”。最陡下降法虽然简单,但是它的不足之处是:
(1)除非 J(W) 非常简单和光滑,否则最陡下降法将 W 引导至最接近的“局部”极值点,而不是“全局”最小点。而非二次型的目标函数具有很多的局部极大点或极小点,因此,初值 W0 的选择非常重要。
(2)如果 J(W) 在极小值附近比较平坦,则在 J(W) 接近最小点时, ∂J(W)/∂W非常小(接近于0)。如果 α(k) 恒定或设置过小,导致在最小点附近收敛速度相当慢;反之, α(k) 设置过大,会导致过冲和不稳定,因此, α(k) 的选取也是一个比较困难的问题。
2. 基于“自然梯度”的调整量
在利用迭代更新方程对 W 进行更新时,一个非常“自然”的想法是:在保持 ∥ΔW∥2不变的前提下,寻找一个最佳的方向,使得 J(W+ΔW) 最小。
Amari对这个想法进行了深入的研究,利用黎曼几何的有关理论证明,该最佳方向
不是“负”常规梯度方向,而是“负”黎曼梯度!因此, ΔW 应选择为
ΔW∝−∂J(W)∂WWTW
并将
∂J(W)∂WWTW
定义为 J(W) 的“自然梯度”。
3. 基于“相对梯度”的调整量
Cardoso等人从等变化性出发,给出了 J(W) 的“相对梯度”。其基本思想是:调整量 ΔW 正比于 W 自身,即 ΔW=DW ,选择适当的 D ,使得 J(W+ΔW) 最小。分析表明,当
D∝−∂J(W)∂WWT
时, J(W+ΔW) 取得最小值,此时有
ΔW∝−∂J(W)∂WWTW
Cardoso等人将
∂J(W)∂WWT
定义为 J(W) 的“相对梯度”。
比较常规梯度、自然地图和相对梯度可知:
(1)对于矩阵 W 的目标函数 J(W) ,基于“自然梯度”调整量和基于“相对梯度”调整量是等价的,表明自然梯度也具有等变化性。
(2)对于标量 w 的目标函数 J(w) 或向量 w 的目标函数 J(w) ,对于常规梯度、自然梯度和相对梯度的调整量基本上是等价的。
相关文章推荐
- 三种快排以及四种优化方式
- 激活函数、BP反向传播算法、三种梯度下降、softmax函数及其推导
- 花书学习笔记(2) 病态、梯度优化、约束优化
- 优化MySQL数据库查询的三种方法简介
- BaseAdapter的三种写法 与优化建议 并附上自己的Adapter工具
- 各种梯度优化算法介绍(SGD Loss剧烈波动)
- 深度学习(三十七)优化求解系列之(1)简单理解梯度下降
- web优化必须了解的原理之I/o的五种模型和web的三种工作模式
- 计算梯度的三种方法: 数值法,解析法,反向传播法
- 【机器学习详解】解无约束优化问题:梯度下降、牛顿法、拟牛顿法
- 梯度检验与高级优化笔记
- 机器学习常用优化算法--梯度下降,牛顿法,共轭梯度法,拉格朗日乘数法
- 梯度下降优化算法概述
- Tomcat Connector三种运行模式(BIO, NIO, APR)的比较和优化
- 梯度下降优化算法综述
- web优化必须了解的原理之I/o的五种模型和web的三种工作模式
- 梯度下降优化方法总结
- 排序--Bubble的三种优化
- Android-ListView优化常见的三种方式
- 优化算法之梯度下降法