您的位置:首页 > 理论基础 > 计算机网络

数学之路(3)-机器学习(3)-机器学习算法-神经网络[6]

2013-07-05 20:27 417 查看
梯度下降法

一、基本概念
梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。 最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以是较小的常数。g(k)是x(k)的梯度。
    机器学习算法究竟有多好,或者说误差为多少,我们可以下面的一个误差函数J(θ), θ在神经网络中可以理解为权值,如何调整权值θ以使得J(θ)取得最小值有很多方法,梯度下降法是按下面的流程进行的:
    1)首先对θ赋值,这个值可以是随机的,也可以让θ是一个全零的向量。
    2)改变θ的值,使得J(θ)按梯度下降的方向进行减少。
    为了更清楚,给出下面的图:
    


这是一个表示参数θ与误差函数J(θ)的关系图,红色的部分是表示J(θ)有着比较高的取值,我们需要的是,能够让J(θ)的值尽量的低。也就是深蓝色的部分。θ0,θ1表示θ向量的两个维度。
    在上面提到梯度下降法的第一步是给θ给一个初值,假设随机给的初值是在图上的十字点。然后我们将θ按照梯度下降的方向进行调整,就会使得J(θ)往更低的方向进行变化,如图所示,算法的结束将是在θ下降到无法继续下降为止。当然,可能梯度下降的最终点并非是全局最小点,可能是一个局部最小点,可能是下面的情况:



二、导数

(1)定义

 

设有定义域和取值都在实数域中的函数 

。若 

 在点 

 的某个邻域内有定义,则当自变量 

 在 

 处取得增量 

(点 

 仍在该邻域内)时,相应地函数 

 取得增量 

;如果 

 与 

 之比当 

 时的极限存在,则称函数 

 在点 

 处可导,并称这个极限为函数 

 在点 

 处的导数,记为 

,即:

 


也可记作 





或 



对于一般的函数,如果不使用增量的概念,函数 

 在点 

 处的导数也可以定义为:当定义域内的变量 

 趋近于 

 时,



的极限。也就是说,



 

 

 

 

导数反应的变化率

一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。当函数

的自变量在一点

上产生一个增量

时,函数输出值的增量与自变量增量

的比值在

趋于0时的极限如果存在,即为



处的导数,记作






 

(2)几何意义:

 

 


 

一个实值函数的图像曲线。函数在一点的导数等于它的图像上这一点处之切线的斜率,导数是函数的局部性质。不是所有的函数都有导数,一个函数也不一定在所有的点上都有导数。若某函数在某一点导数存在,则称其在这一点可导,否则称为不可导。如果函数的自变量和取值都是实数的话,那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。

具体来说:

当函数定义域和取值都在实数域中的时候,导数可以表示函数的曲线上的切线斜率。如下图所示,设

为曲线上的一个定点,

为曲线上的一个动点。当

沿曲线逐渐趋向于点

时,并且割线

的极限位置

存在,则称

为曲线在

处的切线。

若曲线为一函数

的图像,那么割线

(蓝色)的斜率为:





处的切线

(红色),即

的极限位置存在时,此时



,则

的斜率

为:



上式与一般定义中的导数定义完全相同,也就是说

,因此,导数的几何意义即曲线

在点

处切线的斜率 

 



(3)导函数

 

 导数是一个数,是指函数 

 在点 

 处导函数的函数值,若函数 

 在其定义域包含的某区间 

 内每一个点都可导,那么也可以说函数

 在区间 

 内可导,这时对于 

 内每一个确定的

 值,都对应着 

 的一个确定的导数值,如此一来就构成了一个新的函数

,这个函数称作原来函数 

 的导函数,记作:



 或者 

,通常也可以说导函数为导数

 

 

 

 

 

 3、一元函数微分

微分和导数是两个不同的概念。但是对一元函数来说,可微与可导是完全等价的概念。可微的函数,其微分等于导数乘以自变量的微分

,换句话说,函数的微分与自变量的微分之商等于该函数的导数。因此,导数也叫做微商。于是函数

的微分又可记作

[

 

(1)微分反应的变化率

微分可以近似地描述当函数自变量的取值作足够小的改变时,函数的值是怎样改变的。当某些函数

的自变量

有一个微小的改变

时,函数的变化可以分解为两个部分。一个部分是线性部分:在一维情况下,它正比于自变量的变化量

,可以表示成

和一个与

无关,只与函数



有关的量的乘积;在更广泛的情况下,它是一个线性映射作用在

上的值。另一部分是比

更高阶的无穷小,也就是说除以

后仍然会趋于零。当改变量

很小时,第二部分可以忽略不计,函数的变化量约等于第一部分,也就是函数在

处的微分,记作



。如果一个函数在某处具有以上的性质,就称此函数在该点可微。

(2)定义

设函数

在某区间

内有定义。对于

内一点

,当

变动到附近的

(也在此区间内)时。如果函数的增量

可表示为 

(其中

是不依赖于

的常数),而

是比

高阶的无穷小,那么称函数

在点

是可微的,且

称作函数在点

相应于自变量增量

的微分,记作

,即





线性主部。[1]:141

通常把自变量

的增量

称为自变量的微分,记作

,即



(3)几何意义

 

函数在一点的微分。其中红线部分是微分量

,而加上灰线部分后是实际的改变量


 



 

 



是曲线

上的点

在横坐标上的增量,

是曲线在点

对应

在纵坐标上的增量,

是曲线在点

的切线对应

在纵坐标上的增量。当

很小时,



要小得多(高阶无穷小),因此在点

附近,我们可以用切线段来近似代替曲线段。

 

 

(4)关于无穷小量

 

A)

如果一个序列 

 如果满足如下性质:

 

用极限符号把上述性质简记为



则序列 

 被称为 

 时的无穷小量[

B)阶的比较

设 

 , 

 为两个序列,而且都是 

时的无穷小量。虽然它们在 

 趋于无穷时都趋于零,但趋于零的速度是有区别的。可以用如下方式比较它们的速度:
若对于任意正实数 

 ,存在正整数 

 使得

 



在 

 时总是成立,则称 

 是 

 的高阶无穷小,记作

 



其中的 

 有时也被省略不写。

在上述定义中,也可以说无穷小量 a 的阶要比 b 的要高,或者说 a 比 b 更快地趋于零

 

 4、多元函数微分

(1) 欧几里得空间

 



表示实数域。对任意一个正整数n,实数的n元组的全体构成了

上的一个n维向量空间,用

来表示。有时称之为实数坐标空间

中的元素写作

,这里的

都是实数。

作为向量空间,其运算是这样定义的:





 欧几里得空间,则是在

上再添加一些内容:欧几里得结构。

为了做欧氏几何,人们希望能讨论两点间的距离,直线或向量间的夹角。一个自然的方法是在

上,对任意两个向量



,引入它们的“标准内积”

(一些文献上称为点积,记为

):




也就是说,

中的任意两个向量对应着一个实数值。 我们把

及这样定义的内积,称为

上的欧几里得结构;此时的

也被称为n维欧几里得空间,内积"<,>"称为欧氏内积

利用这个内积,可以建立距离、长度、角度等概念:
向量

的长度:



这里的长度函数满足范数所需的性质,故又称为

上的欧氏范数




所夹的内角以下列式子给出



这里的

为反余弦函数。
最后,可以利用欧氏范数来定义

上的距离函数,或称度量




这个距离函数称为欧几里得度量,它可以看作勾股定理一种形式。

这里的

仅指实数向量空间,而加入了如上定义的欧几里得结构后才称为欧氏空间;有些作者会用符号

来标记之。欧氏结构使

具有这些空间结构:内积空间、希尔伯特空间、赋范向量空间以及度量空间。

 

 

(2)开集

开集是指不包含自己边界点的集合。或者说,开集把它所包含的任何一点的充分小的邻域也包含在其自身之中。开集的概念一般与拓扑概念是紧密联系着的,通常先公理化开集,然后通过其定义边界的概念。

 

函数分析

在Rn中点集是开集,如果在这个集合的所有点P都是内部点。

 

 

内点

令 S 为欧几里得空间的子集。若存在以 x 为中心的开球被包含于 S,则 x 是 S 的内点。

这个定义可以推广到度量空间 X 的任意子集 S。具体地说,对具有度量 d 的度量空间 X,x 是 S 的内点,若对任意 r > 0,存在 y 属于 S,且 d(x, y) < r

 点 x 是 S 的内部点,因为它包含在 S 内并有一个开球围绕着它。点 y 在 S 的边界上

 




欧几里得空间

n维欧几里得空间Rn的子集U是开集,如果给定任何在U中的点x,存在一个实数ε > 0使得,如果给定任何Rn中点y,有着从x到它的欧几里得距离小于ε,则y也属于U。等价的说,U是开集,如果所有U中的点有包含在U中的邻域。

 

 

(3)定义



是从欧几里得空间Rn(或者任意一个内积空间)中的一个开集

射到Rm的一个函数。对于

中的一点

及其在

中的邻域

中的点

。如果存在线性映射

使得对任意这样的

,



那么称函数

在点

处可微。线性映射

叫做

在点

处的微分,记作



如果

在点

处可微,那么它在该点处一定连续,而且在该点的微分只有一个。为了和偏导数区别,多元函数的微分也叫做全微分全导数

当函数在某个区域的每一点

都有微分

时,可以考虑将

映射到

的函数:



这个函数一般称为微分函数







[b]全微分(英语:total derivative)是微积分学的一个概念,指多元函数的全增量

的线性主部,记为

。例如,对于二元函数

,设f在点

的某个邻域内有定义,

为该邻域内的任意一点,则该函数在点

的全增量可表示为[/b]




其中



仅与



有关,而与



无关,

。若

是当

时的高阶无穷小,则称此函数

在点 

可微分,而

即为函数

在点

的全微分,记作







(4)邻域

是拓扑空间中的基本概念。直觉上说,一个点的邻域是包含这个点的集合,并且该性质是外延的:你可以稍微“抖动”一下这个点而不离开这个集合。

 

在平面上集合 V 是点 p 的邻域,如果围绕 p 小圆盘包含在 V 中

 



 

如果 X 是拓扑空间 而 p 是 X 中的一个点,p 的邻域是集合 V,它包含了包含 p 的开集 U,




注意 V 自身不必须是开集。如果 V 是开集则它被称为开邻域。某些作者要求邻域是开集,所以注意约定是很重要的。

一个点的所有邻域的集合叫做在这点上的邻域系统。

如果 S 是 X 的子集,S 的邻域是集合 V,它包含了包含 S 的开集 U。可得出集合 V 是 S 的邻域,当且仅当它是在 S 中的所有点的邻域。

 

 

 

在度量空间 M = (X,d) 中,集合 V 是点 p 的邻域,如果存在以 p 为中心和半径为 r 的开球,



它被包含在 V 中。

V 叫做集合 S 的一致邻域,如果存在正数 r 使得对于 S 的所有元素 p,



被包含在 V 中。

对于 r>0 集合 S 的 r-邻域 

 是 X 中与 S 的距离小于 r 的所有点的集合(或等价的说 

 是以 S 中一个点为中心半径为r 的所有开球的并集)。

可直接得出 r-邻域是一致邻域,并且一个集合是一致邻域当且仅当它包含对某个 r 值的 r-邻域。



平面上的集合 S 和 S 的一致邻域 V。

 

 

五、梯度

1、相关概念

假如一个空间中的每一点的属性都可以以一个标量来代表的话,那么这个场就是一个标量场。

假如一个空间中的每一点的属性都可以以一个向量来代表的话,那么这个场就是一个向量场

标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。

梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。

2、计算

一个标量函数

的梯度记为:


 或 


其中

(nabla)表示矢量微分算子。

在三维情况,该表达式在直角坐标中扩展为



 

 

六、梯度下降法

梯度下降法,基于这样的观察:如果实值函数 

 在点 

 处可微且有定义,那么函数 

在 

 点沿着梯度相反的方向 

 下降最快。

因而,如果



对于 

 为一个够小数值时成立,那么 



考虑到这一点,我们可以从函数 

 的局部极小值的初始估计 

 出发,并考虑如下序列 

 使得



因此可得到



如果顺利的话序列 

 收敛到期望的极值。注意每次迭代步长 

 可以改变。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: