您的位置:首页 > 其它

斯坦福机器学习: 网易公开课系列笔记(四)——牛顿法、广义线性模型

2017-02-18 22:50 351 查看

牛顿法

给定一个函数,如何求得使f(x)=0的x?对于二次函数,可以直接套用求根公式,但是对于更一般的函数,并不一定有解析形式的解。



为此,我们可以这样做:首先,初始化一个点X0,过f(X0)做函数切线,得到与X轴的交点X1,再过f(X1)做函数切线,得到与X轴的交点X2,以此类推,直至Xn–>X。我们得到X的更新公式:Xn+1=Xn-f(Xn)/f’(Xn)

我们又知道,要求解一个函数的极值就是对该函数求导,令导数f’(x)=0。在我们的优化问题中,我们需要极大化对数似然函数l(Θ),求出令l’(Θ)=0的Θ值,为此我们得到Θ的更新公式:Θn+1=Θn-l’(Θn)/l”(Θn)(也可以这样想,我们将上述函数看成是l’(Θ)的图像,l’(Θ)=0时的Θ值,即是l(Θ)的极值点),这就是牛顿法的思想,以似然性最大化问题为例,格式化其运行流程:



牛顿法作为一种优化算法,比梯度下降法拥有更快的收敛速度,拥有局部二阶收敛性,即在某一迭代中误差为0.01,则下一次迭代误差为0.0001,再下一次为0.00000001。但是,基本牛顿法初始点需要足够“靠近”极值点,否则,有可能导致算法不收敛。这样就引入了全局牛顿法(因为计算Hession矩阵的复杂度过高,又提出了拟牛顿法,这里不做介绍)。全局牛顿法是基于Armijo搜索的,这里只给出其一般化的执行流程:



广义线性模型(Generalized Linear Models)

指数分布族(exponential family)

如果一个概率分布能够写成如下形式:



则属于指数分布族。我们之前提到的伯努利分布,高斯分布,包括指数分布、泊松分布,都是指数分布族的一员。这里以伯努利分布为例,改写成指数分布族的形式:



对于决策函数属于指数分布族的模型,求解参数Θ的梯度下降法更新公式一致性的证明:



GLMs

GLMs满足假设:

1)y|x;Θ~ExpFamily(η)

2)我们试图寻找Θ,建立一个模型hΘ(x)=E[T(y)|x;Θ](大多数情况,这里的T(y)=y)

3)参数Θ与x之间满足线性关系

给定一个参数为ϕ的伯努利分布,可以得到:hΘ(x)=E[y|x;Θ]=P(y=1|x;Θ)=ϕ=1/(1+e-η)。其中g(η)=E[y;η]=1/(1+e-η)叫做正则响应函数,g-1(η)称为正则关联函数

可以看到:逻辑斯蒂回归伯努利分布化简为指数分布形式自然得到的,同理,最小二乘法即由高斯分布化简后自然得到的。

在前面的问题中,我们建立的分类模型都是二分类问题,即决策函数的输出y只能在{0,1}上取值。如果是多分类问题呢?即y∈{1,2,…,k},多项式分布(Multinomial Distribition)就可以用来解决此类问题,它也属于指数分布族,不同的是,它的T(y)≠y而是一个n维向量:



至此,我们证明了多项式分布也是属于指数分布族的,这里给出多项式分布参数Θ的对数似然函数:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习