您的位置:首页 > 其它

吴恩达机器学习之顺序最小化优化算法

2017-12-19 15:36 423 查看

核函数的定义

定义映射x→ϕ(x),其中x∈R,ϕ(x)是一个向量

核函数定义①:

k(x,z)=(xTz)2=(∑ix
4000
izi)(∑jxjzj)

=∑i∑j(xixj)(zizj)=(ϕ(x)Tϕ(z))

其中x,z∈Rn,,ϕ(x)=⎧⎩⎨⎪⎪⎪⎪⎪⎪x1x1x1x2⋮xnxn,是一个nxn维向量

核函数定义②:

k(x,z)=(xTz+c)2

核函数定义②:

k(x,z)=(xTz+c)d

x→ϕ(x),z→ϕ(z),k(x,z)={largesmallx,z是相似的otherwise

可以用一种高效的算法也就是内积去计算k(x,z)而不用显式的表示出ϕ(x)

核函数k(x,z)是衡量x,z的相似度

我们的目的是证明存在ϕ,使得k(x,z)=<ϕ(x),ϕ(z)>

假设k是一个有效的核函数,给定一个样本集{x1,x2,⋯,xm}

令kij=k(xi,xj)

zTkz=∑i∑jzikijzj=∑i∑jziϕ(xi)Tϕ(xj)zj

=∑i∑jzi∑kϕ(xi)kϕ(xj)kzj

=∑k∑i∑jziϕ(xi)kϕ(xj)kzj

=∑k(∑iziϕ(xi)k)2≥0,所以k是一个半正定矩阵

非线性决策边界(L1 norm 软间隔SVM)

SVM原始问题:

min_w,bfrac12∣w∣2,s.t.:yi(wTxi+b)≥1

在软间隔SVM,原始问题变成:

minw,b,ξ12∣w∣2+c∑iξi,s.t.:yi(wTxi+b)≥1−ξi,ξi≥0

拉格朗日算子:

L(w.b,ξ,α,r)=12∣w∣2+c∑iξi−∑iαi(yi(wTxi+b)−1+ξi)−∑iriξi

对偶问题

maxW(α)=∑iαi−12∑i∑jyiyjαiαj<xi,xj>,s.t.:∑iαiyi=0,0≤αi≤c

收敛条件:

αi=0⇒yi(wTxi+b)≥1

αi=c⇒yi(wTxi+b)≤1

c>αi>0⇒yi(wTxi+b)=1

坐标上升法

对于没有限制的优化问题maxW(α1.α2,⋯,αm),除了用牛顿法和梯度下降法,还可以用坐标上升法。

坐标上升法的原理是每次改变一个参数αi,求解αi=maxW(α1,α2,⋯,αi−1,α−i,αi+1,⋯,αm),然后对i做循环1到m



smo算法(序列最小化算法)

该算法对坐标上升法进行改进,每次改变两个参数

选择参数αi,αj,固定其他参数,使得W对这两个参数最优且满足约束条件

仅对α1,α2进行推导(∑iαiyi=0)

更新α1,α2,α1y1+α2y=−∑mi=3αiyi=ξ

W(α1,α2,⋯,αm)=w(ξ−α2y2y1,α2,⋯,αm)=aα22+bα2+c
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习