您的位置:首页 > 其它

吴恩达机器学习之最优间隔分类器

2017-12-16 19:50 288 查看

最优间隔分类器

定义目标函数:

hw,b=g(wTx+b),g(z)={10z≥0z<0,y∈{−1,1}

定义函数间隔:

Υ−i=yi(wTxi+b)

定义几何间隔:

Υi=yi(wT∣w∣xi+b∣w∣)

那么有:Υi=Υ−i∣w∣,函数间隔会随着w和b的改变而变化,而几何间隔则是不变得,最优间隔分类器的目的就是使几何间隔最大化

目标1. maxΥ,w,bΥ  s.t. yi(wT∣w∣xi+b∣w∣)≥Υ

目标2. maxΥ−,w,bΥ−∣w∣  s.t. yi(wTxi+b)≥Υ−

目标3. minw∣w∣2,s.t. yi(wTxi+b)≥1(令Υ−1=1)

由于这两种优化问题都是非凸优化,因此不会收敛到全局最小值,只会收敛到局部最小值,要用对偶问题来解答。

拉格朗日乘数法

目标函数定义:

minwf(w) s.t. hi(w)=0

定义拉格朗日算子

L(w,β)=f(w)+∑iβihi(w)

令偏导数等于0:

∂L(w,β)∂w=0,∂L(w,β)∂β=0

如果w∗是解,那么存在β∗,使得:

∂L(w∗,β∗)∂w=0,∂L(w∗,β∗)∂βi=0

广义拉格朗日乘数法

目标函数定义:

minwf(w) s.t. gi(w)≤0,hi(w)=0

定义广义拉格朗日算子

L(w,α,β)=f(w)+∑iαigi(w)+∑iβihi(w)

定义:θp(w)=maxα,βL(w,α,β)

θp(w)={f(w)∞gi(w),hi(w)满足条件otherwise

那么原始问题定义为:

p∗=minwθp(w)=minwmaxα,βL(w,α,β)

拉格朗日乘数法的原理可以参考下面这篇文章http://blog.csdn.net/z_x_1996/article/details/71705650

对偶问题

定义:

θD(α,β)=minwL(w.α,β)

它的对偶问题是:

d∗=maxα≥0,βθD(α,β)=maxα≥0,βminwL(w,α,β)

一般来说,对偶问题的解小于等于原始问题的解,即d∗≤p∗

如果想将原始问题转化为对偶问题来解,也就是要证明在什么情况下d∗=p∗

假设f为凸函数

假设hi(w)是仿射函数(仿射函数是指自变量最高次数为1的多项式函数)

存在w,对于所有的i,gi(w)<0

那么存在w∗,α∗,β∗,使得:∂L(w∗,α∗,β∗)∂w=0,∂L(w∗,α∗,β∗)∂β=0

其中w∗是原始问题的解,α∗,β∗是拉格朗日乘数,是对偶问题的解

KKT互补条件:

α∗igi(w)=0,gi(w∗)≤0,α∗i≥0

如果α∗i>0⇒gi(w∗)=0,通常有α∗i≠0⇒gi(w∗)=0

对偶问题可以参考下面这篇文章

http://blog.csdn.net/x3886321/article/details/19128441

SVM的最优间隔分类器

拉格朗日常数αi,βi变成αi,参数w变成w,b

目标函数定义为:

min12(∣w∣)2,s.t. yi(wTxi+b)≥1

gi(w,b)=−yi(wTxi+b)+1≤0,αi>0⇒gi(w,b)=0⇒yi(wTxi+b)=1

我们将函数间隔为1的样本称为支持向量,这也就是支持向量机的来源。

拉格朗日算子:

L(w,b,α)=12∣w∣2−∑i(yi(wTxi+b)−1)

定义:

θD(α)=minw,bL(w,b,α)

∂L(w,b,α)∂α=w−∑iαixiyi=0⇒w=∑iαixiyi

∂L(w,b,α)∂b=∑iαiyi=0

L(w,b,α)=12∣w∣∣w∣T−∑iαi(yi(wTxi+b)−1)

=12∑i∑jαiαjyiyj<xi,xj>−∑i∑jαiαjyiyj<xi,xj>+∑iαi

=∑iαi−12∑i∑jαiαjyiyj<xi,xj>=W(α)

对偶问题:

maxαW(α),s.t. αi≥0,∑iyiαi=0

所以目标函数为:

hw,b(x)=g(wTx+b)=g(∑iαiyi<xi,x>+b)

这样,我们就把转化变量变为了α,然后通过上面ω与α的关系便可以求出ω,ω求出来后,b也可以很容易的得到为:

b=−mini,yi=1wTxi+maxi,yi=−1wTxi2

具体的原理可以参考这篇文章http://blog.csdn.net/z_x_1996/article/details/72763904
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习
相关文章推荐