您的位置：首页 > 其它

svm中的数学和算法

2014-11-18 23:33 246 查看

转载自：http://blog.csdn.net/sealyao/article/details/6442403

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

一、数学部分

1.1二维空间

支持向量机的典型应用是分类，用于解决这样的问题：有一些事物是可以被分类的，但是具体怎么分类的我们又说不清楚，比如说下图中三角的就是C1类，圆圈的就是C2类，这都是已知的，好，又来了一个方块，这个方块是属于C1呢还是属于C2呢，说不清楚。SVM算法就是试着帮您把这件事情说清楚的。

在二维空间里（这时候样本有两个参照属性），SVM就是在C1和C2中间划一条线g(x)=0，线儿上边的属于C1类，线儿下边的属于C2类，这时候方块再来，咱就有章程了。

关于g(x) = 0得再啰嗦几句，g(x)里边的x不是横坐标，而是一个向量，

也不是解析几何里边的斜率，也是向量。

是一个向量积。比如在解析几何意义上的直线y
= -x-b,换成向量表示法就是

，这里w就是那个

，x就是那个

。

对C1类中的点：g(x) > 0；对于 C2类中的点：g(x) < 0 ;

如果我们用y来表示类型，+1代表C1类，-1代表C2类。

那么对于所有训练样本而言，都有：

，那么g(x)
= 0 就能够正确分割所有训练样本的那条线，只要把g(x) = 0这条线给找出来就能凑合用了。

这也就只能凑合用，因为满足这个条件的g(x) = 0 太多了，追求完美的我们要的是最优的那条线。怎么才是最优的呢？直觉告诉我们g(x) = 0这条线不偏向C1那边，也不偏向C2那边，就应该是最优的了吧。对，学名叫分类间隔，下图红线的长度就是分类间隔。

在二维空间中，求分类间隔，可以转化为求点到线的距离，点到线的距离可以表示为

(向量表示)。为简单计，把整个二维空间归一化(等比放大或缩小)，使得对于所有的样本，都有|g(x)|>=1，也就是让C1和C2类中离g(x)=0最近的训练样本的|g(x)|=1，这时分类间隔就是

，这个间隔越大越好，那么|

|越小越好。

1.2多维空间

现在我们已经在2维空间中抽象出一个数学问题，求满足如下条件的g(x)=0：

，即在满足

条件下能使

取最小值的那个w。在二维空间中，w可以近似的理解为斜率，在样本确定，斜率确定的情况下，

中的那个b也是可以确定的，整个

=
0也就确定了。

现在我们讨论的只是二维空间，但是我们惊喜的发现，在二维空间中的结论可以很容易的推广到多维空间。比如说：

我们仍然可以把多维空间中的分割面(超平面)表示为

。

多维空间中点到面的距离仍然可以表示为

。如下图，平面表示为

，x是

在面上的投影，r是x到面的距离，简单推导如下：

w向量垂直于平面

，有：

，把上式带入

中得到

，化简得到

，所以

，向量x到平面

的距离

，这和二维空间中结论也是一致的。

现在我们把SVM从2维空间推广到多维空间，即求满足如下条件的g(x)=0：

。

1.3拉格朗日因子

这是一个典型的带约束条件的求极值问题，目标函数是

的二次函数，约束函数是

的线性函数：二次规划问题。求解二次规划问题的一般性方法就是添加拉格朗日乘子，构造拉格朗日函数(理论上这儿应该还有一些额外的数学条件，拉格朗日法才是可用，就略过了)。

具体求解步骤如下：

1、构造拉格朗日函数

其中

和b是未知量。

2、对

和b求偏导数，令偏导数为0。

,
即

3、把上式带回拉格朗日函数，得到拉格朗日对偶问题，把问题转化为求解

4、最后把问题转化为求解满足下列等式的

1.4线性化

好，现在我们再来梳理一下svm的分类逻辑，在空间中找一个分割面（线）把样本点分开，分割面（线）的最优条件就是分类间隔最大化，分类间隔是基于点到平面（直线）的距离来计算的。问题是所有的分割面都是平面，所有的分割线都是直线吗？显然不是。

比如特征是房子的面积x，这里的x是实数，结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线，那么我们希望使用x的三次多项式来逼近这些样本点。

在二维空间中这是非线性的，这样我们前面的推理都没法用了------点到曲线的距离？不知道怎么算。但是如果把x映射到3维空间