您的位置：首页 > 其它

分类的线性回归方法

2016-08-13 15:07 856 查看

分类的指示矩阵回归方法

考虑将每个相应类型通过一个指示变量编码，这样，如果有K个类，那么对于每一个输入，输出时一个K维向量，其中，如果G=k，那么Yk=1，否则Yk=0，训练集的N个输入形成一个N*K的指示响应矩阵（indicator response matrix）Y。

我们用线性回归模型拟合Y的每一列，拟合由下式给出

Y^=X(XTX)−1XTY

一个输入为x的新的观测按如下办法分类，

首先计算出输入f^(x)，它是一个K维向量，将x分类到最大的分量所对应的类中。

该方法的一个形式化的理由就是我们把这个回归看成后验概率P(G=k|X=x)的拟合，但是线性回可能归模型会使得某个分量拟合值为负或者大于1。虽然如此，这些干扰并不妨碍该方法发挥作用，而且它能产生于更标准的线性分类方法类似的结果。而且可以证明，在存在截距项（X中取值为1的列）的情况下，σkf^k(x)=1。

简化的方法

一种更简化的方法是，为每一类构造一个目标值tk，类别gi对应tk，然后可以用最小二乘法来拟合这个线性模型。

对于一个新的观测，将这个观测分类距离拟合值最近的类中，即

G^(x)=argmink||f^(x)−tk||

事实上，这种方法与指示矩阵的回归的方法完全相同。

线性回归的问题

当类的个数K>=3的时候，特别是当K很大的时候，回归方法有很严重的屏蔽问题，比如考虑到一维问题，输入为(x,y)，类的分布情况如下

那么拟合这三个类得到的三条直线可能是如下所示

可以看到，在这里红色类完全被屏蔽了，对这个问题，二次的拟合将解决该问题，然而，当类的数量更多的时候，次数就需要更高了，一个不严格的一般规则是：如果K>=3个类排成一条线，则可能需要高达K-1次多项式对他们求解，为了对所有情况求解，在p维输入空间，我们将需要K-1多项式，总共O(pK−1)项。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习分类的线性方法线性回归统计学习基础

相关文章推荐

新的分享

章节导航