您的位置:首页 > 其它

分类的线性回归方法

2016-08-13 15:07 856 查看

分类的指示矩阵回归方法

考虑将每个相应类型通过一个指示变量编码,这样,如果有K个类,那么对于每一个输入,输出时一个K维向量,其中,如果G=k,那么Yk=1,否则Yk=0,训练集的N个输入形成一个N*K的指示响应矩阵(indicator response matrix)Y。

我们用线性回归模型拟合Y的每一列,拟合由下式给出

Y^=X(XTX)−1XTY

一个输入为x的新的观测按如下办法分类,

首先计算出输入f^(x),它是一个K维向量,将x分类到最大的分量所对应的类中。

该方法的一个形式化的理由就是我们把这个回归看成后验概率P(G=k|X=x)的拟合,但是线性回可能归模型会使得某个分量拟合值为负或者大于1。虽然如此,这些干扰并不妨碍该方法发挥作用,而且它能产生于更标准的线性分类方法类似的结果。而且可以证明,在存在截距项(X中取值为1的列)的情况下,σkf^k(x)=1。

简化的方法

一种更简化的方法是,为每一类构造一个目标值tk,类别gi对应tk,然后可以用最小二乘法来拟合这个线性模型。

对于一个新的观测,将这个观测分类距离拟合值最近的类中,即

G^(x)=argmink||f^(x)−tk||

事实上,这种方法与指示矩阵的回归的方法完全相同。

线性回归的问题

当类的个数K>=3的时候,特别是当K很大的时候,回归方法有很严重的屏蔽问题,比如考虑到一维问题,输入为(x,y),类的分布情况如下



那么拟合这三个类得到的三条直线可能是如下所示



可以看到,在这里红色类完全被屏蔽了,对这个问题,二次的拟合将解决该问题,然而,当类的数量更多的时候,次数就需要更高了,一个不严格的一般规则是:如果K>=3个类排成一条线,则可能需要高达K-1次多项式对他们求解,为了对所有情况求解,在p维输入空间,我们将需要K-1多项式,总共O(pK−1)项。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息