分类的线性回归方法
2016-08-13 15:07
856 查看
分类的指示矩阵回归方法
考虑将每个相应类型通过一个指示变量编码,这样,如果有K个类,那么对于每一个输入,输出时一个K维向量,其中,如果G=k,那么Yk=1,否则Yk=0,训练集的N个输入形成一个N*K的指示响应矩阵(indicator response matrix)Y。我们用线性回归模型拟合Y的每一列,拟合由下式给出
Y^=X(XTX)−1XTY
一个输入为x的新的观测按如下办法分类,
首先计算出输入f^(x),它是一个K维向量,将x分类到最大的分量所对应的类中。
该方法的一个形式化的理由就是我们把这个回归看成后验概率P(G=k|X=x)的拟合,但是线性回可能归模型会使得某个分量拟合值为负或者大于1。虽然如此,这些干扰并不妨碍该方法发挥作用,而且它能产生于更标准的线性分类方法类似的结果。而且可以证明,在存在截距项(X中取值为1的列)的情况下,σkf^k(x)=1。
简化的方法
一种更简化的方法是,为每一类构造一个目标值tk,类别gi对应tk,然后可以用最小二乘法来拟合这个线性模型。对于一个新的观测,将这个观测分类距离拟合值最近的类中,即
G^(x)=argmink||f^(x)−tk||
事实上,这种方法与指示矩阵的回归的方法完全相同。
线性回归的问题
当类的个数K>=3的时候,特别是当K很大的时候,回归方法有很严重的屏蔽问题,比如考虑到一维问题,输入为(x,y),类的分布情况如下那么拟合这三个类得到的三条直线可能是如下所示
可以看到,在这里红色类完全被屏蔽了,对这个问题,二次的拟合将解决该问题,然而,当类的数量更多的时候,次数就需要更高了,一个不严格的一般规则是:如果K>=3个类排成一条线,则可能需要高达K-1次多项式对他们求解,为了对所有情况求解,在p维输入空间,我们将需要K-1多项式,总共O(pK−1)项。
相关文章推荐
- 分类的方法
- 元数据的分类方法(一)
- Rocchio算法,其他分类算法通用阈值确定方法
- 关于"多级目录(分类)"的一些想法 ----- 实现方法
- Blog文章分类方法
- 微软操作系统的版本分类方法
- Log 4j 按照level级别分类存储方法
- ARP***原理及解决方法与CMD命令分类
- SVM多分类的方法
- 元数据的分类方法(二)
- MDA工具分类方法:一个评价模版
- 用xsl分类的方法
- IP分类,子网掩码的计算方法──很好的方法
- asp实现无限级分类的方法js版
- 实现文本自动分类的基础----Term频率计算方法
- 测试的分类及测试方法
- 现代统计分析方法分类
- 设计方法的分类
- 现代统计分析方法分类
- 现代统计分析方法分类