您的位置：首页 > 其它

《西瓜书》笔记03：线性模型之LR、线性判别分析（2）

2017-08-17 11:28 288 查看

1. 对数几率回归/逻辑回归/LR

此篇详述见《统计学习方法笔记06：LR逻辑回归模型》。

《西瓜书》讲此节的衔接很好。特此补充。

上节讲到线性回归应用于回归任务。但若要做分类任务咋办？

从广义模型上入手：只需要将回归模型的预测值，映射到分类任务的标记上。

例如：单位阶跃函数。对二分类任务，将模型产生的预测值是实值，转化为0/1值通过下式：

但阶跃函数不可导。一个近似替代函数就是对数几率函数：

这是一个“Sigmoid函数”：形似S形函数。代入有：

将上式变换有：

左边是求y的几率并取对数，称为对数几率。实际上在用线性回归模型的预测结果，去逼近真实标记的对数几率。该模型叫做：logistic regression，LR。

名字虽然叫回归，但针对分类任务。

优点：

直接对分类可能行进行建模，无需事先假设数据分布。避免了假设分布不准确带来的问题

不仅预测类别，可得到近似概率预测

对率函数任意阶可导。优化算法很喜欢。

其余可参见上述博文。

2. 线性判别分析LDA

Linear Discriminant Analysis，LDA

2.1 二分类讨论

二分类问题上最早由Fisher于1936年提出，亦称费舍尔判别分析。

思想：给定训练集，设法将样例投影到一条直线上，同类样例的投影点尽可能接近，异类样例的投影点尽可能远离（已有标签的投影，有监督的学习到这条直线）。

对新样本分类时，将其投影到同样的这条直线上，根据投影点的位置来确定新样本的类别。（另，投影其实可以看作一种降维）