您的位置：首页 > 其它

2.局部加权线性回归和逻辑回归

2017-09-25 17:39 435 查看

1.局部加权线性回归

在讲述局部加权线性回归时，先论述关于，过拟合的概念：
李航老师的《统计学习方法》中给出了很好的定义：过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一个模型对已知数据预测得很好，
但对于未知数据预测很差的想象。欠拟合的概念与此相反，下面用3张图来展示其拟合程度：

从完美拟合所有训练数据的意义上来说，这是一个伟大的模型，当从另一个方面来讲它也许并不是一个非常好的模型，因为没人会认为这个房子大小
的函数是一个对于房价非常好的预测。
>.局部加权回归：

局部加权回归：当你要处理x点时，我会检查数据集合，并且只考虑位于x周围固定区域内的数据点，之后对这些点拟合线性回归

通常我们会将

权值记为：

，

被称为波长函数，它控制了权值距离下降的速率。

比较小时:图中蓝色的线表示距离较远的点权值会降低的非常快。

比较大时:图中红色的线条权值随着距离下降的速度会相对较慢。

我们将样本中的每个点，都采用局部加权回归拟合，这样就会拟合出一条曲线，这条曲线就是我们要拟合的结果。

2.关于前面我的博客中关于线性回归中损失函数的概率论版本的解释：
我们在讨论下非加权线性回归：

1. 最小二乘模型：在我们预测房屋价格的例子中，假设房屋的价格是一些特征的线性函数加上，即：

表示误差项，

,这个误差项可看成是对未建模的效应的捕获，也许房子还有其他特征，比如说房间有多少壁炉，
或者房间是否有花园？或者你也可以把他看成是一种随机的噪声。
1. 现在我们假设

这个误差服从均值是0的高斯分布，例如：

我们假定在给定参数的情况下。房屋的价格服从高斯分布，则有：

也就是房屋价格是加上一些服从高斯分布的且方差为噪声的，均值为：；
这个假设的前提是中心极限定理：许多独立同分布(IID)的随机变量值和，趋向于服从高斯分布。
我们来看看似然函数：

假设误差满足IID，怎么样去估计参数呢?
通常情况下，我们会选择

，使得数据出现的可能性尽可能大，亦选择

使得似然性最大化，或者说选择参数，使得数据出现的可能性尽量大
对于上面的使然函数我们取对数似然函数如下：

这样我们就可以将问题转换成为求：

的极小值

3.逻辑回归的引入出之《Pattern Recongnitionand Machine Learning》：
Webegin our treatment of generalized linear models by considering the problem
of two-class classification. In our discussion ofgenerative approaches in Section 4.2,
we saw that under rather general assumptions, theposterior probability of class C1
can be written as alogistic sigmoid acting on a linear function of the feature vector
φ so that
p(C1|φ) =y(φ) = σ wTφ (4.87)
with p(C2|φ) =1 - p(C1|φ).Here σ(·) isthe logisticsigmoid functiondefined by
(4.59). In the terminology of statistics, this model isknown as
logisticregression,
although it should be emphasized that this is a modelfor classification rather than
regression.

1.1 逻辑回归模型适用于标签y是离散的变量的样本，例如y={0,1}.该模型可应用于类似于判别一个人是否生病，判断一个房屋在未来6个月内是否会被卖掉；

或者建立一个垃圾邮件的过滤器，判断邮件是否是垃圾邮件；预测一个计算机系统在未来24小时内是否会崩溃；

1.2 下面举一个例子来说明使用线性回归来处理分类问题是非常糟糕的；