您的位置:首页 > 其它

2.局部加权线性回归和逻辑回归

2017-09-25 17:39 435 查看
1.局部加权线性回归

在讲述局部加权线性回归时,先论述关于,过拟合的概念:
李航老师的《统计学习方法》中给出了很好的定义:过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一个模型对已知数据预测得很好,
但对于未知数据预测很差的想象。欠拟合的概念与此相反,下面用3张图来展示其拟合程度:



从完美拟合所有训练数据的意义上来说,这是一个伟大的模型,当从另一个方面来讲它也许并不是一个非常好的模型,因为没人会认为这个房子大小
的函数是一个对于房价非常好的预测。
>.局部加权回归:



局部加权回归:当你要处理x点时,我会检查数据集合,并且只考虑位于x周围固定区域内的数据点,之后对这些点拟合线性回归





       通常我们会将

权值记为:



被称为波长函数,它控制了权值距离下降的速率。




比较小时:图中蓝色的线表示距离较远的点权值会降低的非常快。


比较大时:图中红色的线条权值随着距离下降的速度会相对较慢。

我们将样本中的每个点,都采用局部加权回归拟合,这样就会拟合出一条曲线,这条曲线就是我们要拟合的结果。



2.关于前面我的博客中关于线性回归中损失函数的概率论版本的解释:
我们在讨论下非加权线性回归:
                                 


1.     最小二乘模型:在我们预测房屋价格的例子中,假设房屋的价格是一些特征的线性函数加上,即:




表示误差项,

,这个误差项可看成是对未建模的效应的捕获,也许房子还有其他特征,比如说房间有多少壁炉,
或者房间是否有花园?或者你也可以把他看成是一种随机的噪声。
1.     现在我们假设

这个误差服从均值是0的高斯分布,例如:




我们假定在给定参数的情况下。房屋的价格服从高斯分布,则有:



也就是房屋价格是加上一些服从高斯分布的且方差为噪声的,均值为:;
这个假设的前提是中心极限定理:许多独立同分布(IID)的随机变量值和,趋向于服从高斯分布。
我们来看看似然函数:



假设误差满足IID,怎么样去估计参数呢?
       通常情况下,我们会选择

,使得数据出现的可能性尽可能大,亦选择

使得似然性最大化,或者说选择参数,使得数据出现的可能性尽量大
对于上面的使然函数我们取对数似然函数如下:



这样我们就可以将问题转换成为求:



的极小值

3.逻辑回归的引入出之《Pattern Recongnitionand Machine Learning》:
Webegin our treatment of generalized linear models by considering the problem
of two-class classification. In our discussion ofgenerative approaches in Section 4.2,
we saw that under rather general assumptions, theposterior probability of class C1
can be written as alogistic sigmoid acting on a linear function of the feature vector
φ so that
p(C1|φ) =y(φ) = σ wTφ (4.87)
with p(C2|φ) =1 - p(C1|φ).Here σ(·) isthe logisticsigmoid functiondefined by
(4.59). In the terminology of statistics, this model isknown as
logisticregression,
although it should be emphasized that this is a modelfor classification rather than
regression.

1.1  逻辑回归模型适用于标签y是离散的变量的样本,例如y={0,1}.该模型可应用于类似于判别一个人是否生病,判断一个房屋在未来6个月内是否会被卖掉;

      或者建立一个垃圾邮件的过滤器,判断邮件是否是垃圾邮件;预测一个计算机系统在未来24小时内是否会崩溃;

1.2  下面举一个例子来说明使用线性回归来处理分类问题是非常糟糕的;



假设

,我们改变假设


针对分类问题,我们会假设



关于g(z)有如下性质:



函数图像如下:



上述假设中,我们已经默认了认为,我们的随机变量满足Bernoulli分布。所以我们可以有以下的定义:



也就是:


我们使用极大似然估计法有:



我们通过选择可以是似然函数取得局部最大值,

首先我们会对似然函数取对数得对数似然函数:



让我我们使用梯度上升算法取得






注意这里的是逻辑回归函数,不是之前的线性回归函数
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息