您的位置:首页 > 其它

局部加权回归LOESS(locally weighted regression)

2017-02-24 11:35 501 查看

欠拟合和过拟合

首先看下面的三幅图,



第一幅拟合为了 y=θ0+θ1x 的一次函数

第二幅拟合为了y=θ0+θ1x+θ2x2 的二次函数

第三幅拟合为了 y=∑5j=0θjxj的五次项函数

最左边的分类器模型没有很好地捕捉到数据特征,不能够很好地拟合数据,我们称为欠拟合

而最右边的分类器分类了所有的数据,也包括噪声数据,由于构造复杂,后期再分类的新的数据时,对于稍微不同的数据都会识别为不属于此类别,我们称为过拟合

局部加权回归

局部加权回归是一种非参数学习算法,这使得我们不必太担心对于自变量最高次项的选择

我们知道,对于普通的线性回归算法,想要预测 x 点的y值,我们通过:

通过拟合θ来找到 ∑i(y(i)−θTx(i))2 的最小值

预测的值为 θTx

对于局部加权回归算法,我们通过下列步骤预测 y 的值:

通过拟合θ来找到 ∑iw(i)(y(i)−θTx(i))2 的最小值

预测的值为 θTx

这里的 w(i)是权重,它并非一个定值,我们通过调节w(i)的值来确定不同训练数据对结果的影响力,

当w(i)很小时,它对应的y(i)−θTx(i)也很小,对结果的影响也很小;

而当它很大时,其对应的y(i)−θTx(i)也很大,对结果的影响很大。

w(i)的计算方法有很多种,其中一种公式为:

w(i)=exp(−(x(i)−x)22τ2)

它很像高斯分布,函数图类似下图,要预测的点x对应的中间的顶点处的自变量,可以看出,离x处越近的地方w(i)值越大,越远的地方w(i)越小,这就使得离x处近的数据对预测结果的影响更大。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习