您的位置:首页 > 其它

数据分析介绍之九——双变量建立关系之平滑噪音

2017-10-08 17:58 495 查看
当数据嘈杂时,我们更关心的是确定数据是否显示出有意义的关系,而不是建立精确的字符。看到这一点,它往往是有助于找到一个平滑的曲线表示的噪声数据集。数据的趋势和结构可能比从点云更容易从这样的曲线中看到。



这两种方法都是通过一个小邻域(即局部)的低阶多项式(即至多立方)来逼近数据。诀窍是将各种局部近似串在一起形成一条光滑曲线。这两种方法都包含一个可调节的参数,控制曲线的“刚度”:曲线越硬,出现的越平滑,但它能跟踪个别数据点的精度就越低。在平滑方法中,在平滑性和准确性之间找到正确的平衡是主要的挑战。

样条函数是由分段多项式函数(通常是立方)组成的,它们以光滑的方式连接在一起。除了每个节点的局部光滑性要求外,样条函数还必须通过优化泛函来满足全局光滑条件:



这里的(t)是样条曲线,(十一,易)是数据点的坐标,WI是权重因子(每个数据点的一个),α是一个混合因子。第一项控制如何“蠕动”样的整体,因为第二衍生措施S(t)和曲率变大,如果有许多摇摆曲线。第二个术语捕获了样条曲线代表数据点的精确程度,通过测量每个数据点的样条的平方偏差,如果样条不靠近数据点,它就变大了。每一个相加的项乘以一个权重因子WI,它可以用来比已知的更精确的数据点赋予更大的权重。换言之:我们可以写WI为WI 1 = I I,DI测量的样条应如何通过易在XI。)混合参数α控制我们给第一个学期(强调整体平滑)相对于第二个词(强调代表的准确性)多少重量。在绘图程序中,α通常是我们用来调整给定数据集的样条的刻度盘。

为了显式地构造样条函数,我们为每一对连续的点形成三次插值多项式,并要求这些多项式在它们相遇的点上具有相同的值,以及相同的第一和第二导数。这些光滑条件导致多项式中系数的一组线性方程组,这是可以解决的。一旦这些系数被发现,样条曲线可以在任何需要的位置评价。

样条具有整体平滑性目标,这意味着它们对数据集中的局部细节响应较小。平滑的方法解决了这个问题。它包括通过低阶(通常是线性)多项式(回归)在本地逼近数据,而加权所有数据点,以这样一种方式,接近感兴趣位置的点比远点(局部加权)更有力地贡献数据点。

让我们考虑一阶的情况下(线性)黄土,所以局部近似以特别简单的形式+ bx。在最小二乘意义上找到“适合的才是最好的”,我们必须减少:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: