数据分析介绍之九——双变量建立关系之平滑噪音
2017-10-08 17:58
495 查看
当数据嘈杂时,我们更关心的是确定数据是否显示出有意义的关系,而不是建立精确的字符。看到这一点,它往往是有助于找到一个平滑的曲线表示的噪声数据集。数据的趋势和结构可能比从点云更容易从这样的曲线中看到。
这两种方法都是通过一个小邻域(即局部)的低阶多项式(即至多立方)来逼近数据。诀窍是将各种局部近似串在一起形成一条光滑曲线。这两种方法都包含一个可调节的参数,控制曲线的“刚度”:曲线越硬,出现的越平滑,但它能跟踪个别数据点的精度就越低。在平滑方法中,在平滑性和准确性之间找到正确的平衡是主要的挑战。
样条函数是由分段多项式函数(通常是立方)组成的,它们以光滑的方式连接在一起。除了每个节点的局部光滑性要求外,样条函数还必须通过优化泛函来满足全局光滑条件:
这里的(t)是样条曲线,(十一,易)是数据点的坐标,WI是权重因子(每个数据点的一个),α是一个混合因子。第一项控制如何“蠕动”样的整体,因为第二衍生措施S(t)和曲率变大,如果有许多摇摆曲线。第二个术语捕获了样条曲线代表数据点的精确程度,通过测量每个数据点的样条的平方偏差,如果样条不靠近数据点,它就变大了。每一个相加的项乘以一个权重因子WI,它可以用来比已知的更精确的数据点赋予更大的权重。换言之:我们可以写WI为WI 1 = I I,DI测量的样条应如何通过易在XI。)混合参数α控制我们给第一个学期(强调整体平滑)相对于第二个词(强调代表的准确性)多少重量。在绘图程序中,α通常是我们用来调整给定数据集的样条的刻度盘。
为了显式地构造样条函数,我们为每一对连续的点形成三次插值多项式,并要求这些多项式在它们相遇的点上具有相同的值,以及相同的第一和第二导数。这些光滑条件导致多项式中系数的一组线性方程组,这是可以解决的。一旦这些系数被发现,样条曲线可以在任何需要的位置评价。
样条具有整体平滑性目标,这意味着它们对数据集中的局部细节响应较小。平滑的方法解决了这个问题。它包括通过低阶(通常是线性)多项式(回归)在本地逼近数据,而加权所有数据点,以这样一种方式,接近感兴趣位置的点比远点(局部加权)更有力地贡献数据点。
让我们考虑一阶的情况下(线性)黄土,所以局部近似以特别简单的形式+ bx。在最小二乘意义上找到“适合的才是最好的”,我们必须减少:
这两种方法都是通过一个小邻域(即局部)的低阶多项式(即至多立方)来逼近数据。诀窍是将各种局部近似串在一起形成一条光滑曲线。这两种方法都包含一个可调节的参数,控制曲线的“刚度”:曲线越硬,出现的越平滑,但它能跟踪个别数据点的精度就越低。在平滑方法中,在平滑性和准确性之间找到正确的平衡是主要的挑战。
样条函数是由分段多项式函数(通常是立方)组成的,它们以光滑的方式连接在一起。除了每个节点的局部光滑性要求外,样条函数还必须通过优化泛函来满足全局光滑条件:
这里的(t)是样条曲线,(十一,易)是数据点的坐标,WI是权重因子(每个数据点的一个),α是一个混合因子。第一项控制如何“蠕动”样的整体,因为第二衍生措施S(t)和曲率变大,如果有许多摇摆曲线。第二个术语捕获了样条曲线代表数据点的精确程度,通过测量每个数据点的样条的平方偏差,如果样条不靠近数据点,它就变大了。每一个相加的项乘以一个权重因子WI,它可以用来比已知的更精确的数据点赋予更大的权重。换言之:我们可以写WI为WI 1 = I I,DI测量的样条应如何通过易在XI。)混合参数α控制我们给第一个学期(强调整体平滑)相对于第二个词(强调代表的准确性)多少重量。在绘图程序中,α通常是我们用来调整给定数据集的样条的刻度盘。
为了显式地构造样条函数,我们为每一对连续的点形成三次插值多项式,并要求这些多项式在它们相遇的点上具有相同的值,以及相同的第一和第二导数。这些光滑条件导致多项式中系数的一组线性方程组,这是可以解决的。一旦这些系数被发现,样条曲线可以在任何需要的位置评价。
样条具有整体平滑性目标,这意味着它们对数据集中的局部细节响应较小。平滑的方法解决了这个问题。它包括通过低阶(通常是线性)多项式(回归)在本地逼近数据,而加权所有数据点,以这样一种方式,接近感兴趣位置的点比远点(局部加权)更有力地贡献数据点。
让我们考虑一阶的情况下(线性)黄土,所以局部近似以特别简单的形式+ bx。在最小二乘意义上找到“适合的才是最好的”,我们必须减少:
相关文章推荐
- 数据分析介绍之八——双变量建立关系之散点图
- 数据分析介绍之十——双变量建立关系之对数图
- 数据分析介绍之四——单变量数据观察之累积分布函数
- 数据分析介绍之二——单变量数据观察之直方图
- 数据分析介绍之五——单变量数据观察之排序图和升幅图
- 数据分析介绍之一——单变量数据观察之抖动图
- 数据分析介绍之三——单变量数据观察之核密度估计
- 数据分析介绍之七——单变量数据观察之汇总统计和箱线图
- 数据分析介绍之六——单变量数据观察之汇总统计和箱线图
- [Kaggle] 数据建模分析与竞赛平台介绍
- ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析
- Hibernate的注解开发之数据的三种关系介绍,表结构一对一
- YUV和像素关系 davinci 8127 rdk下面的YUV数据分析1
- Python数据分析相关库介绍
- 从脑科学的角度分析物联网、 云计算、 大数据和互联网的关系
- 浅谈数据挖掘中变量的相关关系
- Python交互式数据分析报告框架~Dash介绍
- 用python做数据分析4|pandas库介绍之DataFrame基本操作
- 《海量日志数据分析与应用》场景介绍及技术点分析
- 存储过程 从临时表中把数据分倒到多个表,并建立对应关系、历史记录