【数据挖掘】:分位数-分位数图
2016-06-30 15:27
330 查看
最简单的说法是用一张图对应了两个数据,还是一样的画,但是X轴变成了另一个数据,这种图的作用是写出来两种数据的不同的地方,观测是否发生了漂移
2.2.3 数据的基本统计描述的图形显示(1)
本节我们研究基本统计描述的图形显示,包括分位数图、分位数-分位数图、直方图和散点图。这些图形有助于可视化地审视数据,对于数据预处理是有用的。前三种图显示一元分布(即,一个属性的数据),而散点图显示二元分布(即,涉及两个属性)。
1.分位数图
这里和以下几小节我们介绍常用的数据分布的图形显示。分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先,51它显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次,它绘出了分位数信息(见2.2.2节)。对于某序数或数值属性X,设xi(i=1,…,N)是按递增序排序的数据,使得x1是最小的观测值,而xN是最大的。每个观测值xi与一个百分数fi配对,指出大约fi×100%的数据小于值xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi×100%小于值xi。注意,百分比0.25对应于四分位数Q1,百分比0.50对应于中位数,而百分比0.75对应于Q3。
令
这些数从12N(稍大于0)到1-12N(稍小于1),以相同的步长1/N递增。在分位数图中,xi对应fi画出。这使得我们可以基于分位数比较不同的分布。例如,给定两个不同时间段的销售数据的分位数图,我们一眼就可以比较它们的Q1、中位数、Q3以及其他fi值。
例2.13 分位数图。图2.4显示了表2.1的单价数据的分位数图。
表2.1 AllElectronics的一个部门销售的
2.分位数-分位数图
分位数-分位数图(quantile-quantile plot)或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个分布是否有漂移。
假定对于属性或变量unit price(单价),我们有两个观测集,取自两个不同的部门。设x1,…,xN是取自第一个部门的数据,y1,…,yM是取自第二个部门的数据,其中每组数据都已按递增序排序。如果M=N(即每个集合中的点数相等),则我们简单地对着xi画yi,其中yi和xi都是它们的对应数据集的第(i-0.5)/N个分位数。如果M<N(即第二个部门的观测值比第一个少),则可能只有M个点在q-q图中。这里,yi是y数据的第(i-0.5)/M个分位数,52对着x数据的第(i-0.5)/M个分位数画。在典型情况下,该计算涉及插值。
例2.14 分位数-分位数图。图2.5显示在给定的时间段AllElectronics的两个不同部门销售的商品的单价数据的分位数-分位数图。每个点对应于每个数据集的相同的分位数,并对该分位数显示部门1与部门2的销售商品单价。(为帮助比较,我们也画了一条直线,它代表对于给定的分位数,两个部门的单价相同的情况。此外,加黑的点分别对应于Q1、中位数和Q3。)
2.2.3 数据的基本统计描述的图形显示(1)
本节我们研究基本统计描述的图形显示,包括分位数图、分位数-分位数图、直方图和散点图。这些图形有助于可视化地审视数据,对于数据预处理是有用的。前三种图显示一元分布(即,一个属性的数据),而散点图显示二元分布(即,涉及两个属性)。
1.分位数图
这里和以下几小节我们介绍常用的数据分布的图形显示。分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先,51它显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次,它绘出了分位数信息(见2.2.2节)。对于某序数或数值属性X,设xi(i=1,…,N)是按递增序排序的数据,使得x1是最小的观测值,而xN是最大的。每个观测值xi与一个百分数fi配对,指出大约fi×100%的数据小于值xi。我们说“大约”,因为可能没有一个精确的小数值fi,使得数据的fi×100%小于值xi。注意,百分比0.25对应于四分位数Q1,百分比0.50对应于中位数,而百分比0.75对应于Q3。
令
例2.13 分位数图。图2.4显示了表2.1的单价数据的分位数图。
表2.1 AllElectronics的一个部门销售的
图2.4 表2.1的单价数据的分位数图 |
分位数-分位数图(quantile-quantile plot)或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个分布是否有漂移。
假定对于属性或变量unit price(单价),我们有两个观测集,取自两个不同的部门。设x1,…,xN是取自第一个部门的数据,y1,…,yM是取自第二个部门的数据,其中每组数据都已按递增序排序。如果M=N(即每个集合中的点数相等),则我们简单地对着xi画yi,其中yi和xi都是它们的对应数据集的第(i-0.5)/N个分位数。如果M<N(即第二个部门的观测值比第一个少),则可能只有M个点在q-q图中。这里,yi是y数据的第(i-0.5)/M个分位数,52对着x数据的第(i-0.5)/M个分位数画。在典型情况下,该计算涉及插值。
例2.14 分位数-分位数图。图2.5显示在给定的时间段AllElectronics的两个不同部门销售的商品的单价数据的分位数-分位数图。每个点对应于每个数据集的相同的分位数,并对该分位数显示部门1与部门2的销售商品单价。(为帮助比较,我们也画了一条直线,它代表对于给定的分位数,两个部门的单价相同的情况。此外,加黑的点分别对应于Q1、中位数和Q3。)
图2.4 表2.1的单价数据的分位数图 |
相关文章推荐
- 数据结构复习——线性表的链式存储实现(双向链表)
- 反编译工具
- linux 正则表达式基础篇
- 虚拟化基础架构Windows 2008篇之5-安装Windows部署服务
- 有一个嵌入式软件开发专家的博客值得关注
- 欢迎使用CSDN-markdown编辑器
- 黑名单来电自动挂断
- 《Thinkinginjava》第11章-持有对象
- IE8下不支持console.log()
- docker设置引用国内镜像加速
- 判读字符串是否为空的全局宏-分享
- MainActivity
- Fast RCNN训练阶段代码解析
- appium和boostrap通信过程数据分析
- Android ViewPager禁止懒加载
- 解读DSI405中的enqueue之:诊断脚本
- --initialize specified but the data directory has files in it. Aborting
- studio项目是完全可以转换成eclipse的
- SQLite在iOS中的使用
- 排列序号