数据的统计分析
2017-03-05 11:38
363 查看
数据预处理之后,我们要做一些统计分析,来观察我们的数据,这其中包括 描述性分析、统计推断。
描述性分析:
主要是统计指标、图表。
1、集中趋势分析
除了分位数,我们还可以结合 中位数、众数、平均数三者的关系。具体地:
众数在中位数左侧,平均数在中位数右侧,则此时数据呈正偏态分布,又叫右偏,存在极大异常值。是不是可以考虑删除或替换为平均值
众数在中位数右侧,平均数在左侧,数据呈负偏态,左偏。可能存在极小异常值。
2、离散趋势分析
有极差、四分差、方差和标准差。
极差受极值影响,四分差虽然掐头去尾,但是丢失大量数据信息。最常用的是方差和标准差。
3、分布情况的测度
偏态和峰度。
偏态系数SK,峰度看数据的扁平程度。
4、图形分析
上面我们是看一些统计指标,可能不太直观。
a、直方图和密度函数图
密度函数图可以根据已知样本估计样本的密度函数曲线。
正偏态,右偏,有极大值。
b、QQ图
用来验证数据是否某个分布,或者验证两组数据是否来自同一个分布。
常用来验证是否正态分布。QQ散点图上的散点应该均匀地分布在QQ直线两侧。
c、箱线图
极大值、极小值、下四分位值、上四分位,加中位数。常用来看离群点。
d、多组数据分析
协方差的大小一定程度上反映了变量之间的相互关系,但她受变量本身度量单位的影响,因此我们还要计算
相关系数,包括皮尔逊系数(数据线性关系),Kendall、Spearman系数(秩相关性,当数据不是线性的 而是单调的?http://www.cnblogs.com/zhangchaoyang/articles/2631907.html)
二维散点图,矩阵散点图,折线图等等。
统计推断:
两步走,参数估计和假设检验。
作用:知道了样本的分布后,下一步就是推断总体的分布和特征啦。
点估计:
区间估计:
描述性分析:
主要是统计指标、图表。
1、集中趋势分析
除了分位数,我们还可以结合 中位数、众数、平均数三者的关系。具体地:
众数在中位数左侧,平均数在中位数右侧,则此时数据呈正偏态分布,又叫右偏,存在极大异常值。是不是可以考虑删除或替换为平均值
众数在中位数右侧,平均数在左侧,数据呈负偏态,左偏。可能存在极小异常值。
2、离散趋势分析
有极差、四分差、方差和标准差。
极差受极值影响,四分差虽然掐头去尾,但是丢失大量数据信息。最常用的是方差和标准差。
3、分布情况的测度
偏态和峰度。
偏态系数SK,峰度看数据的扁平程度。
4、图形分析
上面我们是看一些统计指标,可能不太直观。
a、直方图和密度函数图
密度函数图可以根据已知样本估计样本的密度函数曲线。
正偏态,右偏,有极大值。
b、QQ图
用来验证数据是否某个分布,或者验证两组数据是否来自同一个分布。
常用来验证是否正态分布。QQ散点图上的散点应该均匀地分布在QQ直线两侧。
c、箱线图
极大值、极小值、下四分位值、上四分位,加中位数。常用来看离群点。
d、多组数据分析
协方差的大小一定程度上反映了变量之间的相互关系,但她受变量本身度量单位的影响,因此我们还要计算
相关系数,包括皮尔逊系数(数据线性关系),Kendall、Spearman系数(秩相关性,当数据不是线性的 而是单调的?http://www.cnblogs.com/zhangchaoyang/articles/2631907.html)
二维散点图,矩阵散点图,折线图等等。
统计推断:
两步走,参数估计和假设检验。
作用:知道了样本的分布后,下一步就是推断总体的分布和特征啦。
点估计:
区间估计:
相关文章推荐
- 从“分析”的角度谈OLAP、数据挖掘、统计分析三者之间的区别和联系
- 统计分析与数据挖掘所涉及的应用领域探讨
- Hadoop Netflix数据统计分析2(转)
- Hadoop Netflix数据统计分析1(转)
- 网站流量的数据统计和分析
- 数据分析统计
- 关于SNS网站的数据统计分析
- 千万级数据统计分析
- 数据统计分析软件介绍
- 统计分析与数据挖掘所涉及的应用领域探讨
- 统计分析与数据挖掘-黄向阳
- 统计分析与数据挖掘所涉及的应用领域探讨
- 企业数据统计分析工作
- 如何把股票软件的数据导入到数据库(access,sqlserver,oracle)然后自行统计分析?
- 统计分析与数据挖掘所涉及的应用领域探讨
- 统计分析与数据挖掘所涉及的应用领域探讨
- 只满足某个条件的数据统计SQL各类写法性能分析
- 利用ODS OUTPTU将统计分析结果保存至数据集中
- 某中小企业网站运营数据分析实例(百度商桥统计)