您的位置:首页 > 其它

数据挖掘方法(3)回归假设检验

2014-03-03 19:18 274 查看
一. 概要
回归假设检验用于验证回归假设的正确性,有两大类分别为:

1 图形化方法
(1).显示残差的正态分布概率图
(2).标准残差与拟合(预测)值对照图

2 计算综合统计量


二. 图形化方法


2.1 显示残差的正态分布概率图

是某种特殊分布(数据样本的分布)的分位点与标准正态分布的分位点组成的一种 分位数----分位数 的图.它可以用来判定特殊的分布是否偏离正态分布(类似百分数,分位数用来描述分布图上p%的值是否小于等于xp).在一个正态分布图中,观察到分布率的值与从正态分布中得到的相同数量的值进行对比,如果分布式正态的,大部分点应该落到一条直线上,如果偏离直线便表明不正常。下图:



可以看到大量的数据点没有落在直线上,而是出现了一个清晰的曲线(反向S曲线),这表明它与正态分布是有偏差的。

2.2 残差---适配图

一般过程是,如果正态概率分布图表明没有线性的系统误差,并且残差--是配图表明没有观察到特殊类型的残差图,说明没有图形化的证据证明违背了回归性假设,那么就可以开始进行回归分析。下图是某些图例:




说明:
图a 中显示一个“健康”图,没有观察到任何明显的特征,从左到右组成一个长方形。
图b显示了含有曲率的曲线,它违背了独立性假设。

因为独立性假设认为,其残差也是独立不相关的,但是图b残差图具有某种特征(类似y=x^2曲线)。
图c给出了一个“漏斗”类型,它违反了恒定方差的假设。
在图a中的变量,它在直方图中被表示出来,不管x的值是多少,它都不会改变。而在图c中,残差的变量比x的 最小值小,比x的最大值要大。它是变化的,因而违背了恒定方差的假设。(在图c中 在最左端,中间,最右边 分别画一条垂直x轴的直线,预估落在三条直线上的点的均值,都不一样,也即变化的)
图d显示了从左到右递增的类型,违反了零均值的假设。
零假设是指不管x的值是多少,误差项的均值都是零。然而图d中显示x取较小值时,残差均值小于零(左端,水 平线上方完全没有点),x取较大值时,残差均值大于零。违背了零均值假设,也违背了独立性假设。


三. 非图形化方法

( 以下细节摘自http://blog.fens.me/r-density/
检验单一样本是不是服从某一预先假设的特定分布的方法。以样本数据的累计频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布族。

该检验原假设为
H0:数据集符合weibull分布
H1:样本所来自的总体分布不符合weibull分布
令F0(x)表示预先假设的理论分布,Fn(x)表示随机样本的累计概率(频率)函数.
统计量D为: D=max|F0(x) - Fn(x)|
D值越小,越接近0,表示样本数据越接近weibull分布
p值,如果p-value小于显著性水平α(0.05),则拒绝H0

R语言演示代码和分析示例如下:

> set.seed(1)
> S<-rweibull(1000,1)
> ks.test(S, "pweibull",1)
	One-sample Kolmogorov-Smirnov test
data:  S
D = 0.0244, p-value = 0.5928
alternative hypothesis: two-sided
结论: D值很小, p-value>0.05,不能拒绝原假设,所以数据集S符合shape=1的weibull分布

其他检验的R包介绍摘自:http://blog.sina.com.cn/s/blog_65efeb0c0100htz7.html

1 shapiro.test()

可以进行关于正态分布的Shapiro-Wilk检验。即W检验,适用于样本含量n ≤50 时的正态性检验;

2 nortest包

lillie.test()可以实行更精确的Kolmogorov-Smirnov检验。

ad.test()进行Anderson-Darling正态性检验。

cvm.test()进行Cramer-von Mises正态性检验。

pearson.test()进行Pearson卡方正态性检验。

sf.test()进行Shapiro-Francia正态性检验。W′检验,于1972 年提出,适用于50 < n < 100 时的正态性检验

3 fBasics包

normalTest()进行Kolmogorov-Smirnov正态性检验。

ksnormTest()进行Kolmogorov-Smirnov正态性检验。

shapiroTest()进行Shapiro-Wilk's正态检验。

jarqueberaTest()进行jarque-Bera正态性检验。

dagoTest进行D'Agostino正态性检验。D检验,1971提出,正态性D检验该方法效率高,是比较精确的正态检验法

gofnorm采用13种方法进行检验,并输出结果。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: