统计学 学习笔记 (八)—— 总体与样本 统计学意义检验
2011-12-19 09:22
447 查看
(下面的讨论有些基于《医用统计方法》的相关章节,有些是个人理解,陈述不当之处敬请谅解。)
2. 举例:统计学意义检验的基本步骤
3. 讨论:统计学意义检验的应用
问题描述:
某地大规模调查得知婴儿出生体重均值为3.20kg,标准差为0.39kg。现随机查得25名难产儿平均出生体重为3.42kg,问出生体重与难产是否有关?假定难产儿出生体重的标准差与一般儿童相同。
问题分析:
先列举上面提到的几个数据:
难产儿样本的均值
:3.42kg
难产儿样本的含量n:25
难产儿总体的均值μ:未知
全体婴儿的总体均值μ0:3.20kg
全体婴儿的总体标准差σ:0.39kg
要知道难产儿样本的出生体重是否与难产有关,还是和难产没关系,与全体婴儿一样,就得判断难产儿样本对应的总体均值μ和全体婴儿的总体均值μ0是否一样。详细来说,就是要判断这儿是下面两种可能性中的哪一种:
(1)μ=μ0,
和μ0之间的差别仅仅是由于抽样误差造成的;
(2)μ≠μ0,从而导致了
和μ0之间的差别(也包含了抽样误差的影响)。
解决步骤:
1.建立无效假设(零假设)H0
从上面的问题分析可知,现在还不知道难产儿样本是否是全体婴儿总体的一个随机抽样,两个不相干的数据,没办法估计它们之间的关系。因此这儿就用到了假设:假设μ=μ0。这样一来,难产儿样本就暂时“被看成”了全体婴儿总体的随机抽样。至于这样的假设是不是经得起检验,就得看后面的进一步分析了。
2.确定统计学意义的水平(level of significance)
统计学中,通常不会将绝对的“是”或者“不是”作为判断的标准,而是要松一些,毕竟讨论的都是概率和可能性嘛。这儿所谓的统计学意义水平,就是指假设H0正确但被拒绝的可能性。这个值常取0.05或0.01。
3.计算所选用的统计量
这个统计量的选择很有讲究,不同的资料性质、分析目的及所做的假设,不同的数据分布和已知参数,都会要求选用相应合适的统计量。比如同样是某样本均值和某总体均值的差别比较,如果总体标准差已知,或样本量较大的情况下,一般使用u值作为统计量;而当总体标准差未知,只有样本标准差已知时,一般使用t值作为统计量。这儿由于总体标准差已知,因此计算u值。
(下面是关于为什么这种情况下使用u值作为统计量的一点个人猜测。)
前面讨论总体和样本的关系时,曾经有过这样一段:
“已有经验表明,当总体呈正态分布,或样本含量较大时,抽得的多个样本的均值会以总体均值为中心呈正态分布。”
现在既然难产儿样本已经“被看成”了全体婴儿总体的随机抽样,因此它的样本均值应该也符合上述分布。我们从标准正态分布曲线的讨论中可以看到,已知某个样本的均值
,总体均值μ0和均值的标准误
,就可以算出该样本在分布曲线上相应的u值,从而算出该样本出现的概率p。
查表得知:(u=2.82) > (u0.01=2.58)(横轴上u在u0.01的右边),因此p<0.01。也就是说在前面的零假设下,该难产儿样本在全体婴儿总体中被随机抽样出来的概率<0.01。这个概率已经小于上面所定的统计学意义水平,因此拒绝零假设H0,接受μ≠μ0,认为难产儿的出生体重和总体婴儿的体重不一样,而和难产有关,并较一般的婴儿大些。
当然,上面所说的步骤和例子都是最简单和基本的,实际情况中,针对不同的资料性质、分析目的及所做的假设,不同的数据分布和已知参数,使用的统计量都不同。一方面,在什么场合使用什么统计量需要通过不断的学习和实践掌握,另一方面,对于为什么要使用特定的统计量的追根溯源也需要掌握深入的统计学知识并深刻理解对应的医学问题。
目录
1. 为什么要进行统计学意义检验?2. 举例:统计学意义检验的基本步骤
3. 讨论:统计学意义检验的应用
1. 为什么要进行统计学意义检验?
在上次的讨论中提到,由于数据的整体很难得到,只能抽取有限的样本进行计算。而由样本的状况来估计和推测整体数据的状况,就成为必须要做的事情。通俗点来说,一般反映总体状况的整体数据会被看做是“真实的数据”,而某个样本究竟能不能很好地反映总体的情况,就被看做是在检验样本数据的“真实性”。而检验此种真实性这件事就被称之为统计学意义检验。2. 举例:统计学意义检验的基本步骤
下面就以某样本均值和某总体均值的差别比较为例,说明如何进行统计学意义检验。问题描述:
某地大规模调查得知婴儿出生体重均值为3.20kg,标准差为0.39kg。现随机查得25名难产儿平均出生体重为3.42kg,问出生体重与难产是否有关?假定难产儿出生体重的标准差与一般儿童相同。
问题分析:
先列举上面提到的几个数据:
难产儿样本的均值
:3.42kg
难产儿样本的含量n:25
难产儿总体的均值μ:未知
全体婴儿的总体均值μ0:3.20kg
全体婴儿的总体标准差σ:0.39kg
要知道难产儿样本的出生体重是否与难产有关,还是和难产没关系,与全体婴儿一样,就得判断难产儿样本对应的总体均值μ和全体婴儿的总体均值μ0是否一样。详细来说,就是要判断这儿是下面两种可能性中的哪一种:
(1)μ=μ0,
和μ0之间的差别仅仅是由于抽样误差造成的;
(2)μ≠μ0,从而导致了
和μ0之间的差别(也包含了抽样误差的影响)。
解决步骤:
1.建立无效假设(零假设)H0
从上面的问题分析可知,现在还不知道难产儿样本是否是全体婴儿总体的一个随机抽样,两个不相干的数据,没办法估计它们之间的关系。因此这儿就用到了假设:假设μ=μ0。这样一来,难产儿样本就暂时“被看成”了全体婴儿总体的随机抽样。至于这样的假设是不是经得起检验,就得看后面的进一步分析了。
2.确定统计学意义的水平(level of significance)
统计学中,通常不会将绝对的“是”或者“不是”作为判断的标准,而是要松一些,毕竟讨论的都是概率和可能性嘛。这儿所谓的统计学意义水平,就是指假设H0正确但被拒绝的可能性。这个值常取0.05或0.01。
3.计算所选用的统计量
这个统计量的选择很有讲究,不同的资料性质、分析目的及所做的假设,不同的数据分布和已知参数,都会要求选用相应合适的统计量。比如同样是某样本均值和某总体均值的差别比较,如果总体标准差已知,或样本量较大的情况下,一般使用u值作为统计量;而当总体标准差未知,只有样本标准差已知时,一般使用t值作为统计量。这儿由于总体标准差已知,因此计算u值。
(下面是关于为什么这种情况下使用u值作为统计量的一点个人猜测。)
前面讨论总体和样本的关系时,曾经有过这样一段:
“已有经验表明,当总体呈正态分布,或样本含量较大时,抽得的多个样本的均值会以总体均值为中心呈正态分布。”
现在既然难产儿样本已经“被看成”了全体婴儿总体的随机抽样,因此它的样本均值应该也符合上述分布。我们从标准正态分布曲线的讨论中可以看到,已知某个样本的均值
,总体均值μ0和均值的标准误
,就可以算出该样本在分布曲线上相应的u值,从而算出该样本出现的概率p。
查表得知:(u=2.82) > (u0.01=2.58)(横轴上u在u0.01的右边),因此p<0.01。也就是说在前面的零假设下,该难产儿样本在全体婴儿总体中被随机抽样出来的概率<0.01。这个概率已经小于上面所定的统计学意义水平,因此拒绝零假设H0,接受μ≠μ0,认为难产儿的出生体重和总体婴儿的体重不一样,而和难产有关,并较一般的婴儿大些。
3. 讨论:统计学意义检验的应用
在医学统计学的各种分析计算中,一般都需要对某个数据结果计算p值,也就是进行统计学意义检验。这也是因为总体几乎不可能得到,处理的数据集都是样本的关系。因此掌握统计学意义检验,将对医学统计学的学习和理解应用大有用处。当然,上面所说的步骤和例子都是最简单和基本的,实际情况中,针对不同的资料性质、分析目的及所做的假设,不同的数据分布和已知参数,使用的统计量都不同。一方面,在什么场合使用什么统计量需要通过不断的学习和实践掌握,另一方面,对于为什么要使用特定的统计量的追根溯源也需要掌握深入的统计学知识并深刻理解对应的医学问题。
相关文章推荐
- 统计学 学习笔记 (九)—— 总体与样本 统计学意义检验的进一步讨论
- Khan公开课 - 统计学学习笔记:(八)样本均值之差
- Khan公开课 - 统计学学习笔记:(二)总本、样本、集中趋势、离中趋势
- 数理统计学习笔记——总体与样本
- 算法导论学习笔记-第九章-中位数和顺序统计学
- 统计学学习笔记——(4)差异性
- 【程序员眼中的统计学(9)】总体和样本的估计:进行预测
- 统计学学习笔记——(9)假设检验
- Apache CMS学习笔记1 - 总体概览
- 统计学简介之十三——两个总体参数的检验
- Unity3d 学习笔记(5)Update、LateUpdate和FixedUpdate的意义
- Excel在统计分析中的应用—第八章—假设检验-总体方差未知且为大样本下的检验
- Excel在统计分析中的应用—第八章—假设检验-总体方差未知且为小样本下的均值之差检验
- Lucene学习笔记:Lucene的总体结构
- Guava学习笔记:Preconditions优雅的检验参数
- Andrew NG 机器学习听课笔记(2)——过学习与欠学习,最小二乘的概率意义、logistic回归
- 关于SQLServer2005的学习笔记——统计学自动分组问题
- iOS学习笔记16—@synthesize obj=_obj的意义详解 @property和@synthesize
- 统计学 学习笔记 (二)—— 掌握数据的整体状态 数据的集中趋势
- Khan公开课 - 统计学学习笔记:(十二)逻辑