第九章 列联分析
2015-08-31 19:42
3015 查看
列联分析主要用于分类数据的分析
(1)观察值
条件频数、行边缘频数、列边缘频数、百分比
(2)期望值分布
根据比例求出的各个变量的期望值
以四个公司对改革方案的赞成/反对为例,若全部样本为420(100+120+90+110),赞成改革方案的有279,占总数的66.4%。如果各公司对改革方案的看法相同,则对一公司来说,赞成该方案的人数应当为:0.664*100=66人,期望值与观察值应非常相近。
对于π 1 =π 2 =π 3 =π 4 =0.664(π i \pi_1=\pi_2=\pi_3=\pi_4=0.664(\pi_i为第i i个公司赞成改革方案的百分比),可以采用χ 2 \chi^2检验。
一般情况下,任何一个单元中频数的期望值:
f e =RTn ×CTn ×n=RT×CTn f_e=\dfrac{RT}{n}\times\dfrac{CT}{n}\times{n}=\dfrac{RT\times{CT}}{n}
其中:RT为给定单元格所在行的合计,CT为给定单元格所在列的合计,n为观察值总个数,即样本容量。
χ 2 =∑(f o −f e ) 2 f e \chi^2=\sum\dfrac{(f_o-f_e)^2}{f_e}
步骤:(1) H 0 : H_0:不存在差异 H 1 : H_1:存在差异
(2) 计算统计量值和临界值
χ 2 \chi^2分布的自由度为(行数-1)(列数-1)
(3) 比较统计量值和临界值大小,做出是否拒绝原假设的决策
把分类数据之间的相关称为品质相关。
φ=χ 2 /n − − − − √ \varphi=\sqrt{\chi^2/n}
此时φ \varphi系数的取值范围是在0∼ \sim1之间,且φ \varphi的绝对值越大,说明变量的相关程度越大。但当列联表的行数R或列数C大于2时,φ \varphi系数将随着R或C的变动而增大,且φ \varphi值没有上线,这是φ \varphi系数测定两个变量的相关程度,可以采用列联相关系数。
c=χ 2 χ 2 +n − − − − − − √ c=\sqrt{\dfrac{\chi^2}{\chi^2+n}}
特点:相互独立时,系数为0,不可能大于1,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大和增大。
缺点:根据不同的行和列计算的列联系数不便于比较,除非两个两个列联表中的行数和列数一致。
V=χ 2 n×min[(R−1),(C−1)] − − − − − − − − − − − − − − − − − − − − − √ V=\sqrt{\dfrac{\chi^2}{n\times{min[(R-1),(C-1)]}}}
V V的取值在0∼ \sim1之间
关于小单元次数通常有两项准则:
(一) 如果只有两个单元,每个单元的期望频数必须是5或5以上
(二) 倘若有两个以上单元,如果20%的单元期望频率f e f_e小于5,则不能应用χ 2 \chi^2检验
1 分类数据与列联表
1 分类数据
如:完整家庭/离异家庭、一等品/二等品、三等品……2 列联表的构造
列联表是由两个以上的变量进行交叉分类的频数分布表。3 列联表的分布
列联表的分布可以从两个方便来看:一个是观察值的分布;一个是期望值的分布。(1)观察值
条件频数、行边缘频数、列边缘频数、百分比
(2)期望值分布
根据比例求出的各个变量的期望值
以四个公司对改革方案的赞成/反对为例,若全部样本为420(100+120+90+110),赞成改革方案的有279,占总数的66.4%。如果各公司对改革方案的看法相同,则对一公司来说,赞成该方案的人数应当为:0.664*100=66人,期望值与观察值应非常相近。
对于π 1 =π 2 =π 3 =π 4 =0.664(π i \pi_1=\pi_2=\pi_3=\pi_4=0.664(\pi_i为第i i个公司赞成改革方案的百分比),可以采用χ 2 \chi^2检验。
一般情况下,任何一个单元中频数的期望值:
f e =RTn ×CTn ×n=RT×CTn f_e=\dfrac{RT}{n}\times\dfrac{CT}{n}\times{n}=\dfrac{RT\times{CT}}{n}
其中:RT为给定单元格所在行的合计,CT为给定单元格所在列的合计,n为观察值总个数,即样本容量。
2 χ 2 \chi^2检验
若用f o f_o表示观察值频数,用f e f_e表示期望值频数,χ 2 \chi^2统计量可为:χ 2 =∑(f o −f e ) 2 f e \chi^2=\sum\dfrac{(f_o-f_e)^2}{f_e}
步骤:(1) H 0 : H_0:不存在差异 H 1 : H_1:存在差异
(2) 计算统计量值和临界值
χ 2 \chi^2分布的自由度为(行数-1)(列数-1)
(3) 比较统计量值和临界值大小,做出是否拒绝原假设的决策
3 列联表中的相关测量
在上面利用χ 2 \chi^2分布对两个分类变量之间的相关性进行统计检验。如果变量相互独立,说明它们之间没有联系;反之,则认为它们之间存在联系。如果存在联系,它们之间的相关程度多大?把分类数据之间的相关称为品质相关。
1 φ \varphi相关系数
φ \varphi相关系数是描述2× \times2列联表数据相关程度最常用的一种相关系数,计算公式为:φ=χ 2 /n − − − − √ \varphi=\sqrt{\chi^2/n}
此时φ \varphi系数的取值范围是在0∼ \sim1之间,且φ \varphi的绝对值越大,说明变量的相关程度越大。但当列联表的行数R或列数C大于2时,φ \varphi系数将随着R或C的变动而增大,且φ \varphi值没有上线,这是φ \varphi系数测定两个变量的相关程度,可以采用列联相关系数。
2 列联相关系数
列联相关系数又称列联系数,简称c c系数,主要用于大于2× \times2列联表的情况,计算公式为:c=χ 2 χ 2 +n − − − − − − √ c=\sqrt{\dfrac{\chi^2}{\chi^2+n}}
特点:相互独立时,系数为0,不可能大于1,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大和增大。
缺点:根据不同的行和列计算的列联系数不便于比较,除非两个两个列联表中的行数和列数一致。
3 V V相关系数
鉴于φ \varphi系数无上限,c c系数小于1的情况,克莱默提出了V V系数,计算公式为:V=χ 2 n×min[(R−1),(C−1)] − − − − − − − − − − − − − − − − − − − − − √ V=\sqrt{\dfrac{\chi^2}{n\times{min[(R-1),(C-1)]}}}
V V的取值在0∼ \sim1之间
4 数值分析
在描述相关程度究竟有多高时,可以比较计算出的相关系数与此相关系数的最大值,以看出相关程度的高低。4 列联分析中应注意的问题
1 条件百分表的方向
一般来说,在列联表中变量的位置是任意的。如果变量X和Y存在因果关系,令X为自变量,Y为因变量,那么一般把自变量X放在列位置,条件百分比也多按自变量的方向计算。但也有例外情况。2 χ 2 \chi^2分布的期望值准则
利用χ 2 \chi^2分布进行独立性检验,要求样本量必须足够大,特别是每个单元中的期望频数(理论频数)不能过小,否则应用χ 2 \chi^2检验可能会得出错误结论。关于小单元次数通常有两项准则:
(一) 如果只有两个单元,每个单元的期望频数必须是5或5以上
(二) 倘若有两个以上单元,如果20%的单元期望频率f e f_e小于5,则不能应用χ 2 \chi^2检验
相关文章推荐
- 不用设置第三变量,交换两个变量
- 深入浅出CChart 每日一课——快乐高四第十四课 枝头红杏,Win32标准控件ChartCtrl之围城
- Linux内核网络协议栈3-创建socket http://blog.chinaunix.net/uid-22359610-id-461249.html
- JavaSE初学笔记之<nio的学习>
- viewpager+fragment
- UIScrollView、UIPageControl
- Netty 概述
- JSP userBean------从指定范围查找id内容,查不到就创建一个放到scope指定的范围里面
- 你可能不知道的Shell
- DP(递归打印路径) UVA 662 Fast Food
- css控制文本最后用省略号代替
- HTTP状态码中301与302的区别
- 【超级表格创业谱】刘凯:先拿青春拼凑事业,再用事业养活梦想
- hdu 5424 Rikka with Graph II(n个点n条边的汉弥尔顿路径判定)
- MySQL存储过程之特征子句
- cin
- Map接口的基本方法
- Ubuntu编译安装 GD以及PHP
- Linux学习笔记--------“./a.out”是什么意思???
- HDFS集中式的缓存管理原理与代码剖析--转载