您的位置：首页 > 其它

第九章列联分析

2015-08-31 19:42 3015 查看

列联分析主要用于分类数据的分析

1 分类数据与列联表

1 分类数据

如：完整家庭/离异家庭、一等品/二等品、三等品……

2 列联表的构造

列联表是由两个以上的变量进行交叉分类的频数分布表。

3 列联表的分布

列联表的分布可以从两个方便来看：一个是观察值的分布；一个是期望值的分布。

(1)观察值

条件频数、行边缘频数、列边缘频数、百分比

(2)期望值分布

根据比例求出的各个变量的期望值

以四个公司对改革方案的赞成/反对为例，若全部样本为420（100+120+90+110），赞成改革方案的有279，占总数的66.4%。如果各公司对改革方案的看法相同，则对一公司来说，赞成该方案的人数应当为：0.664*100=66人，期望值与观察值应非常相近。

对于π 1 =π 2 =π 3 =π 4 =0.664(π i \pi_1=\pi_2=\pi_3=\pi_4=0.664(\pi_i为第i i个公司赞成改革方案的百分比)，可以采用χ 2 \chi^2检验。

一般情况下，任何一个单元中频数的期望值：

f e =RTn ×CTn ×n=RT×CTn f_e=\dfrac{RT}{n}\times\dfrac{CT}{n}\times{n}=\dfrac{RT\times{CT}}{n}

其中：RT为给定单元格所在行的合计，CT为给定单元格所在列的合计，n为观察值总个数，即样本容量。

2 χ 2 \chi^2检验

若用f o f_o表示观察值频数，用f e f_e表示期望值频数，χ 2 \chi^2统计量可为：

χ 2 =∑(f o −f e ) 2 f e \chi^2=\sum\dfrac{(f_o-f_e)^2}{f_e}

步骤：(1) H 0 : H_0:不存在差异 H 1 : H_1:存在差异

(2) 计算统计量值和临界值

χ 2 \chi^2分布的自由度为(行数-1)(列数-1)

(3) 比较统计量值和临界值大小，做出是否拒绝原假设的决策

3 列联表中的相关测量

在上面利用χ 2 \chi^2分布对两个分类变量之间的相关性进行统计检验。如果变量相互独立，说明它们之间没有联系；反之，则认为它们之间存在联系。如果存在联系，它们之间的相关程度多大？

把分类数据之间的相关称为品质相关。

1 φ \varphi相关系数

φ \varphi相关系数是描述2× \times2列联表数据相关程度最常用的一种相关系数，计算公式为：

φ=χ 2 /n − − − − √ \varphi=\sqrt{\chi^2/n}

此时φ \varphi系数的取值范围是在0∼ \sim1之间，且φ \varphi的绝对值越大，说明变量的相关程度越大。但当列联表的行数R或列数C大于2时，φ \varphi系数将随着R或C的变动而增大，且φ \varphi值没有上线，这是φ \varphi系数测定两个变量的相关程度，可以采用列联相关系数。

2 列联相关系数

列联相关系数又称列联系数，简称c c系数，主要用于大于2× \times2列联表的情况，计算公式为:

c=χ 2 χ 2 +n − − − − − − √ c=\sqrt{\dfrac{\chi^2}{\chi^2+n}}

特点：相互独立时，系数为0，不可能大于1，其可能的最大值依赖于列联表的行数和列数，且随着R和C的增大和增大。

缺点：根据不同的行和列计算的列联系数不便于比较，除非两个两个列联表中的行数和列数一致。

3 V V相关系数

鉴于φ \varphi系数无上限，c c系数小于1的情况，克莱默提出了V V系数，计算公式为：

V=χ 2 n×min[(R−1),(C−1)] − − − − − − − − − − − − − − − − − − − − − √ V=\sqrt{\dfrac{\chi^2}{n\times{min[(R-1),(C-1)]}}}

V V的取值在0∼ \sim1之间

4 数值分析

在描述相关程度究竟有多高时，可以比较计算出的相关系数与此相关系数的最大值，以看出相关程度的高低。

4 列联分析中应注意的问题

1 条件百分表的方向

一般来说，在列联表中变量的位置是任意的。如果变量X和Y存在因果关系，令X为自变量，Y为因变量，那么一般把自变量X放在列位置，条件百分比也多按自变量的方向计算。但也有例外情况。

2 χ 2 \chi^2分布的期望值准则

利用χ 2 \chi^2分布进行独立性检验，要求样本量必须足够大，特别是每个单元中的期望频数（理论频数）不能过小，否则应用χ 2 \chi^2检验可能会得出错误结论。

关于小单元次数通常有两项准则：

(一) 如果只有两个单元，每个单元的期望频数必须是5或5以上

(二) 倘若有两个以上单元，如果20%的单元期望频率f e f_e小于5，则不能应用χ 2 \chi^2检验

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

第九章 列联分析