您的位置:首页 > 其它

第九章 列联分析

2015-08-31 19:42 3015 查看
列联分析主要用于分类数据的分析

1 分类数据与列联表

1 分类数据

如:完整家庭/离异家庭、一等品/二等品、三等品……

2 列联表的构造

列联表是由两个以上的变量进行交叉分类的频数分布表。

3 列联表的分布

列联表的分布可以从两个方便来看:一个是观察值的分布;一个是期望值的分布。

(1)观察值

条件频数、行边缘频数、列边缘频数、百分比

(2)期望值分布

根据比例求出的各个变量的期望值

以四个公司对改革方案的赞成/反对为例,若全部样本为420(100+120+90+110),赞成改革方案的有279,占总数的66.4%。如果各公司对改革方案的看法相同,则对一公司来说,赞成该方案的人数应当为:0.664*100=66人,期望值与观察值应非常相近。

对于π 1 =π 2 =π 3 =π 4 =0.664(π i \pi_1=\pi_2=\pi_3=\pi_4=0.664(\pi_i为第i i个公司赞成改革方案的百分比),可以采用χ 2 \chi^2检验。

一般情况下,任何一个单元中频数的期望值:

f e =RTn ×CTn ×n=RT×CTn f_e=\dfrac{RT}{n}\times\dfrac{CT}{n}\times{n}=\dfrac{RT\times{CT}}{n}

其中:RT为给定单元格所在行的合计,CT为给定单元格所在列的合计,n为观察值总个数,即样本容量。

2 χ 2 \chi^2检验

若用f o f_o表示观察值频数,用f e f_e表示期望值频数,χ 2 \chi^2统计量可为:

χ 2 =∑(f o −f e ) 2 f e \chi^2=\sum\dfrac{(f_o-f_e)^2}{f_e}

步骤:(1) H 0 : H_0:不存在差异 H 1 : H_1:存在差异

(2) 计算统计量值和临界值

χ 2 \chi^2分布的自由度为(行数-1)(列数-1)

(3) 比较统计量值和临界值大小,做出是否拒绝原假设的决策

3 列联表中的相关测量

在上面利用χ 2 \chi^2分布对两个分类变量之间的相关性进行统计检验。如果变量相互独立,说明它们之间没有联系;反之,则认为它们之间存在联系。如果存在联系,它们之间的相关程度多大?

把分类数据之间的相关称为品质相关。

1 φ \varphi相关系数

φ \varphi相关系数是描述2× \times2列联表数据相关程度最常用的一种相关系数,计算公式为:

φ=χ 2 /n − − − − √ \varphi=\sqrt{\chi^2/n}

此时φ \varphi系数的取值范围是在0∼ \sim1之间,且φ \varphi的绝对值越大,说明变量的相关程度越大。但当列联表的行数R或列数C大于2时,φ \varphi系数将随着R或C的变动而增大,且φ \varphi值没有上线,这是φ \varphi系数测定两个变量的相关程度,可以采用列联相关系数。

2 列联相关系数

列联相关系数又称列联系数,简称c c系数,主要用于大于2× \times2列联表的情况,计算公式为:

c=χ 2 χ 2 +n − − − − − − √ c=\sqrt{\dfrac{\chi^2}{\chi^2+n}}

特点:相互独立时,系数为0,不可能大于1,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大和增大。

缺点:根据不同的行和列计算的列联系数不便于比较,除非两个两个列联表中的行数和列数一致。

3 V V相关系数

鉴于φ \varphi系数无上限,c c系数小于1的情况,克莱默提出了V V系数,计算公式为:

V=χ 2 n×min[(R−1),(C−1)] − − − − − − − − − − − − − − − − − − − − − √ V=\sqrt{\dfrac{\chi^2}{n\times{min[(R-1),(C-1)]}}}

V V的取值在0∼ \sim1之间

4 数值分析

在描述相关程度究竟有多高时,可以比较计算出的相关系数与此相关系数的最大值,以看出相关程度的高低。

4 列联分析中应注意的问题

1 条件百分表的方向

一般来说,在列联表中变量的位置是任意的。如果变量X和Y存在因果关系,令X为自变量,Y为因变量,那么一般把自变量X放在列位置,条件百分比也多按自变量的方向计算。但也有例外情况。

2 χ 2 \chi^2分布的期望值准则

利用χ 2 \chi^2分布进行独立性检验,要求样本量必须足够大,特别是每个单元中的期望频数(理论频数)不能过小,否则应用χ 2 \chi^2检验可能会得出错误结论。

关于小单元次数通常有两项准则:

(一) 如果只有两个单元,每个单元的期望频数必须是5或5以上

(二) 倘若有两个以上单元,如果20%的单元期望频率f e f_e小于5,则不能应用χ 2 \chi^2检验
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: