您的位置:首页 > 其它

10、spss做最优尺度分析

2015-04-15 15:37 267 查看
上一节我们讨论了对于两组分类变量,如何通过主成分分析法进行降维,从而在一个二维的平面上直观的表现出两组变量的类别之间有什么关联。这一节我们就来讨论要怎么通过最优尺度分析来解决多组分类变量之间的关联分析。



我们首先选择菜单分析——降维——最优尺度,打开最优尺度面板,我们看到,这是个很小的面板。





首先最佳度量水平里有两个选项,所有变量均为多重标称,或某些变量并非多重标称。那么什么叫多重标称呢?多重标称的意思可以理解为就是分类变量。也就是说你的变量都是分类变量的话,那你就选第一个,如果不是的话,那就是选第二个。然后变量集的数目又有两个选项,一个集合,或两个集合。这个意思是在问你你的变量是全都放到一个集合里呢还是分开放到好几分集合里。如果放在一个集合里,那就是对应分析的简单扩展,用来分析多个分类变量的关系。如果是放在多个集合里,那就是用来分析放在不同集合的变量之间的相关性(就是在做集合与集合之间的相关分析)

最下边的选定分析里有三种分析方法。也就是最优尺度对应的三种分析方法。

多重对应分析:

如果选择所有变量为多重标称,一个集合,那么系统会自动选定为多重对应分析。

打开定义。我们想要分析员工规模(四分类),高新(二分类),年销售量(七分类),资产总额(七分类)选入到了分析变量。此外,如果有变量被选入补充变量和标记变量,(可以为数值变量哦)。那最后的分析图里并不会显示出这些变量(计算的时候也不会考虑它的影响),但是计算辨别度量的时候会有它。建议使用几个变量来回操作实验,观察生成的图表的不同,相信可以更好的掌握这种方法(不过一般就不使用它俩啦嘿嘿)。





在分析变量下边还有一个定义变量权重。一般默认为1。有需要可以自己设定。离散值选项卡是用来离散原来的数值变量的,这个一般我们也用不到,通常我们输入数据的时候已经是分好类了对吧。如果是需要离散的,那就默认离散就可以了。然后我们看缺失选项卡。 缺失选项卡里一共给出了三大类方案,默认的是排除缺失值,量化后为相关性规因(也就是估算),众数。也就是把含缺失值得个案视为补充对象,并给他们估算值。选项对话框和输出对话框也不用管,然后看下边图里边的变量,把这四个变量全选到联合类别图的框框里就可以了。(总算出来一个不是默认的。)

输出结果里迭代历史记录不重要,略过。看模型汇总表。

我们的两个惯量相加等于总计,说明我们的所有变量和维数的关系十分亲近。我们的多重对应还是比较合理的(多重对应分析没有p值可以看的)。

类别





点联合图就蛮重要的了。我没有在这张图上加辅助线,但是可以大概看出来那些点比较接近,那些点又比较疏远,这个和简单对应分析是类似的,也就不多说了。(双击散点图,在图形编辑里边调整坐标的初始值,在行和列的0.0处加辅助线。然后这张图就会别分成四大块了。中心点就是(0,0)。那么在这张图上边就会有两类不同图形的点点,比如圆形表示年龄段的分类,三角表示喜爱程度。在小图形附近还会标注清楚每个小图形对应那个程度。那么这个图怎么看呢?

首先四个大块就直观的告诉我们那些点和那些点距离比较近了。比如代表20岁到40岁的点和非常喜爱的点靠的很近,那么就可以认为20岁到40岁的人会非常喜爱这个产品。这是最基本的一个信息。此外我们可以通过辅助线来进一步解释这张图。比如,我们找到代表非常喜爱的这个三角形,然后把这个点和(0,0)的中心点连线,连出一条直线来。然后把所有的小圆点向这条线做垂线。就是代表每个年龄段的小圆点都引一条垂线出来,垂点落到原来的那条直线上。假如我们分四个年龄段的话,那我们现在就有四个垂点啦。然后我们比较这四个垂点离代表非常喜爱的那个三角形的距离。注意,比较的是垂点哦。垂点离三角形越近,也就是说该年龄段的人越容易表达出非常喜爱哦。因为是垂点,所以从图上看离得比较远的两个点未必就关联程度比较低哦。

同样的道理,我们也可以做出同一年龄段的人更容易喜爱还是不喜爱这个产品的直线图。总之散点图可以很直观的解释信息哦。





辨别度量表则是一个新的表。这个表和类别点联合图相似,夹角越小则这两个变量越相关。离得越近表示越相似。

分类主成分分析:

选择并非所有的变量为多重标称,一个集合,点击定义,打开分类主成分分析主面板。我们选择了四个连续变量在分析变量里。点开定义度量和权重面板。默认的是有序样条,2,2,如果是分类变量的话,也是默认的这样,也就是说连续变量和分类变量系统是不区分的。好吧,我真的不知道什么叫样条,不过姑且就默认着吧!其他一切默认。



结果图主要就是模型汇总图和成分负荷图。

这张图告诉我们两个维数可以累积解释变量的78.813%,相当的不少了。





这个图则告诉我们主成分和变量之间的关系。两个维数就是两个主成分。告诉我们每个变量在每个主成分里的相关性,又告诉我们变量之间的相关性。由于涉及到连续变量,所以主成分分析和因子分析是非常相似的。

非线性典型相关分析:

选择多个集合(不管有没有变量不是多重标称的),点定义,就会打开非线性典型相关分析主面板了。

我们的第一张里边选入员工规模和年销售额,第二张选入r01和r02。这个每个变量都需要手动设定范围和类型,范围就是设定你的变量的最大值。注意,这里最小值已经默认为了1,而且不可更改,也就是说你的变量里的分类值不能有0。我们通常喜欢用0,1来标记二分类变量,但是注意在这里是不行的。另外类型的话序数就是带有实际递进性质的数值,比如员工规模小,中,大啊。单标定就是简单名义尺度,多标定就是多重名义尺度。而离散数就是有序等距数值,比如年龄。注意在非线性典型相关里至少要设定两个块(block)才可以做分析的。



继续,选项里勾选类别坐标。确定。输出结果主要看类别坐标图。



注意看这张图可以分析出r01与员工规模的相关关系,r02与员工规模的相关关系,r01与年销售额的相关关系,r02与年销售额的相关关系。但是,不能分析r01与r02之间的关系,也不能分析员工规模和年销售额的关系。也就是说他只能分析两个集合之间的元素的关系,不能比较同一集合里的变量。另外如果有数值型变量的话,非线性典型相关也提供了成分负荷图可以用来观察两个集合里的变量的关系。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: