[置顶] 【数据建模 方差分析】单因素方差分析
2017-11-06 16:41
225 查看
单因素方差分析:
(一)单因素方差分析概念理解步骤
①是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
②单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量
分别为施肥量、地区、学历。
③单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值的变动会受控制变量和随机变量两方面的影响。据此,单因素方差
分析将观测变量<<总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE>>。
④单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。
(二)单因素方差分析原理总结
容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由
控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变
量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。
(三)单因素方差分析基本步骤
1、提出原假设:H0——无差异;H1——有显著差异
2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。
3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。
4、给定显著性水平,并作出决策。
总结:
总差异=组间差异+组内差异
当组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的
讲的主要是机器学习里面的特征选择部分,在单因子分析中,如果某个变量对目标变量影响不大甚至完全独立,那么可以去掉这个变量。
如果两个变量相关性很高,其中一个变量解释性比较高,另外一个变量解释性比较低时,即使解释性比较低的变量效果更好一些,我们也会将其去掉,保留解释性比较高的那个变量。当然这是在回归模型中(奇异性问题)。其他模型不需要剔除。
在做模型时,首先是做单因素分析,剔除那些缺失度比较高的,对结果影响不大的变量。
(一)单因素方差分析概念理解步骤
①是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
②单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量
分别为施肥量、地区、学历。
③单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值的变动会受控制变量和随机变量两方面的影响。据此,单因素方差
分析将观测变量<<总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE>>。
④单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。
(二)单因素方差分析原理总结
容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由
控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变
量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。
(三)单因素方差分析基本步骤
1、提出原假设:H0——无差异;H1——有显著差异
2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。
3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。
4、给定显著性水平,并作出决策。
总结:
总差异=组间差异+组内差异
当组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的
讲的主要是机器学习里面的特征选择部分,在单因子分析中,如果某个变量对目标变量影响不大甚至完全独立,那么可以去掉这个变量。
如果两个变量相关性很高,其中一个变量解释性比较高,另外一个变量解释性比较低时,即使解释性比较低的变量效果更好一些,我们也会将其去掉,保留解释性比较高的那个变量。当然这是在回归模型中(奇异性问题)。其他模型不需要剔除。
在做模型时,首先是做单因素分析,剔除那些缺失度比较高的,对结果影响不大的变量。
相关文章推荐
- [置顶] 【R语言 数据建模】模型验证武器
- [置顶] 【数据建模 卡方检验】了解卡方检验
- [置顶] 【数据建模 特征分箱】特征分箱的方法
- [置顶] 【数据建模 分类器性能指标】性能测评
- [置顶] 【数据建模 极端值的检测】离群值检测
- [置顶] 【数据建模 WOE编码】WOE(weight of evidence, 证据权重)
- [置顶] 【数据建模 缺失值处理】缺失值的处理
- [置顶] 【数据建模 神经网络】人工神经网络数据处理
- [置顶] 【数据建模 IV】特征信息度
- [置顶] 【数据建模 类别型变量编码】特殊变量的处理
- [转载]NoSQL数据建模技术
- sql置顶固定的某一条数据
- 浅谈数据分析和数据建模
- [置顶] 一位数组返回id和pid通过这两个参数转换为树形结构数据,和树形结构的渲染
- QuickBI助你成为分析师-数据建模(一)
- Python笔记-数据挖掘建模过程
- Statistics ToolBox--运用统计与机器学习分析数据集数据建模
- 倾斜摄影自动化建模成果的数据组织和单体化【转】
- 【数据分析 R语言实战】学习笔记 第八章 方差分析与R实现
- 数据挖掘与数学建模