统计模型的检验
2016-10-05 16:02
218 查看
经常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加的好呢?目前常用有如下方法:
AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字:贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion
1,检验线性回归模型是否合理:
a,样本呈正态性b,看自变量和因变量是否呈线性相关
c,R2( 相关系数的平方)越接近1,模型拟合程度越高。
2,BIC,AIC值
AIC:Akaike information criterion。[b]衡量统计模型拟合优良性的一种标准,又由与它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。[/b]在一般的情况下,AIC可以表示为: AIC=2k-2ln(L),其中:k是参数的数量,L是似然函数。 假设条件是模型的误差服从独立正态分布。 让n为观察数,RSS为剩余平方和,那么AIC变为: AIC=2k+nln(RSS/n)。
[b]增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。[/b]
相关文章推荐
- 统计模型检验
- 模型的统计检验
- 以wifi-example-sim.cc为例说明NS3统计数据模型
- 单样本和两样本的统计推断:置信区间和假设检验
- Oracle Time Model Statistics(时间模型统计)
- 【统计学习】随机梯度下降法求解感知机模型
- Excel在统计分析中的应用—第八章—假设检验-总体比例之差假设检验
- N-gram统计语言模型(总结)
- 【Scikit-Learn 中文文档】模型选择:选择估计量及其参数 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN
- 统计:假设检验 T检验
- 统计学习方法 第6章 逻辑斯谛回归与最大熵模型(2)
- 机器学习和统计模型的差异
- 【MachineLearing】判别模型与生成模型以及相关概率统计知识
- Excel在统计分析中的应用—第十一章—相关分析-简单线性相关-相关系数为异于零的常数的检验
- 统计语言模型
- 以wifi-example-sim.cc为例说明NS3统计数据模型
- 数学之美 系列一 -- 统计语言模型
- 从线性模型到广义线性模型(2)——参数估计、假设检验
- 神经网络与机器学习导言——神经元的统计模型和被看作有向图的神经网络
- 统计分析:模型评估和模型选择