您的位置:首页 > 其它

七种回归技术

2015-11-17 08:48 337 查看
http://diyitui.com/content-1440135160.34144903.html
http://blog.jobbole.com/90021/
与之相关:
http://m.blog.csdn.net/blog/jteng/40823675


模型选择之AIC与BIC

2014-11-5阅读159 评论0

此处模型选择我们只考虑模型参数数量,不涉及模型结构的选择。

很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。

人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法——赤池信息准则(Akaike Information Criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterion,BIC)。

AIC是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次在1974年提出,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准。

通常情况下,AIC定义为:







其中k是模型参数个数,L是似然函数。从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型。

当两个模型之间存在较大差异时,差异主要体现在似然函数项,当似然函数差异不显著时,上式第一项,即模型复杂度则起作用,从而参数个数少的模型是较好的选择。

一般而言,当模型复杂度提高(k增大)时,似然函数L也会增大,从而使AIC变小,但是k过大时,似然函数增速减缓,导致AIC增大,模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型,AIC不仅要提高模型拟合度(极大似然),而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。

BIC(Bayesian InformationCriterion)贝叶斯信息准则与AIC相似,用于模型选择,1978年由Schwarz提出。训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。



其中,k为模型参数个数,n为样本数量,L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下,可以有效避免出现维度灾难现象。
http://m.blog.csdn.net/blog/jteng/40823675
官方说法:

SSE (趋向0最好)-- The sum of squares due to error. This statistic measures the deviation of the responses from the fitted values of the responses. A value closer to 0 indicates a better fit.

R-square(趋向1最好) -- The coefficient of multiple determination. This statistic measures how successful the fit is in explaining the variation of the data. A value closer to 1 indicates a better fit.

Adjusted R-square(趋向1最好) -- The degree of freedom adjusted R-square. A value closer to 1 indicates a better fit. It is generally the best indicator of the fit quality when you add additional coefficients to your model.

RMSE(趋向0最好) -- The root mean squared error. A value closer to 0 indicates a better fit.
有个前提条件,without overfitting detecting
http://www.ilovematlab.cn/thread-54177-1-1.html
在 Minitab 中我该如何解释回归分析报表中的 R-square 和 R-Sqpred Answer: 在回归分析中的预测 R 平方值 Predicted R-squared 是用来解释模型预测新观测值的好坏能力而 R 平方值则是用来解释模型针对目前资料的配适好坏。而预测 R 平方值能避免过度配适 over fitting 的情况并且在比较模型上会比修正 R 平方值 AdjustR-squared 还要有用因为它使用了估计模型未包含的观测值来计算。过度配适指的是模型在模型估计上解释现了有资料中反应变数
y 和独立变数 x 之间的关系但是却无法提供对新的观测值的有效预测值。 预测 R 平方值是有系统地将资料中的移除单一观测值移除并估计回归模型之后所得之一种修饰 R 平方值并且决定了模型预测移除观测值能力的好坏。预测 R 平方值的范围介於 0 到 100 之间并且它是透过 PRESS 统计量计算得到。当模型的预测R 平方值越大则模型预测能力越好。 例如假设您在一家财务顾问公司上班并且正在研发一个预测未来市场情况的模型。您选定一个模型它的 R 平方值达到 87可是此模型的预测 R 平方值只有 52。这可能是一个模型过度配适的现象并且此模型可能无法对现有资料以外的新观测值作一个好的预测。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: