学习笔记—诊断机器学习模型
2017-08-12 17:14
246 查看
应用机器学习过程中的建议
本文源自在Coursera平台学习machine learning 过程中的一些记录在评价一个机器学习模型时,当你发现你的模型在测试集上的预测性能非常差时,通常有一下解决办法:
- 增加训练集样本量;
- 减少输入特征变量数目;
- 增加额外的特征变量;
- 增加多项式特征变量;
- 增大或降低lambda值;
要评价一个模型,一般可以采用70%的数据量做训练集,另外30%的数据量用作测试集,评价模型的泛化性能。
模型选择与样本集设置
怎样进行模型选择呢?
首先,针对不同的参数集分别训练获得初步模型,然后分别用这些模型预测测试集样本,测试集误差最小的模型,即判断为最优模型。
一般在评价模型时,需要将样本集划分为训练集、验证集、测试集的组合,其对应的比例分别为6:2:2。
为什么要划分成三组数据集呢?虽然模型训练过程中都未用到过验证集和测试集,但是模型选择过程中,是依赖验证集的。一般来说模型的泛化性能要略低于对验证集的预测性能,所以常用模型对前两步均未用到测试集样本的预测性能作为评价模型泛化性能的指标。
高偏差与高方差
模型的预测性能差,可能是由于出现了高偏差或者高方差(或者两者都出现了),下图形象地描述了高偏差和高方差分别对应的情况。如何判断你的模型是出现了高方差还是高偏差:
高偏差情况:模型对训练集的预测误差很大,对验证集的预测误差也很大,两者大致相当;
高方差情况:模型对训练集的预测误差很小,而对验证集的预测误差很大。
当模型的正则化惩罚过大时,容易出现高偏差情况,也就是欠拟合;当正则化惩罚过小时,容易出现高方差情况,也就是过拟合。因此需要通过比较模型对验证集数据的预测性能选择合适正则化惩罚系数。
作学习曲线
画出模型的学习曲线是另一个用于判断模型处于高偏差还是高方差状态的好方法。作图方法:从小到大依次选择不同数量的样本量作为训练集,训练获得模型,分别计算这些模型对训练集和验证机样本的预测误差,将预测误差及其所对应的训练集样本数量在图上显示。
从上图我们可以发现,当模型处于高偏差状态时,增加更多训练样本往往没什么帮助,即模型的预测性能不会变得更好。
当模型处于高方差状态时,往往增加更多训练样本会有帮助。
因此在诊断一个新的训练模型时,如果该模型对验证集的预测误差很大,
- 增加训练集样本量; 适用高方差
- 减少输入特征变量数目; 适用高方差
- 增加额外的特征变量; 适用高偏差
- 增加多项式特征变量; 适用高偏差
- 增大lambda值; 适用高偏差
- 降低lambda值; 适用高方差
注:如无特殊说明,以上所有图片均截选自吴恩达的在Coursera开设的机器学习课程的课件ppt.
(第一次用C博客,写作体验比新浪博客简直要好一万倍!)
相关文章推荐
- 机器学习---斯坦福机器学习笔记:模型优化与问题诊断
- 机器学习-学习笔记 线性模型(二)
- Andrew NG机器学习课程笔记系列之——机器学习之神经网络模型-下(Neural Networks: Representation)
- 斯坦福大学机器学习笔记——当训练模型性能不好时的措施(假设评估、模型选择和交叉验证集、正则化、学习曲线)
- 系统学习机器学习之模型诊断与调试
- 【机器学习-斯坦福】学习笔记9 规则化和模型选择(Regularization and model selection)
- 机器学习线性模型学习笔记
- 西瓜书《机器学习》学习笔记--模型评估及选择(二) 留出法
- 《机器学习》(周志华)学习笔记(二)模型评估与选择
- 『机器学习——周志华』学习笔记——第二章:模型评估与选择
- 【学习笔记】斯坦福大学公开课(机器学习) 之广义线性模型
- 机器学习之模型评估与模型选择(学习笔记)
- Stanford机器学习笔记-6. 学习模型的评估和选择
- Stanford机器学习笔记-6. 学习模型的评估和选择
- 机器学习-学习笔记 线性模型
- 【机器学习-斯坦福】学习笔记4 ——牛顿方法;指数分布族; 广义线性模型(GLM)
- 人工智障学习笔记——机器学习(2)线性模型
- Coursera 机器学习(by Andrew Ng)课程学习笔记 Week 6(一)—— 机器学习诊断、偏差与方差
- 机器学习第四篇(stanford大学公开课学习笔记) —生成型学习算法之高斯判别分析模型和朴素贝叶斯方法
- 机器学习笔记(IX)线性模型(V)多分类学习