对过拟合,欠拟合和正则化的理解
2017-07-08 19:56
183 查看
过拟合
定义:训练误差和测试误差之间的差距太大
原因:模型容量过大
后果:无法提取有效的结构信息,即解过多,无法选出一个泛化能力好的解
(这里就得解释一下模型容量和泛化能力的概念了,模型容量即拟合各种函数的能力,显然高次函数多项式的这种能力比低次的强,就说更高次的模型容量大。泛化能力即在未观测到的输入上表现的良好程度)
欠拟合
定义:模型不能在训练集上获得足够低的误差
原因:模型容量不足
后果:无法刻画真实函数的曲率
所以,过拟合和欠拟合的罪魁祸首就是模型容量,那如何改变模型容量呢?一般来说,有:
1.改变输入特征的个数(一个x的n次幂就是一个特征)
2.加入这些特征对应的参数
注意,当学习算法优化不完美时,学习算法的有效容量会小于模型族的表示容量
(表示容量:学习算法可以选取的函数族)
正则化
定义:以增大训练误差来减小测试误差的策略
正则化思路:1.向机器学习模型添加额外的约束,如增加参数的限制
2.向目标函数添加额外项
3.集成方法
常用的正则化策略:
1.参数范数惩罚
2.L^2参数正则化
3.L1参数正则化
显然,正则化可以用来解决过拟合问题
定义
定义:训练误差和测试误差之间的差距太大
原因:模型容量过大
后果:无法提取有效的结构信息,即解过多,无法选出一个泛化能力好的解
(这里就得解释一下模型容量和泛化能力的概念了,模型容量即拟合各种函数的能力,显然高次函数多项式的这种能力比低次的强,就说更高次的模型容量大。泛化能力即在未观测到的输入上表现的良好程度)
欠拟合
定义:模型不能在训练集上获得足够低的误差
原因:模型容量不足
后果:无法刻画真实函数的曲率
所以,过拟合和欠拟合的罪魁祸首就是模型容量,那如何改变模型容量呢?一般来说,有:
1.改变输入特征的个数(一个x的n次幂就是一个特征)
2.加入这些特征对应的参数
注意,当学习算法优化不完美时,学习算法的有效容量会小于模型族的表示容量
(表示容量:学习算法可以选取的函数族)
正则化
定义:以增大训练误差来减小测试误差的策略
正则化思路:1.向机器学习模型添加额外的约束,如增加参数的限制
2.向目标函数添加额外项
3.集成方法
常用的正则化策略:
1.参数范数惩罚
2.L^2参数正则化
3.L1参数正则化
显然,正则化可以用来解决过拟合问题
定义
相关文章推荐
- 如何理解过拟合、正则化和交叉验证
- 谈谈自己对正则化的一些理解
- 正则化方法/防止过拟合提高泛化能力的方法:L1和L2 regularization、数据集扩增、dropout
- TensorFlow笔记-08-过拟合,正则化,matplotlib 区分红蓝点
- Coursera 机器学习(by Andrew Ng)课程学习笔记 Week 3——逻辑回归、过拟合与正则化
- 从贝叶斯角度深入理解正则化
- 我们常说的正则化防止过拟合是怎么一回事
- 正则化理解
- 过度拟合------正则化
- 正则化和归一化的浅层理解
- tensorflow中的正则化解决过拟合问题
- 机器学习中正则化项L1和L2的直观理解
- 正则化方法:防止过拟合,提高泛化能力
- 加L2正则化防止过拟合前后准确率变化,以及权重初始化
- 七、改进神经网络的学习方法(3):过拟合及改进方法(正则化、Dropout)
- 过拟合(overfitting) vs 正则化(regularization)
- 【TensorFlow】正则化(过拟合问题)
- 机器学习之三:过拟合与正则化
- 避免过拟合问题——正则化
- 机器学习正则化与过拟合