您的位置:首页 > 大数据 > 人工智能

对过拟合,欠拟合和正则化的理解

2017-07-08 19:56 183 查看
过拟合

定义:训练误差和测试误差之间的差距太大

原因:模型容量过大

后果:无法提取有效的结构信息,即解过多,无法选出一个泛化能力好的解

(这里就得解释一下模型容量和泛化能力的概念了,模型容量即拟合各种函数的能力,显然高次函数多项式的这种能力比低次的强,就说更高次的模型容量大。泛化能力即在未观测到的输入上表现的良好程度)

欠拟合

定义:模型不能在训练集上获得足够低的误差

原因:模型容量不足

后果:无法刻画真实函数的曲率

所以,过拟合和欠拟合的罪魁祸首就是模型容量,那如何改变模型容量呢?一般来说,有:

1.改变输入特征的个数(一个x的n次幂就是一个特征)

2.加入这些特征对应的参数

注意,当学习算法优化不完美时,学习算法的有效容量会小于模型族的表示容量

(表示容量:学习算法可以选取的函数族)

正则化

定义:以增大训练误差来减小测试误差的策略

正则化思路:1.向机器学习模型添加额外的约束,如增加参数的限制

                      2.向目标函数添加额外项

                      3.集成方法

常用的正则化策略:

1.参数范数惩罚

2.L^2参数正则化

3.L1参数正则化

显然,正则化可以用来解决过拟合问题











定义
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息