您的位置：首页 > 其它

损失函数、正则化、交叉验证

2016-07-13 15:43 239 查看

期望风险或期望损失：是真实的，需要x,y的联合概率分布相乘

经验风险或经验损失：机器学习问题不可能已知x,y的联合概率分布，如果已知的话，那么x得出y就很容易了。那么根据大数定理可以使用1/n*损失函数来代替期望风险，得出经验风险。

结构风险最小化：是带正则项的经验风险最小化。

经验风险最小化容易带来模型复杂度过高，过拟合问题

正则化：

是结构风险最小化策略的实现。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大

范数：

0范数表示的是向量中非0元素的个数

1范数表示的是向量中元素的绝对值的和

2范数表示的是向量中元素的模的和

模型的稀疏化得优点：是可以实现自动特征选择和优秀的特征可解释性。

想要模型稀疏，最好的方法是使用正则化0范数。但是0范数是不好求w的最优化解得。并且l1是l0的最优凸近似。如果w在0点处不可微（l1就不可微)，且可以分解为一个求和的形式，那么这个规则化算子就可以实现稀疏.

l2范数会使模型的参数很小，但是不能为0。l2相比L1具有更平滑的特性。当遇到两个对预测有帮助的特征时，L1倾向于选择一个更大的特征。而L2更倾向把两者结合起来。

交叉验证：

1、简单验证，70%训练集，30%测试集。使用此方法不断的选择模型和参数，比较测试集的准确率。

2、kfold，将数据集切分成k份，随机选择k-1做训练集，1做测试集。最后选出S次评测中平均测试误差最小的模型。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航