您的位置:首页 > 其它

损失函数、正则化、交叉验证

2016-07-13 15:43 239 查看
期望风险或期望损失:是真实的,需要x,y的联合概率分布相乘

经验风险或经验损失:机器学习问题不可能已知x,y的联合概率分布,如果已知的话,那么x得出y就很容易了。那么根据大数定理可以使用1/n*损失函数来代替期望风险,得出经验风险。

结构风险最小化:是带正则项的经验风险最小化。

经验风险最小化容易带来模型复杂度过高,过拟合问题

正则化:

是结构风险最小化策略的实现。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大

范数:

0范数表示的是向量中非0元素的个数

1范数表示的是向量中元素的绝对值的和

2范数表示的是向量中元素的模的和

模型的稀疏化得优点:是可以实现自动特征选择和优秀的特征可解释性。

想要模型稀疏,最好的方法是使用正则化0范数。但是0范数是不好求w的最优化解得。并且l1是l0的最优凸近似。如果w在0点处不可微(l1就不可微),且可以分解为一个求和的形式,那么这个规则化算子就可以实现稀疏.

l2范数会使模型的参数很小,但是不能为0。l2相比L1具有更平滑的特性。当遇到两个对预测有帮助的特征时,L1倾向于选择一个更大的特征。而L2更倾向把两者结合起来。

交叉验证:

1、简单验证,70%训练集,30%测试集。使用此方法不断的选择模型和参数,比较测试集的准确率。

2、kfold,将数据集切分成k份,随机选择k-1做训练集,1做测试集。最后选出S次评测中平均测试误差最小的模型。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习