您的位置：首页 > 其它

统计学习三要素------《统计学习方法》读书笔记

2018-02-04 20:30 260 查看

名词解释

1. 输入空间：所有输入可能取值的集合，{XX}；

2. 输出空间：所有输出可能取值的集合，{YY}；

3. 假设空间：由输入空间到输出空间的所有可能的映射的集合，

可以为决策函数的集合：F={f|Y=f(x)}F={f|Y=f(x)}，或条件概率的集合：F={P|P(Y|X)}F={P|P(Y|X)}

统计学习的三要素为：模型，策略，方法。

1.模型

在监督学习中，模型是所要学习的条件概率分布P（y|x）P（y|x）或决策函数 y=f(x)y=f(x)。在假设空间中，模型有无穷多个。

2.策略

策略是指如何在假设空间的无穷多个模型中选取最优模型，这里的“最优”就引出了如何评价模型的好坏的问题。

损失函数（loss function）：L(Y,f(X))L(Y,f(X)),损失函数用于度量模型一次预测的好坏。

风险函数（risk function）：Rexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdyRexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdy，用于度量平均意义下模型的好坏。风险函数为损失函数的期望(expected loss)，但是这仅仅是理论上的定义。实际上，由于P（X,Y）P（X,Y）不可知，多采用经验风险(empirical loss): Remp=1N∑Ni=1L(yi,f(xi))Remp=1N∑i=1NL(yi,f(xi))来代替，即求出训练样本集中损失函数的平均值。

两个基本策略：

当样本数量N趋于无穷大时， RempRemp 趋近于 RexpRexp，但实际情况中样本数量都是有限的，因此需采用一定的策略对经验风险 RempRemp 进行校正。

2.1 经验风险最小化（ERM）

在假设空间、损失函数和训练数据集确定的情况下，经验风险 RempRemp 函数式可以确定，可以采用经验风险最小化策略进行问题的求解：

minf∈F1N∑i=1NL(yi,f(xi))f∈Fmin1N∑i=1NL(yi,f(xi))

例如极大似然估计就是经验风险最小化的例子。但是当样本数量太少时，容易出现“过拟合(over-fitting)”的问题。

2.2 结构风险最小化（SRM）

结构风险在经验风险后加入正则化项（regularizer）或罚项（penalty term），用于限制模型的复杂程度，防止过度复杂的模型产生的过拟合问题。表达式如下：

minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)f∈Fmin1N∑i=1NL(yi,f(xi))+λJ(f)

3. 算法

以上两步确定了模型的优化策略，最后剩下的就是如何求解的问题，即采用什么样的算法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 统计学习方法统计学习三要素

相关文章推荐

新的分享

章节导航