统计学习三要素------《统计学习方法》读书笔记
2018-02-04 20:30
260 查看
名词解释
1. 输入空间:所有输入可能取值的集合,{XX};
2. 输出空间:所有输出可能取值的集合,{YY};
3. 假设空间:由输入空间到输出空间的所有可能的映射的集合,
可以为决策函数的集合:F={f|Y=f(x)}F={f|Y=f(x)},或条件概率的集合:F={P|P(Y|X)}F={P|P(Y|X)}
损失函数(loss function):L(Y,f(X))L(Y,f(X)),损失函数用于度量模型一次预测的好坏。
风险函数(risk function):Rexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdyRexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdy,用于度量平均意义下模型的好坏。风险函数为损失函数的期望(expected loss),但是这仅仅是理论上的定义。实际上,由于P(X,Y)P(X,Y)不可知,多采用经验风险(empirical loss): Remp=1N∑Ni=1L(yi,f(xi))Remp=1N∑i=1NL(yi,f(xi))来代替,即求出训练样本集中损失函数的平均值。
两个基本策略:
当样本数量N趋于无穷大时, RempRemp 趋近于 RexpRexp,但实际情况中样本数量都是有限的,因此需采用一定的策略对经验风险 RempRemp 进行校正。
2.1 经验风险最小化(ERM)
在假设空间、损失函数和训练数据集确定的情况下,经验风险 RempRemp 函数式可以确定,可以采用经验风险最小化策略进行问题的求解:
minf∈F1N∑i=1NL(yi,f(xi))f∈Fmin1N∑i=1NL(yi,f(xi))
例如极大似然估计就是经验风险最小化的例子。但是当样本数量太少时,容易出现“过拟合(over-fitting)”的问题。
2.2 结构风险最小化(SRM)
结构风险在经验风险后加入正则化项(regularizer)或罚项(penalty term),用于限制模型的复杂程度,防止过度复杂的模型产生的过拟合问题。表达式如下:
minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)f∈Fmin1N∑i=1NL(yi,f(xi))+λJ(f)
1. 输入空间:所有输入可能取值的集合,{XX};
2. 输出空间:所有输出可能取值的集合,{YY};
3. 假设空间:由输入空间到输出空间的所有可能的映射的集合,
可以为决策函数的集合:F={f|Y=f(x)}F={f|Y=f(x)},或条件概率的集合:F={P|P(Y|X)}F={P|P(Y|X)}
统计学习的三要素为:模型,策略,方法。
1.模型
在监督学习中,模型是所要学习的条件概率分布P(y|x)P(y|x)或决策函数 y=f(x)y=f(x)。在假设空间中,模型有无穷多个。2.策略
策略是指如何在假设空间的无穷多个模型中选取最优模型,这里的“最优”就引出了如何评价模型的好坏的问题。损失函数(loss function):L(Y,f(X))L(Y,f(X)),损失函数用于度量模型一次预测的好坏。
风险函数(risk function):Rexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdyRexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdy,用于度量平均意义下模型的好坏。风险函数为损失函数的期望(expected loss),但是这仅仅是理论上的定义。实际上,由于P(X,Y)P(X,Y)不可知,多采用经验风险(empirical loss): Remp=1N∑Ni=1L(yi,f(xi))Remp=1N∑i=1NL(yi,f(xi))来代替,即求出训练样本集中损失函数的平均值。
两个基本策略:
当样本数量N趋于无穷大时, RempRemp 趋近于 RexpRexp,但实际情况中样本数量都是有限的,因此需采用一定的策略对经验风险 RempRemp 进行校正。
2.1 经验风险最小化(ERM)
在假设空间、损失函数和训练数据集确定的情况下,经验风险 RempRemp 函数式可以确定,可以采用经验风险最小化策略进行问题的求解:
minf∈F1N∑i=1NL(yi,f(xi))f∈Fmin1N∑i=1NL(yi,f(xi))
例如极大似然估计就是经验风险最小化的例子。但是当样本数量太少时,容易出现“过拟合(over-fitting)”的问题。
2.2 结构风险最小化(SRM)
结构风险在经验风险后加入正则化项(regularizer)或罚项(penalty term),用于限制模型的复杂程度,防止过度复杂的模型产生的过拟合问题。表达式如下:
minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)f∈Fmin1N∑i=1NL(yi,f(xi))+λJ(f)
3. 算法
以上两步确定了模型的优化策略,最后剩下的就是如何求解的问题,即采用什么样的算法。相关文章推荐
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 统计学习三要素------《统计学习方法》读书笔记
- 《统计学习方法》学习笔记(1)--统计学习三要素
- 统计学习笔记——统计学习三要素
- 机器学习-统计学习三要素浅析
- 统计学习三要素——模型、策略、算法
- 监督学习--统计三要素
- 统计学习读书笔记~~
- 第一章总结 统计学习三要素的理解
- 统计学习的三要素
- 统计学习三要素的思考