您的位置:首页 > 其它

统计学习方法概论

2016-03-12 22:58 127 查看
本文是学习李航写的《统计学习方法》一书第一章“统计学习方法概论”所做的一个笔记,主要就是对第一章的总结。

1. 统计学习:

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称统计机器学习。由此可以看出统计学习的研究对象是数据,目的是对数据进行预测与分析。同时,统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。

2. 监督学习:

统计学习包括监督学习、非监督学习、半监督学习及强化学习。其中监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测,分为学习和预测两个过程,可用如下的图来描述:



上图中,T={(x1,y1),(x2,y2),...,(xn,yn)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\}表示训练数据集,其中(xi,yi),i=1,2,...,n(x_{i},y_{i}), i=1,2,...,n,称为样本或样本点,xix_{i}是输入,yiy_{i}是输出。学习系统利用给定的训练数据集,通过学习得到一个模型,表示为条件概率分布P^(Y|X)\hat{P}(Y|X)或决策函数Y=f^(X)Y=\hat{f}(X),描述输入与输出随机变量之间的映射关系。在预测过程中,预测系统对于给定的测试样本集中的输入xn+1x_{n+1},由模型yn+1=argmaxyn+1P^(yn+1|xn+1)y_{n+1}=\mathop{argmax}_{y_{n+1}}\hat P(y_{n+1}|x_{n+1})或yn+1=f^(xn+1)y_{n+1}=\hat f(x_{n+1})给出相应的输出yn+1y_{n+1}。

3. 统计学习方法的三要素:模型、策略、算法

(1) 模型:所要学习的条件概率分布或决策函数。假设空间FF包含所有可能的条件概率分布或决策函数:F={f|Y=fθ(X),θ∈Rn}或F={P|Pθ(Y|X),θ∈Rn}F=\{f|Y=f_{\theta}(X),\theta\in R^n\}或F=\{P|P_{\theta}(Y|X),\theta\in R^n\}(2) 策略:按照什么样的准则学习或选择最优的模型。先介绍损失函数和期望风险、经验风险:

损失函数L(Y,f(X))L(Y,f(X)):输入为XX,由ff输出的预测值为f(X)f(X),真实值为YY,损失函数是f(X)f(X)和YY的非负实值函数。常用的损失函数有以下几种:

(i) 0-1损失函数:L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y,f(X))=\{ {1,Y\ne f(X) \atop 0,Y=f(X)}

(ii) 平方损失函数:L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2

(iii) 绝对损失函数:L(Y,f(X))=|Y−f(X)|L(Y,f(X))=|Y-f(X)|

(iv) 对数损失函数:L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X))=-\log P(Y|X)

期望风险(期望损失):损失函数的期望,即:Rexp(f)=EPL(Y,f(X))R_{exp}(f)=E_PL(Y,f(X))学习的目标就是选择期望风险最小的模型,但由于模型的输入、输出(X,Y)(X,Y)的联合分布P(X,Y)P(X,Y)是未知的,Rexp(f)R_{exp}(f)不能直接计算。

经验风险(经验损失):模型f(X)f(X)关于训练数据集的平均损失,即:Remp(f)=1N∑i=1NL(yi,f(xi))R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))

有监督学习的两个基本策略为经验风险最小化和结构风险最小化。

经验风险最小化即为:minf∈F1N∑i=1NL(yi,f(xi))\mathop{min}_{f\in F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))FF是假设空间。

结构风险最小化是为了防止过拟合而提出的策略,即为正则化。结构风险在经验风险上加上表示模型复杂度的正则化项和惩罚项,定义是:Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)其中J(f)J(f)为模型的复杂度,λ≥0\lambda \ge0是系数,用以权衡经验风险和模型复杂度。结构风险最小化即为:minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)\mathop{min}_{f\in F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)(3) 算法:统计学习问题归结为最优化问题,算法成为求解最优化问题的算法。

4. 模型评估与模型选择:

(1) 训练误差和测试误差:

训练误差是模型Y=f^(X)Y=\hat f(X)关于训练数据集的平均损失。测试误差是模型关于测试数据集的平均损失。测试误差反映了学习方法对未知测试数据集的预测能力,测试误差小的方法具有更好的预测能力,是更有效的方法。

(2) 过拟合:

过拟合指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好但对未知数据预测的很差的现象。训练误差和测试误差与模型复杂度之间的关系如下图所示:



我们可以看出,随着模型复杂度的增大,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时就会发生过拟合现象

5. 模型选择方法:正则化与交叉验证

(1)正则化:结构风险最小化策略的实现。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

(2)交叉验证:

若样本数据充足,随机地将数据分成三部分:训练模型(用来训练模型)、验证集(用于模型的选择)和测试集(用于最终对学习方法的评估)。

若样本数据不充足,则重复地使用数据即交叉验证。

6. 泛化能力:

泛化能力是指学习方法学习到的模型对未知数据的预测能力。泛化误差反映了学习方法的泛化能力,事实上泛化误差就是所学习到的模型的期望风险。如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。

7. 生成模型与判别模型:

(1)生成方法:由数据学习联合联合概率分布P(X,Y)P(X,Y),然后求出条件概率分布P(Y|X)P(Y|X)作为预测的模型。

(2)判别方法:由数据直接学习决策函数f(X)f(X)或条件概率分布P(Y|X)P(Y|X)作为预测的模型。

8. 分类问题:

分类问题包括学习和分类两个过程。评价分类器性能的指标一般是分类准确率,即对给定的测试数据集,分类器正确分类的样本数与总样本数之比。

9. 标注问题:

标注问题的输入是一个观测序列,输出是一个标记序列或状态序列,分为学习和标注两个问题。标注常用的统计学习方法有隐马尔可夫模型、条件随机场,应用于信息抽取和自然语言处理(如其中的词性标注)。

10. 回归问题:

回归问题等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。回归模型是表示从输入变量到输出变量之间映射的函数。回归分为学习和预测两个过程。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: