您的位置:首页 > 其它

《统计学习方法》读书笔记part A

2016-03-28 19:18 239 查看

一.统计学习及其特点

统计学习的定义:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习(statistical machine learning)。
统计学习的一般方法:构造概率统计模型。
统计学习的目的:用于对数据进行预测与分析,特别是未知新数据进行预测与分析,使数据的预测更加智能化。
统计学习的方法:构建概念统计模型
统计学习分类:监督学习(superwised learning),半监督学习(Semi-superwisedlearning),非监督学习(unsuperwised learning),强化学习(reinforement learning)
统计学习三要素:模型(model),策略(strategy),算法(algorithm)
主要步骤:
(1)得到一个有限的训练数据集合(training data);
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。

二.监督学习方法概述

监督学习问题:监督学习的任务是学习一个模型,使模型能够对任意给定的输出,对其相应的输出给出一个好的预测。
1.监督学习的几个基本概念:
(1).输入空间(input space),输出空间(output space),特征空间(feature space)
输入空间与输出空间:即输入和输出所有可能性的集合。一般来说输出空间远远小于输入空间。
特征空间:每个具体的输入为一个实例,即特征向量。所有特征向量存在的空间即为特征空间。特征空间的每一维对应一个特征。
常见的表示方法:
输入向量,写作X;
输出向量,写作Y;
输入变量所取值x;
输出变量所取值y;
输入实例x的特征空间:记作
训练数据,由输入和输出对表示,输入和输出对又称为样本(sample)或者样本点。通常表示为
(2).联合概率密度
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(x,y),P(x,y)表示分布函数,或分布密度函数。训练数据与测试数据被看做是依联合概率密度P(x,y)独立同分布产生的。
(3).假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定,意味着学习范围的确定。
2.监督学习问题的形式化
监督学习分为学习和预测两个过程,由学习系统与预测系统组成。监督学习利用训练数据集(人工给出)学习一个模型,再用模型对测试样本集进行预测。如下图所示:

学习过程中,学习系统利用给定的训练数据集,通过学习得到一个模型,表示为条件概率分布P(Y|X)或决策函数Y=f(X)。
预测过程中,预测系统对于给定的测试样本集中的输入

三.统计学习三要素

统计学习方法之间的不同,主要来自其模型、策略、算法的不同。当确定了模型、策略、算法,统计学习的方法也就确定了。所以,模型、策略、算法也成为统计学习三要素。即方法=模型+策略+算法

1.模型
在监督学习中,模型即所要学习的条件概率分布或决策函数。模型的假设空间包括所有可能的条件概率分布或者决策函数。假设空间中的模型一般有无穷多个。
2.策略
2.1有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。,模型每一次预测的好坏用损失函数来度量,风险函数用来度量平均意义下模型预测的好坏。(风险函数即损失函数的期望)
经验风险:

经验风险代表的是模型关于训练样本集的平均损失,当N趋向于无穷大时,经验风险趋向于损失函数的期望。
2.2由于用经验风险估计期望风险的结果常常不理想,要对经验风险进行一定的矫正。关于如何选择模型,监督学习有两种策略:经验风险最小化和结构风险最小化。
经验风险最小化的策略认为,经验风险最小的模型就是最优的模型。则按照经验风险最小化求解最优模型即求解如下最优化问题:

结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或者罚项。则求解最优模型就是求解下面的最优化问题。

这样,监督学习问题就变成了经验风险或者结构风险的最优化问题。这时,经验或结构风险函数是最优化的目标函数。

3.算法
统计学习问题归结为以上的最优化问题,这样,统计学习的算法就是求解最优化问题的算法。如果最优化问题有显示的解析解,这个最优化问题就比较简单,但通常这个解析解不存在,所以就需要利用数值计算的方法来求解。统计学习可以利用已有的最优化算法,也可以开发独自的最优化算法。

2016年3月27日
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: