您的位置：首页 > 其它

统计学习方法-框架

2015-07-24 20:18 441 查看

本文是作者在阅读李航老师《统计学习方法》后，对其中一些重要概念的理解和思考，算是一种形式的笔记，希望跟大家分享，如果转载，请标明作者和出处。本文会随着作者的阅读和理解的加深而不断修改，由于作者水平有限，错误难免，如果有错请各位不吝赐教。
一、统计学习做什么
统计学习要做什么：要预测未来，通过得到一个“未来函数”来预测未来。
“未来函数”：把预测过程看成一个函数，是函数要有输入输出，输入是你有的资料，输出是你想获得的内容，举个例子，现在有一场足球比赛，你想要测一测比赛的输赢，那么足球比赛的两支队伍的信息，两支队伍曾经交手的信息等等就可以算是输入，而比赛结果就是输出。
二、统计学习大体框架
1. 统计学习的框架是怎样的：静态的分为 输入空间，输出空间，假设空间，把这三个空间搞明白，基础就有了。动态的就是学习过程。
输入空间：就是输入的资料可能的取值空间，由于要输入很多相同格式的资料，所以定义一下格式便很有必要了。一般用字母来表示输入空间。输入的一份资料通常用一个向量来抽象，一个向量会有很多维度，每一个维度都用一个变量表示，每一个变量都有相应的取值范围，这些取值范围的笛卡尔乘积就是输入空间了。
输出空间：输出结果的取值范围。

假设空间：假设空间是预测模型的可能范围。是在模型确定的基础上建造的空间。模型是指假定的输入和输出之间的关系。比如输入实例x与输出结果y呈线性空间，此时便可以假设y=kx+b，二者呈线性关系，k和b是常数，在这个实例中假设空间就是k和b的取值范围的笛卡尔乘积。也就是说，首先确立模型，模型中会含有参数（如果参数是确定的，就已经可以预测了，不需要学习了），参数的取值范围就是假设空间。
所以，空间就是可能取值范围的集合。
2. 实例，样本和训练集：
实例是指一个具体的（向量）值，比如输入实例（1,1）中有两个维度，取值都是1，这就是一个实例。样本是指一个（输入实例，输出实例）的实例，用符号表示如下：

X代表输入实例，y代表输出实例
训练集是样本的集合，实际训练过程中的输入。

特征空间：与输入空间有密切关系，在一个具体学习算法中，二者可以重合，也可以分开，如果分开，则需要有一层从输入空间到特征空间的映射。在实际应用中，特征是很重要的一步抽象，影响最后的识别结果正确率。

3. 学习过程：想要获得预测模型，需要先训练出预测模型，训练模型的过程就是学习的过程，利用学到的模型预测就是预测过程。

学习过程与我们日常生活中的学习相似：以做练习题为例，先做题，然后对答案，做对了证明会解题了，做不对证明有问题，再去练习，让错误率降低。

统计学习的思想也很像：给模型设定一个初始状态，把输入实例放入实例进行运算，求得结果与输出实例进行比较，如果错了，用损失函数和风险函数计算错误程度，然后调整模型，使得错误程度降低。这样就把学习问题转化为错误程度最小化的最优化问题，就可以用解决最优化问题中的许多手段来进行统计学习。
模型详解：通俗理解，模型就是一个数学公式，把输入实例放进去，就可以算出输出实例。有两种模型，一种是决策模型，一种生成模型，决策模型就是函数型