统计学习方法-框架
2015-07-24 20:18
441 查看
本文是作者在阅读李航老师《统计学习方法》后,对其中一些重要概念的理解和思考,算是一种形式的笔记,希望跟大家分享,如果转载,请标明作者和出处。本文会随着作者的阅读和理解的加深而不断修改,由于作者水平有限,错误难免,如果有错请各位不吝赐教。
一、统计学习做什么
统计学习要做什么:要预测未来,通过得到一个“未来函数”来预测未来。
“未来函数”:把预测过程看成一个函数,是函数要有输入输出,输入是你有的资料,输出是你想获得的内容,举个例子,现在有一场足球比赛,你想要测一测比赛的输赢,那么足球比赛的两支队伍的信息,两支队伍曾经交手的信息等等就可以算是输入,而比赛结果就是输出。
二、统计学习大体框架
1. 统计学习的框架是怎样的:静态的分为 输入空间,输出空间,假设空间,把这三个空间搞明白,基础就有了。动态的就是学习过程。
输入空间:就是输入的资料可能的取值空间,由于要输入很多相同格式的资料,所以定义一下格式便很有必要了。一般用字母 来表示输入空间。输入的一份资料通常用一个向量来抽象,一个向量会有很多维度,每一个维度都用一个变量表示,每一个变量都有相应的取值范围,这些取值范围的笛卡尔乘积就是输入空间了。
输出空间:输出结果的取值范围。
假设空间:假设空间是预测模型的可能范围。是在模型确定的基础上建造的空间。模型是指假定的输入和输出之间的关系。比如输入实例x与输出结果y呈线性空间,此时便可以假设y=kx+b,二者呈线性关系,k和b是常数,在这个实例中假设空间就是k和b的取值范围的笛卡尔乘积。也就是说,首先确立模型,模型中会含有参数(如果参数是确定的,就已经可以预测了,不需要学习了),参数的取值范围就是假设空间。
所以,空间就是可能取值范围的集合。
2. 实例,样本和训练集:
实例是指一个具体的(向量)值,比如输入实例(1,1)中有两个维度,取值都是1,这就是一个实例。 样本是指一个(输入实例,输出实例)的实例,用符号表示如下:
X代表输入实例,y代表输出实例
训练集是样本的集合,实际训练过程中的输入。
特征空间:与输入空间有密切关系,在一个具体学习算法中,二者可以重合,也可以分开,如果分开,则需要有一层从输入空间到特征空间的映射。在实际应用中,特征是很重要的一步抽象,影响最后的识别结果正确率。
3. 学习过程:想要获得预测模型,需要先训练出预测模型,训练模型的过程就是学习的过程,利用学到的模型预测就是预测过程。
学习过程与我们日常生活中的学习相似:以做练习题为例,先做题,然后对答案,做对了证明会解题了,做不对证明有问题,再去练习,让错误率降低。
统计学习的思想也很像:给模型设定一个初始状态,把输入实例放入实例进行运算,求得结果与输出实例进行比较,如果错了,用 损失函数和风险函数 计算错误程度,然后调整模型,使得错误程度降低。这样就把学习问题转化为错误程度最小化的最优化问题,就可以用解决最优化问题中的许多手段来进行统计学习。
模型详解:通俗理解,模型就是一个数学公式,把输入实例放进去,就可以算出输出实例。有两种模型,一种是决策模型,一种生成模型,决策模型就是函数型
,给一个输入实例直接计算出输出实例结果,
生成模型稍有不同,是一种概率模型
,给一个输入实例输出各个可能输出结果的概率,一般取最大为最后的输出实例。
上述公式中,代表了假设空间,假设空间就是模型的集合了。
损失函数和风险函数:损失函数就是用来计算错误程度的,怎么衡量错误程度呢,有几种想法:统计错误率
0-1损失函数,可以用来衡量错误率
,计算错误结果到正确结果的距离,
平方损失函数
绝对损失函数
这两种思想通常用于决策模型,还有一种适用于统计模型的:
对数损失函数
,如果正确结果的概率越小则错误程度越高(对公式的直观理解)。上述公式中的L就是指损失函数(Loss)
损失函数确立某一个样本(输入实例,输出实例)的错误程度,并不能够总体把握模型的错误程度。
风险函数就是用来衡量模型的整体好坏。公式:
可以看出 并不不能够求出该风险函数,因为如果知道了P(x,y)(就是生成模型)模型就是确定的了,不再需要学习。所以通常使用 经验风险
来计算风险,评估模型整体性。
调整模型:经过上述过程后,学习过程已经转化为最优化过程。模型调整就是求解最优化问题的过程。其中会用到一些算法,对不同的模型有不同的算法。
一、统计学习做什么
统计学习要做什么:要预测未来,通过得到一个“未来函数”来预测未来。
“未来函数”:把预测过程看成一个函数,是函数要有输入输出,输入是你有的资料,输出是你想获得的内容,举个例子,现在有一场足球比赛,你想要测一测比赛的输赢,那么足球比赛的两支队伍的信息,两支队伍曾经交手的信息等等就可以算是输入,而比赛结果就是输出。
二、统计学习大体框架
1. 统计学习的框架是怎样的:静态的分为 输入空间,输出空间,假设空间,把这三个空间搞明白,基础就有了。动态的就是学习过程。
输入空间:就是输入的资料可能的取值空间,由于要输入很多相同格式的资料,所以定义一下格式便很有必要了。一般用字母 来表示输入空间。输入的一份资料通常用一个向量来抽象,一个向量会有很多维度,每一个维度都用一个变量表示,每一个变量都有相应的取值范围,这些取值范围的笛卡尔乘积就是输入空间了。
输出空间:输出结果的取值范围。
假设空间:假设空间是预测模型的可能范围。是在模型确定的基础上建造的空间。模型是指假定的输入和输出之间的关系。比如输入实例x与输出结果y呈线性空间,此时便可以假设y=kx+b,二者呈线性关系,k和b是常数,在这个实例中假设空间就是k和b的取值范围的笛卡尔乘积。也就是说,首先确立模型,模型中会含有参数(如果参数是确定的,就已经可以预测了,不需要学习了),参数的取值范围就是假设空间。
所以,空间就是可能取值范围的集合。
2. 实例,样本和训练集:
实例是指一个具体的(向量)值,比如输入实例(1,1)中有两个维度,取值都是1,这就是一个实例。 样本是指一个(输入实例,输出实例)的实例,用符号表示如下:
X代表输入实例,y代表输出实例
训练集是样本的集合,实际训练过程中的输入。
特征空间:与输入空间有密切关系,在一个具体学习算法中,二者可以重合,也可以分开,如果分开,则需要有一层从输入空间到特征空间的映射。在实际应用中,特征是很重要的一步抽象,影响最后的识别结果正确率。
3. 学习过程:想要获得预测模型,需要先训练出预测模型,训练模型的过程就是学习的过程,利用学到的模型预测就是预测过程。
学习过程与我们日常生活中的学习相似:以做练习题为例,先做题,然后对答案,做对了证明会解题了,做不对证明有问题,再去练习,让错误率降低。
统计学习的思想也很像:给模型设定一个初始状态,把输入实例放入实例进行运算,求得结果与输出实例进行比较,如果错了,用 损失函数和风险函数 计算错误程度,然后调整模型,使得错误程度降低。这样就把学习问题转化为错误程度最小化的最优化问题,就可以用解决最优化问题中的许多手段来进行统计学习。
模型详解:通俗理解,模型就是一个数学公式,把输入实例放进去,就可以算出输出实例。有两种模型,一种是决策模型,一种生成模型,决策模型就是函数型
,给一个输入实例直接计算出输出实例结果,
生成模型稍有不同,是一种概率模型
,给一个输入实例输出各个可能输出结果的概率,一般取最大为最后的输出实例。
上述公式中,代表了假设空间,假设空间就是模型的集合了。
损失函数和风险函数:损失函数就是用来计算错误程度的,怎么衡量错误程度呢,有几种想法:统计错误率
0-1损失函数,可以用来衡量错误率
,计算错误结果到正确结果的距离,
平方损失函数
绝对损失函数
这两种思想通常用于决策模型,还有一种适用于统计模型的:
对数损失函数
,如果正确结果的概率越小则错误程度越高(对公式的直观理解)。上述公式中的L就是指损失函数(Loss)
损失函数确立某一个样本(输入实例,输出实例)的错误程度,并不能够总体把握模型的错误程度。
风险函数就是用来衡量模型的整体好坏。公式:
可以看出 并不不能够求出该风险函数,因为如果知道了P(x,y)(就是生成模型)模型就是确定的了,不再需要学习。所以通常使用 经验风险
来计算风险,评估模型整体性。
调整模型:经过上述过程后,学习过程已经转化为最优化过程。模型调整就是求解最优化问题的过程。其中会用到一些算法,对不同的模型有不同的算法。
相关文章推荐
- 插件管理框架 for Delphi(一)
- 使用CSS框架布局的缺点和优点小结
- 列举PHP的Yii 2框架的开发优势
- Windows窗体的.Net框架绘图技术实现方法
- 浅谈JavaScript 框架分类
- 轻量级javascript 框架Backbone使用指南
- javascript实现框架高度随内容改变的方法
- JS刷新框架外页面七种实现代码
- 超赞的动手创建JavaScript框架的详细教程
- asp.net4.0框架下验证机制失效的原因及处理办法
- 插件管理框架 for Delphi(二)
- 零基础学习AJAX之AJAX框架
- Ajax 框架学习笔记
- Flex中最好的MVC框架Mate框架
- JavaScript 异步调用框架 (Part 4 - 链式调用)
- JavaScript 异步调用框架 (Part 2 - 用例设计)
- 为什么使用框架 使用框架的优缺点
- JavaScript 异步调用框架 (Part 3 - 代码实现)
- js刷新框架子页面的七种方法代码
- JavaScript框架编程第1/2页