【斯坦福---机器学习】复习笔记之经验风险最小化
2015-09-16 16:05
399 查看
这一讲开始将是学习理论(Learning Theory)方面的内容.
Bias/variance trade-off(偏差-方差权衡)
回到线性回归问题,如图:
泛化误差(generalization error):可能出现的错误并不再已有的数据集中
上图中,左右两幅图的泛化误差都比较大.
左边是欠拟合(underfit)的,即使能够拟合很大一部分数据,但还是可能出现偏差(bias).
右边是过拟合(overfit)的, 在有限小数据,拟合程度是很好的,但是对于一个新的输入,很有可能会有很大的误差,这种称作模型有很大的方差(variance).
所以,经常要在偏差和方差中间做权衡,如果选择的模型太简单参数太少,可能会有很大的偏差(但是很小的方差),如果模型太复杂,参数太多又可能会有很大的方差(但很小的偏差). 上面给出的例子中中间的二次函数比左边的线性函数和右边的五次函数拟合得都好.
引理:(联合界,the union bound)假设A1,A2,…,Ak为k个不同的事件(可能独立也可能不独立).那么,
引理(Hoeffding不等式):假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布, 也就是说
,并且
为这些随机变量的期望,
,那么有
为了简化阐述,考虑二元分类问题,
在这讨论的都可以推广,包括回归和多元分类问题.
假设给定数据集,
,样本是IID(独立同分布)的,对于猜想h,定义训练误差(trainning error,也叫做empirical risk和empirical error)为:
其实这就是错误分类的概率.
定义泛化误差为:
,就是说给定一个新样本,h会分类错误的概率.
考虑线性分类,怎样找到一个合适的参数
,一个方法就是最小化训练误差,然后选择
把这个过程称为经验风险最小化(ERM,empirical risk minimization),推出的猜想为
定义猜想类(Hypotheses class)为学习算法考虑到的所有分类器集合.
经验风险最小化现在可以考虑为在猜想类函数中最小化,也就是说学习算法在猜想类中选择一个猜想
考虑有限个猜想,
由k个猜想组成,
就是从输入映射到{0,1}的k个函数,经验风险最小化从这k个函数中选择一个使得训练误差是最小的.
训练误差可以写成
应用Heffding不等式得到
假设m很大,对于特定的猜想函数很大概率上训练误差接近泛化误差,但是我们需要证明对于所有的猜想类都是同时成立的,假设事件Ai为
已经有
,使用联合边界定理,有
两边同时减1,得
也就是说在
内,对于所有的猜想函数,至少有
的概率
对
视一个可信的估计. 这称为一致收敛(uniform convergence)结果, 因为这是对所有
都同时成立的边界.
基于上面的讨论,有三个数量,m,
和出错的概率,给定其中两个就能够推出另外一个.
比如给定
和某个
,m需要多大来保证概率在
之内,计算得到
,这就告诉了我们为了保证一定的错误率需要多大的数据集.
样本复杂性(sample complexity):为了达到一定程度性能而需要的数据集数量.
同样的,我们可以固定m和
,得到
把所有的这些放到一起得到一个定理:
Bias/variance trade-off(偏差-方差权衡)
回到线性回归问题,如图:
泛化误差(generalization error):可能出现的错误并不再已有的数据集中
上图中,左右两幅图的泛化误差都比较大.
左边是欠拟合(underfit)的,即使能够拟合很大一部分数据,但还是可能出现偏差(bias).
右边是过拟合(overfit)的, 在有限小数据,拟合程度是很好的,但是对于一个新的输入,很有可能会有很大的误差,这种称作模型有很大的方差(variance).
所以,经常要在偏差和方差中间做权衡,如果选择的模型太简单参数太少,可能会有很大的偏差(但是很小的方差),如果模型太复杂,参数太多又可能会有很大的方差(但很小的偏差). 上面给出的例子中中间的二次函数比左边的线性函数和右边的五次函数拟合得都好.
引理:(联合界,the union bound)假设A1,A2,…,Ak为k个不同的事件(可能独立也可能不独立).那么,
引理(Hoeffding不等式):假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布, 也就是说
,并且
为这些随机变量的期望,
,那么有
为了简化阐述,考虑二元分类问题,
在这讨论的都可以推广,包括回归和多元分类问题.
假设给定数据集,
,样本是IID(独立同分布)的,对于猜想h,定义训练误差(trainning error,也叫做empirical risk和empirical error)为:
其实这就是错误分类的概率.
定义泛化误差为:
,就是说给定一个新样本,h会分类错误的概率.
考虑线性分类,怎样找到一个合适的参数
,一个方法就是最小化训练误差,然后选择
把这个过程称为经验风险最小化(ERM,empirical risk minimization),推出的猜想为
定义猜想类(Hypotheses class)为学习算法考虑到的所有分类器集合.
经验风险最小化现在可以考虑为在猜想类函数中最小化,也就是说学习算法在猜想类中选择一个猜想
考虑有限个猜想,
由k个猜想组成,
就是从输入映射到{0,1}的k个函数,经验风险最小化从这k个函数中选择一个使得训练误差是最小的.
训练误差可以写成
应用Heffding不等式得到
假设m很大,对于特定的猜想函数很大概率上训练误差接近泛化误差,但是我们需要证明对于所有的猜想类都是同时成立的,假设事件Ai为
已经有
,使用联合边界定理,有
两边同时减1,得
也就是说在
内,对于所有的猜想函数,至少有
的概率
对
视一个可信的估计. 这称为一致收敛(uniform convergence)结果, 因为这是对所有
都同时成立的边界.
基于上面的讨论,有三个数量,m,
和出错的概率,给定其中两个就能够推出另外一个.
比如给定
和某个
,m需要多大来保证概率在
之内,计算得到
,这就告诉了我们为了保证一定的错误率需要多大的数据集.
样本复杂性(sample complexity):为了达到一定程度性能而需要的数据集数量.
同样的,我们可以固定m和
,得到
把所有的这些放到一起得到一个定理:
相关文章推荐
- 用ultraedit实现编码转换
- WifiManager 常量
- spring中使用slf4j记录日志
- 很有用的 Mac OS X Shell 脚本和终端命令
- java中String的相等比较
- MyBatis学习总结(三)——优化MyBatis配置文件中的配置
- Solr III——schema.xml的配置
- inverse = “true” example and explanation
- EXT结合POI导出数据到Excel表格
- linux下用vim编写C/C++工程(多个源文件)的基本方法
- 自定义Adapter并通过布局泵LayoutInflater抓取layout模板编辑每一个item
- 《程序员面试金典》双栈排序
- COCOS2D 释放资源的最佳时机
- SOA 面向服务的体系结构学习笔记
- js 全局变量 在外部使用function内的变量
- Git常用命令
- java多线程详解(6)-线程间的通信wait及notify方法
- IOS中定时器NSTimer的开启与关闭
- js中捕获全局回车事件
- 什么是WEB 前端