Machine Learning Foundation Lecture 04 Feasuibility of learning 学习笔记
2014-02-05 15:52
627 查看
学习笔记4,机器学习的可行性
知识点1:有时候机器学习是做不到的。
为什么呢?请看如下的例子:图1的3张图片的y=-1,图2的3张图片y=+1,请问图3这张图片y=?
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4f0e0b8c383b9e6ca9f5649aa2338b5c)
图1
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/382db730143876c50b8fee0576f0392b)
图2
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/652c24e0fde5b0698e5ce9a81a284b74)
图3
如果是从对称性的角度来说图3中图片的y=+1,如果是从左上角是否是黑色块的角度来说图3中图片的y=-1。好像Learning是不可行的。
我们想要的事情是在资料以外的部分g能不能和f做的一样好,但是这个例子好像告诉我们”我们想要的事情是做不到的“,在机器学习中这类研究叫做No Free Lunch(天下没有白吃的午餐)。如果我们给机器资料,机器去学资料,到底资料以外发生什么事,通常我们是没有办法有任何的结论的(即g在我们所看过的资料以外对f好或者不好)。如果需要有结论,就要加上一些假设。
知识点2:Hoeffding不等式
从图4的例子中来理解什么是Hoeffding不等式。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/0c8358b828a07ba63d6b1140a270461a)
图4
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4e4d506c887c843f43a8fbcbe1884ffd)
代表瓶子中orange marble占整个瓶子的比例,未知,也不需要知道;
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/6e71ee1e5c0421fe2cec3e7b1ecf06de)
代表抽样的样本中orange marble占样本的比例,已知;
公式为
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/f4372e33f19ee8b7ef2106a17647a5bb)
,表示
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4e4d506c887c843f43a8fbcbe1884ffd)
和
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/6e71ee1e5c0421fe2cec3e7b1ecf06de)
之间的误差超过
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/aeb302325ebc29add21f094ad38ad261)
的概率是有上限的。我们可以说如果样本的数量N越大(则上限越小),那
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4e4d506c887c843f43a8fbcbe1884ffd)
=
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/6e71ee1e5c0421fe2cec3e7b1ecf06de)
大概差不多是正确的(probably
approximately correct PAC),换句话说就是大概能够通过已知的
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4e4d506c887c843f43a8fbcbe1884ffd)
来推理出未知的
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/6e71ee1e5c0421fe2cec3e7b1ecf06de)
。
知识点3:Probability与Learning的关系
由此可以得到:如果我们的资料量足够的大(large N),并且
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/77e0af0375041aa6bc62b999f15f33d9)
是独立取样的,我们大概可以说:“从资料中得到的h(
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/77e0af0375041aa6bc62b999f15f33d9)
)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/707c1658c79e238d6bc1ef89b73cb638)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/38a1e3b8433265400d512453f8c8fb17)
的比例,大概可以推导出h(x)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/707c1658c79e238d6bc1ef89b73cb638)
f(x)的比例。”
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/ac6f6d306f9729386481afefea514efb)
图5
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/da16864d4ac2352ee42fb0fdda4c9cfb)
(out of sample error)表示h和f在整个bin中是否一样,相当于
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4e4d506c887c843f43a8fbcbe1884ffd)
(未知);
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
(in
sample error)表示在资料上h和y是否一样,相当于
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/6e71ee1e5c0421fe2cec3e7b1ecf06de)
(已知);将
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/da16864d4ac2352ee42fb0fdda4c9cfb)
和
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
代入Hoeffding不等式,得到如下公式:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4c8e769771907191e6176bf07b8367e8)
,Hoeffding告诉我们这2个东西(
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/da16864d4ac2352ee42fb0fdda4c9cfb)
,
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
)大概差不多。
如果
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/da16864d4ac2352ee42fb0fdda4c9cfb)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/2da2cdafd658060115612a2f5495f349)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
and
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
很小
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/9e6759be012ee05287fa141b970d1229)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
也很小
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/9e6759be012ee05287fa141b970d1229)
资料继续从P中产生出来(就是以P的形式的概率分布),那h
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/2da2cdafd658060115612a2f5495f349)
f(h和f很接近)。
知识点4:Real Learning
从上述的内容来看,我们根本就没有使用Machine learning alogrithmn,因为h是固定的,没有从hypothesis set中选择,而真正的机器学习需要从hypothesis set中选择h。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/bf18964043abfd20a55828420da090d0)
图六
假设我们有10个bin,从中抽取marble,假使有一个bin抽出的全部是green marble,就是
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
=0,我们是否要选择这个bin?。对应就是我们有10个hypothesis,其中有1个hypothesis在所对应的资料上全部正确,我们是否要选择这个hypothesis。
Hoeffding不等式告诉我们的是取样出来的和bin中的大部分是一样的,只有小部分是不好的,所谓不好是取样出来的和bin中的差的很远,就是
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/4e4d506c887c843f43a8fbcbe1884ffd)
和
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/6e71ee1e5c0421fe2cec3e7b1ecf06de)
差的很远。但是在有了选择的时候,这些选择会恶化不好的情形。
注意:资料好和不好,就是指
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
和
![](http://<br/>adc9<br/>latex.codecogs.com/gif.latex?E_%7Bout%7D)
是不是差了很远。
图七针对一个hypothesis表示了Hoeffding不等式。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/1e59e8f2ee4be33f4ffa32e892292cec)
图七
图八出现了多个hypothesis,每一行(每一个hypothesis)告诉我们:“Hoeffding说了,不好的机率很小”,但是我们现在需要的是“演算法需要能安心做选择”,如果资料是D1,演算法会在
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/7a3ab205e993a4bd07b4d36b4e629b8e)
,
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/1ac66ce4008307cf749fa66825936001)
,
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a440bf1998d6e5fe58512d4ac27d0dfd)
上踩到雷。只有D1126是好的资料。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/1bbffb991da7f1b37c62efa69813a395)
图八
我们现在需要知道的是“我们演算法在自由自在做选择的情况下,发生不好的机率是多少?(就是图八中?处)”
推导公式如下:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/d9d2c312231e5222320eaebaeba5c190)
我们可以得到结论,在H(hypothesis set) M有限 & 资料的数量N足够大的情况下,取一个g,他的
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/a8b61417c614fe3bc2af079fa6ed96cd)
最小,从某种角度说他的
![](https://oscdn.geek-share.com/Uploads/Images/Content/201402/da16864d4ac2352ee42fb0fdda4c9cfb)
也是最小的。
知识点1:有时候机器学习是做不到的。
为什么呢?请看如下的例子:图1的3张图片的y=-1,图2的3张图片y=+1,请问图3这张图片y=?
图1
图2
图3
如果是从对称性的角度来说图3中图片的y=+1,如果是从左上角是否是黑色块的角度来说图3中图片的y=-1。好像Learning是不可行的。
我们想要的事情是在资料以外的部分g能不能和f做的一样好,但是这个例子好像告诉我们”我们想要的事情是做不到的“,在机器学习中这类研究叫做No Free Lunch(天下没有白吃的午餐)。如果我们给机器资料,机器去学资料,到底资料以外发生什么事,通常我们是没有办法有任何的结论的(即g在我们所看过的资料以外对f好或者不好)。如果需要有结论,就要加上一些假设。
知识点2:Hoeffding不等式
从图4的例子中来理解什么是Hoeffding不等式。
图4
代表瓶子中orange marble占整个瓶子的比例,未知,也不需要知道;
代表抽样的样本中orange marble占样本的比例,已知;
公式为
,表示
和
之间的误差超过
的概率是有上限的。我们可以说如果样本的数量N越大(则上限越小),那
=
大概差不多是正确的(probably
approximately correct PAC),换句话说就是大概能够通过已知的
来推理出未知的
。
知识点3:Probability与Learning的关系
Bin | Learning |
未知的orange marble的Probability,用 来表示 | fixed hypothesis h(x) =? target f(x) |
marble Bin | x X |
organe marble | h is wrong h(x) f(x) (有一个固定的h) |
green marble | h is right h(x)= f(x) (有一个固定的h) |
来自于Bin中抽取的Sample,Size用N来表示 | Check h on D={( , )} |
是独立取样的,我们大概可以说:“从资料中得到的h(
)
的比例,大概可以推导出h(x)
f(x)的比例。”
图5
(out of sample error)表示h和f在整个bin中是否一样,相当于
(未知);
(in
sample error)表示在资料上h和y是否一样,相当于
(已知);将
和
代入Hoeffding不等式,得到如下公式:
,Hoeffding告诉我们这2个东西(
,
)大概差不多。
如果
and
很小
也很小
资料继续从P中产生出来(就是以P的形式的概率分布),那h
f(h和f很接近)。
知识点4:Real Learning
从上述的内容来看,我们根本就没有使用Machine learning alogrithmn,因为h是固定的,没有从hypothesis set中选择,而真正的机器学习需要从hypothesis set中选择h。
图六
假设我们有10个bin,从中抽取marble,假使有一个bin抽出的全部是green marble,就是
=0,我们是否要选择这个bin?。对应就是我们有10个hypothesis,其中有1个hypothesis在所对应的资料上全部正确,我们是否要选择这个hypothesis。
Hoeffding不等式告诉我们的是取样出来的和bin中的大部分是一样的,只有小部分是不好的,所谓不好是取样出来的和bin中的差的很远,就是
和
差的很远。但是在有了选择的时候,这些选择会恶化不好的情形。
注意:资料好和不好,就是指
和
是不是差了很远。
图七针对一个hypothesis表示了Hoeffding不等式。
图七
图八出现了多个hypothesis,每一行(每一个hypothesis)告诉我们:“Hoeffding说了,不好的机率很小”,但是我们现在需要的是“演算法需要能安心做选择”,如果资料是D1,演算法会在
,
,
上踩到雷。只有D1126是好的资料。
图八
我们现在需要知道的是“我们演算法在自由自在做选择的情况下,发生不好的机率是多少?(就是图八中?处)”
推导公式如下:
我们可以得到结论,在H(hypothesis set) M有限 & 资料的数量N足够大的情况下,取一个g,他的
最小,从某种角度说他的
也是最小的。
相关文章推荐
- Machine Learning Foundation Lecture 03 Type Of Learning 学习笔记
- Foundation of Machine Learning 笔记第四部分 —— Generalities 以及对不一致假设集的PAC学习证明
- Machine Learning Foundation Lecture 02 Learning to Answer YesNo 学习笔记
- Foundation of Machine Learning 笔记第二部分——Guarantees for Finite Hypothesis Sets in Consistent Case
- Foundation of Machine Learning 笔记第七部分—— VC维
- Foundation of Machine Learning 笔记第六部分——成长函数
- Foundation of Machine Learning 笔记第五部分 (1) —— Rademacher Complexity 和 VC 维
- Foundation of Machine Learning 笔记第三部分——Guarantees for Finite Hypothesis Sets in Inconsistent Case
- Foundation of Machine Learning 笔记第五部分 (2) —— Rademacher Complexity 和 VC 维
- 台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(八)
- 统计学习精要(The Elements of Statistical Learning)课堂笔记(二十四):聚类
- Coursera deeplearning.ai 深度学习笔记2-1-Practical aspects of deep learning-神经网络实际问题分析(初始化&正则化&训练效率)与代码实现
- 台湾大学林轩田机器学习基石课程学习笔记4 -- Feasibility of Learning
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(九)
- coursera Machine Learning Week3-2 学习笔记
- Coursera公开课笔记: 斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)”
- 统计学习精要(The Elements of Statistical Learning)课堂笔记(二十五):降维和PCA
- 台大李宏毅Machine Learning 2017Fall学习笔记 (7)Introduction of Deep Learning
- Coursera Machine Learning Week3 学习笔记