您的位置:首页 > 产品设计 > UI/UE

Machine Learning Foundation Lecture 04 Feasuibility of learning 学习笔记

2014-02-05 15:52 627 查看
        学习笔记4,机器学习的可行性

        知识点1:有时候机器学习是做不到的。

        为什么呢?请看如下的例子:图1的3张图片的y=-1,图2的3张图片y=+1,请问图3这张图片y=?

  

图1

 

图2


图3 

        如果是从对称性的角度来说图3中图片的y=+1,如果是从左上角是否是黑色块的角度来说图3中图片的y=-1。好像Learning是不可行的。

        我们想要的事情是在资料以外的部分g能不能和f做的一样好,但是这个例子好像告诉我们”我们想要的事情是做不到的“,在机器学习中这类研究叫做No Free Lunch(天下没有白吃的午餐)。如果我们给机器资料,机器去学资料,到底资料以外发生什么事,通常我们是没有办法有任何的结论的(即g在我们所看过的资料以外对f好或者不好)。如果需要有结论,就要加上一些假设。



        知识点2:Hoeffding不等式

        从图4的例子中来理解什么是Hoeffding不等式。

        

图4

       

代表瓶子中orange marble占整个瓶子的比例,未知,也不需要知道;

代表抽样的样本中orange marble占样本的比例,已知;

        公式为

,表示



之间的误差超过

的概率是有上限的。我们可以说如果样本的数量N越大(则上限越小),那

=

大概差不多是正确的(probably
approximately correct PAC),换句话说就是大概能够通过已知的

来推理出未知的



        知识点3:Probability与Learning的关系


BinLearning
未知的orange marble的Probability,用

来表示
fixed hypothesis h(x) =? target f(x)
marble

Bin
x

X
organe marbleh is wrong

h(x)

f(x) (有一个固定的h)
green marbleh is right

h(x)= f(x) (有一个固定的h)
来自于Bin中抽取的Sample,Size用N来表示Check h on D={(

,

)}
        由此可以得到:如果我们的资料量足够的大(large N),并且

是独立取样的,我们大概可以说:“从资料中得到的h(

)



的比例,大概可以推导出h(x)

f(x)的比例。”

       

图5

       

(out of sample error)表示h和f在整个bin中是否一样,相当于

(未知);

(in
sample error)表示在资料上h和y是否一样,相当于

(已知);将



代入Hoeffding不等式,得到如下公式:

       

,Hoeffding告诉我们这2个东西(



)大概差不多。

        如果





and

很小



也很小


资料继续从P中产生出来(就是以P的形式的概率分布),那h

f(h和f很接近)。

        知识点4:Real Learning

        从上述的内容来看,我们根本就没有使用Machine learning alogrithmn,因为h是固定的,没有从hypothesis set中选择,而真正的机器学习需要从hypothesis set中选择h。


图六

        假设我们有10个bin,从中抽取marble,假使有一个bin抽出的全部是green marble,就是

=0,我们是否要选择这个bin?。对应就是我们有10个hypothesis,其中有1个hypothesis在所对应的资料上全部正确,我们是否要选择这个hypothesis。

        Hoeffding不等式告诉我们的是取样出来的和bin中的大部分是一样的,只有小部分是不好的,所谓不好是取样出来的和bin中的差的很远,就是



差的很远。但是在有了选择的时候,这些选择会恶化不好的情形。

        注意:资料好和不好,就是指



是不是差了很远。

        图七针对一个hypothesis表示了Hoeffding不等式。


图七

        图八出现了多个hypothesis,每一行(每一个hypothesis)告诉我们:“Hoeffding说了,不好的机率很小”,但是我们现在需要的是“演算法需要能安心做选择”,如果资料是D1,演算法会在

,


,

上踩到雷。只有D1126是好的资料。


图八

        我们现在需要知道的是“我们演算法在自由自在做选择的情况下,发生不好的机率是多少?(就是图八中?处)”

        推导公式如下:



        我们可以得到结论,在H(hypothesis set) M有限 & 资料的数量N足够大的情况下,取一个g,他的

最小,从某种角度说他的

也是最小的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  machine learning
相关文章推荐