您的位置：首页 > 产品设计 > UI/UE

Machine Learning Foundation Lecture 04 Feasuibility of learning 学习笔记

2014-02-05 15:52 627 查看

        学习笔记4，机器学习的可行性

        知识点1：有时候机器学习是做不到的。

        为什么呢？请看如下的例子：图1的3张图片的y=-1，图2的3张图片y=+1，请问图3这张图片y=?

图1

图2

图3

        如果是从对称性的角度来说图3中图片的y=+1，如果是从左上角是否是黑色块的角度来说图3中图片的y=-1。好像Learning是不可行的。

        我们想要的事情是在资料以外的部分g能不能和f做的一样好，但是这个例子好像告诉我们”我们想要的事情是做不到的“，在机器学习中这类研究叫做No Free Lunch（天下没有白吃的午餐）。如果我们给机器资料，机器去学资料，到底资料以外发生什么事，通常我们是没有办法有任何的结论的（即g在我们所看过的资料以外对f好或者不好）。如果需要有结论，就要加上一些假设。

        知识点2：Hoeffding不等式

        从图4的例子中来理解什么是Hoeffding不等式。

图4

代表瓶子中orange marble占整个瓶子的比例，未知，也不需要知道；

代表抽样的样本中orange marble占样本的比例，已知；

公式为

，表示

和

之间的误差超过

的概率是有上限的。我们可以说如果样本的数量N越大（则上限越小），那

大概差不多是正确的（probably
approximately correct PAC），换句话说就是大概能够通过已知的

来推理出未知的

。

知识点3：Probability与Learning的关系

Bin	Learning
未知的orange marble的Probability，用来表示	fixed hypothesis h(x) =? target f(x)
marble Bin	x X
organe marble	h is wrong h(x) f(x) (有一个固定的h)
green marble	h is right h(x)= f(x) (有一个固定的h)
来自于Bin中抽取的Sample，Size用N来表示	Check h on D={( , )}

由此可以得到：如果我们的资料量足够的大（large N），并且

是独立取样的，我们大概可以说：“从资料中得到的h(

)

的比例，大概可以推导出h(x)

f(x)的比例。”

图5

（out of sample error）表示h和f在整个bin中是否一样，相当于

（未知）；

（in
sample error）表示在资料上h和y是否一样，相当于

（已知）；将

和

代入Hoeffding不等式，得到如下公式：

，Hoeffding告诉我们这2个东西（

，

）大概差不多。

如果

and

很小

也很小

资料继续从P中产生出来（就是以P的形式的概率分布），那h

f（h和f很接近）。

知识点4：Real Learning

从上述的内容来看，我们根本就没有使用Machine learning alogrithmn，因为h是固定的，没有从hypothesis set中选择，而真正的机器学习需要从hypothesis set中选择h。

图六

假设我们有10个bin，从中抽取marble，假使有一个bin抽出的全部是green marble，就是

=0，我们是否要选择这个bin？。对应就是我们有10个hypothesis，其中有1个hypothesis在所对应的资料上全部正确，我们是否要选择这个hypothesis。

Hoeffding不等式告诉我们的是取样出来的和bin中的大部分是一样的，只有小部分是不好的，所谓不好是取样出来的和bin中的差的很远，就是

和

差的很远。但是在有了选择的时候，这些选择会恶化不好的情形。

注意：资料好和不好，就是指