您的位置:首页 > 其它

VC维的物理意义

2016-08-07 15:26 393 查看
物理意义1

我们上一节证明了,对于二分类问题,当他的数据为d维的时候,他vc维度为d+1,即vvc=d+1,这告诉了我们上面信息呢???

对于二分类的hypothsis,如果数据为d为的话,其可以用参数w=(w0,w1,...,wd)来表示。即这个w向量就相当于H的“可调旋钮一样”,我们称其为H的自由度。很明显这个w向量总共有d+1个“可调旋钮”(w0,...,wd)。而这刚刚好是dvc在数据的维度为d时候的值。即我们可以认为,dvc的值其实就表示二分类超平面H的有效自由度,dvc的值表示超平面“可调旋钮”的数目。

比如,对于我们先前提到的一下情况



发现他的可调旋钮的参数(free parameters)为a,仅仅只有一个。而此时他的dvc正好也为1。



同理,在这种情况下,他的可调旋钮的参数(free parameters)为l,r,有两个。而此时他的dvc正好也为2。

所以我们认为,dvc就是表示可调旋钮的数量(自由参数)



物理意义2 模型复杂度

对于VC boud 不等式



我们就、可以用其他的变量表示出ϵ



我们看书一根据VC bound 表示出


的概率为


即在该概率下,有







在上图中,我们用Ω(N,H,δ)表示上图后面的表示式。

那么在N不变,仅改变dvc的情况下,误差的变化曲线为



注:里面的 in-sample error 表示Ein, out-of-sample error表示Eout。

所以我们发现并不是Ein越小越好,即并不是dvc越大越好,也就是并不是模型越复杂越好。由于我们最终希望的是Eout最小,所以最好的dvc为靠近中间的那种情况。

物理意义3 样本复杂度

我们用vc bound 见图



可以推理得到,在给定dvc的情况下,理论上需要样本的数量N=10,000dvc。

但是,根据经验发现,N=10dvc 就足够了。

原因是我们那个VC bound 的不等式,为了能够满足所有的情况,放得太松了!!!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: