您的位置：首页 > 其它

ML的45问（4）——评估假设、贝叶斯与PAC可学习

2017-06-04 21:41 204 查看

1. 评估假设的意义

评估假设的3个意义：

确定哪个假设更具有普适性。

当前样本训练出的数据错误率的可信度是多少。

如何利用有限的数据，获得更好的假设。

2. 置信区间的计算

前提：

n>30

如果没有其他信息提供，则真实错误率errorD(h)与样本错误率errors(h)是一致的。

计算示例，一般多用在计算最少赢手机的样例数是多少的题目。例如下题：

要测试一假设h,其errorD(h)已知在0.2到0.6的范围内。要保证95%双侧置信区间的宽度小于0.1，最少应搜集的样例数是多少？

解：查表可知，置信度为95%，则Z为1.96，因此应当满足下式：

1.96×errorD(h)×(1−errorD(h))n−−−−−−−−−−−−−−−−−−−−−−−√<0.05

n>errorD(h)×(1−errorD(h))0.000651

然后解得n=385

其实这里用errorD(h)和errors(h)没有太大区别，因为就像前提2所示的。

3. 贝叶斯学习方法的特性

观察到的每个训练样例可以增量的降低或升高某假设的估计概率。而其他算法遇到不一致时，会完全去掉该假设。

先验知识可以与观察数据一起决定假设的最终概率。

贝叶斯方法可允许假设做出不确定性预测。

新的实力分类可由多个假设一起作出预测，用他们的概率来加权。

4. 最大后验假设与一致学习器的关系

一致学习器指的是它输出的假设在训练样例上有0错误率。

若有均匀的先验概率且无噪声。那么每一个输出假设都是最大后验假设。

5. 最大后验假设与最小误差平方和一致的条件

hMAP=argmaxh∈HP(h|D)

hMAP=argmaxh∈HP(D|h)P(h)P(D)贝叶斯公式

hMAP=argmaxh∈HP(D|h)P(h)省略P(D)

hML=argmaxh∈HP(D|h)每个概率都一样，变成最大似然

hML=argmaxh∈H∏i=1mP(di|h)求积

hML=argmaxh∈H∏i=1m12πσ2−−−−√e−12σ2(di−μ)2中心极限定理

hML=argmaxh∈H∏i=1m12πσ2−−−−√e−12σ2(di−h(xi))2换成可算

hML=argmaxh∈H∑i=1m[In12πσ2−−−−√−12σ2(di−h(xi))2]取对数

hML=argmaxh∈H∑i=1m[−12σ2(di−h(xi))2]省略常数项

hML=argminh∈H∑i=1m[12σ2(di−h(xi))2]最大变最小

最小误差平方和=argminh∈H∑i=1m[(di−h(xi))2]最大变最小

6. 最大后验假设与最小描述长度编码的等价关系

7. 朴素贝叶斯分类器过程

8. 打散的概念

对于一个给定集合S={x1,x2,...,xd}，如果一个假设类H能够实现集合S中所有元素的任一中标记方式，则称H能够分散S。

也就是说，假设空间H是S的所有标记总和。

9. VC维

指能够被H打散的最大集合的大小，线性面里N维的VC维是N+1。

10. PAC学习定义

能够从合理数量的训练数据中，通过合理的计算量可靠的学习到知识。

要求：

1）不要求零错误率，错误率可以在某个非常小的常数范围内。

2）不要求对所有数据都能成功预测，失败概率也可以在某个非常小的常数范围内。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习评估假设贝叶斯分类器 PAC可学习

相关文章推荐

新的分享

章节导航