您的位置：首页 > 其它

李航《统计学习方法》第4&9章朴素贝叶斯分类器&EM算法

2016-06-09 13:29 330 查看

朴素贝叶斯(naive Bayes)定义

基本假设

输入x为n维向量，输出y取值在{c1,…,ck}K个值范围内，训练集样本个数N，假设样本独立同分布，且

特征条件独立 。具体的：

P(X=x|Y=ck)=P(X(1)=x(1),…,X(n)=x(n)|Y=ck)=∏nj=1P(X(j)=x(j)|Y=ck)

由于这一假设，朴素贝叶斯的学习大为简化，但对分类性能有一定影响

学习参数

用极大似然估计来学习先验概率分布P(Y=ck)以及条件概率分布P(X=x|Y=ck)=P(X(1)=x(1),…,X(n)=x(n)|Y=ck)。具体的：

P(Y=ck)=∑Ni=1I(yi=ck)N,k=1,2,…,K

假设第j个特征x(j)的可能取值为{a_{j1},…a_{jS_j}},其中l = 1,2,…,Sj

P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)∑Ni=1I(yi=ck),k=1,2,…,K

进行预测

利用 贝叶斯定理 求后验概率

P(Y=ck|X=x)=P(Y=ck)∫nj=1P(X(j)=x(j)|Y=ck)∑kP(Y=ck)∏nj=1P(X(j)=x(j)|Y=ck)

另该 后验概率 最大的y就是我们需要的结果

y=argmaxckP(Y=ck)∏nj=1P(X(j)=x(j)|Y=ck)

i.e.经验风险最小化

贝叶斯估计不等于朴素贝叶斯

贝叶斯估计

用极大似然估计可能会导致求出的先验概率和条件概率取值为0，这时分类会产生偏差

解决方法是采取贝叶斯估计，贝叶斯估计中的先验概率和条件概率的计算中加入了一个λ，i.e.结构风险最小化，使得每个概率都不会等于0。

Pλ(Y=ck)=∑Ni=1I(yi=ck)+λN+Kλ,k=1,2,…,K

Pλ(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)+λ∑Ni=1I(yi=ck)+Sjλ,k=1,2,…,K

λ取值为1成为拉普拉斯平滑。

如果特征条件不独立，存在概率依赖关系，模型就变成了贝叶斯网络

贝叶斯网络

EM算法是一种求解贝叶斯网络的算法，将在第九章介绍

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航

李航《统计学习方法》第4&9章 朴素贝叶斯分类器&EM算法

朴素贝叶斯(naive Bayes)定义

贝叶斯估计

贝叶斯网络

李航《统计学习方法》第4&9章朴素贝叶斯分类器&EM算法