您的位置:首页 > 其它

贝叶斯分类知识点梳理

2018-01-02 15:32 218 查看
生成模型和判别模型

判别模型:输入x,直接建模P(y|x)来得到c

生成模型:先对P(y,x)进行建模,然后再由此获得P(y|x)

先验概率、条件概率/似然

类先验概率:p(y)

条件概率、似然:p(x|y)

朴素贝叶斯分类

目标函数:(其实是最小化分类错误率)

y=argmaxP(y=Ck)∏jP(Xj=xj|Y=ck)y=argmaxP(y=Ck)∏jP(Xj=xj|Y=ck)

损失函数:0-1损失函数

基本假设:条件独立性(用于分类的特征在类确定的条件下都是条件独立的),解决组合爆炸、样本稀疏等问题

参数估计方法:极大似然估计和贝叶斯估计

极大似然估计:

试图在参数所有可能的取值中,找到一个能使数据出现的可能性最大的值。

对于离散属性而言P(xi|yj)=Dxi,yjDyjP(xi|yj)=Dxi,yjDyj

对于连续属性而言,可以考虑概率密度函数,假定p(xi|yj)∼N(μyj,xi,σ2yj,xi)p(xi|yj)∼N(μyj,xi,σyj,xi2),则

p(xi|yj)=12π‾‾‾√σi,jexp(−xi−μ2σ2)p(xi|yj)=12πσi,jexp(−xi−μ2σ2)

如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。

贝叶斯估计:

用极大似然估计可能会出现所要估计的概率值为0的情况,从而使得分类产生偏差。常用λ=1λ=1的拉普拉斯来进行修正,具体操作为,分子加上1,分母加上属于该类别的个数

P(yj)=|Dyj|+1|D|+NP(yj)=|Dyj|+1|D|+N

优缺点

优点: 高效、易于训练。对小规模的数据表现很好,适合多分类任务,适合增量式训练。

缺点: 分类的性能不一定很高,对输入数据的表达形式很敏感。(离散、连续,值极大之类的)

半朴素贝叶斯

提出:现实任务中,条件独立性假设很难成立,于是,人们对属性独立性假设进行一定程度的放松。

想法:适当考虑一部分属性间的相互依赖信息,从而既不需进行联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

独依赖估计:属性最多依赖一个其他属性

SPODE:假设所有属性都依赖于一个属性

TAN:计算任意两个属性之间的条件互信息,构建最大带权生成树,TAN实际上仅保留了强相关属性之间的依赖性

AODE:尝试将每个属性作为超父来构建SPODE,集成SPODE作为最终结果

Q&A

Q: 为什么属性独立性假设在实际情况中很难成立,但朴素贝叶斯仍能取得较好的效果?

1)对于分类任务来说,只要各类别的条件概率排序正确、无需精准概率值即可导致正确分类;

2)如果属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时不会对性能产生负面影响。(样本容量大了之后,属性类别之间的差异性会变得比较明显且趋于稳定。)

Q:贝叶斯分类器与贝叶斯学习不同:

前者:通过最大后验概率进行单点估计;后者:进行分布估计。

Q:Navie Bayes和Logistic回归区别是什么?

前者是生成式模型,后者是判别式模型,二者的区别就是生成式模型与判别式模型的区别。

1)首先,Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例,计算联合概率,进而求出后验概率。也就是说,它尝试去找到底这个数据是怎么生成的(产生的),然后再进行分类。哪个类别最有可能产生这个信号,就属于那个类别。

优点:样本容量增加时,收敛更快;隐变量存在时也可适用。

缺点:时间长;需要样本多;浪费计算资源

2)相比之下,Logistic回归不关心样本中类别的比例及类别下出现特征的概率,它直接给出预测模型的式子。设每个特征都有一个权重,训练样本数据更新权重w,得出最终表达式。梯度法。

优点:直接预测往往准确率更高;简化问题;可以反应数据的分布情况,类别的差异特征;适用于较多类别的识别。

缺点:收敛慢;不适用于有隐变量的情况。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习