您的位置:首页 > 理论基础 > 计算机网络

机器学习笔记之贝叶斯分类器贝叶斯网络

2018-04-07 18:34 288 查看
来来来 总结下 上一节课的贝叶斯参数估计,你会发现一个相当有意思的事情就是要后验概率必须满足以下三个条件:
(1)一定要通过先验知识假设θ的密度函数
(2)而且样本是相互独立的
(3) 你要假设未知数的概率密度函数以及总体其服从的分布
嗯哼哼 傻了吧 那么多先决条件 要利用贝叶斯算法做一个分类器真难
首先来确定贝叶斯分类器设计的基本思想
通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说它基于一些特征判断 最可能像,最可能属于的类别,它遵循“多数占优”这一基本原则。
再来看看贝叶斯公式





其实贝叶斯分类根本就不需要知道其总体服从什么分布,只要有有先验信息就可以推出最新一个的分类,其并不是要像参数估计一样假设服从什么分布,并估计其未知参数,故贝叶斯分类相对而言比较简单
若h(θ),我们无法学习到,那再来我们从先验知识中能学习到什么
(1)通过最大似然估计法可以学习到每一类出现的概率


(2)通过统计样本类别Y出现X的频率,以此来估计


(3)p(x) 的概率当然也可以通过计算所有样本数,通过其出现的频率来估算其概率,但是这个必要
因为 我们的目的是为了比较其最大的后验概率,而对于最新的样本其p(x)都是一样的,也就是说分母都是一样的只要比较分子即可获得拥有最大后验概率的类别。

来一个栗子压压惊 (源于Ng老师机器学习公开课)

假如你现在有两百封邮件,需要去标记它是不是垃圾邮件即分两类(y=1:垃圾邮件;y=0:不是垃圾邮件),下一步就是怎么去表示一封邮件的特征,一般的想法是建立字典:



但是建立字典会造成特征维数过大,而计算条件概率

的时候是一个联合概率密度,这是一个超级复杂的有多维度的条件分布十分难以求解。故贝叶斯算法做出一个大胆的假设,设特征间相互独立,显然是不符合现实的,但是其计算简单很多



上图中右边单词或字母就是我们训练集中所有单词构成的字典。封邮件中出现了字典中的词,我们就在对应的特征位置标为1。


可根据上述学习可得(2)。
但是训练样本不能囊括全部的单词,比如一些生僻字,会使分子为零。但没必要为了扩张字典而把康熙字典纳入其中,因为会大大增加计算机计算量。故拉普拉斯平滑隆重登场



其中


V表示向量维数
第二种 参数估计
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  贝叶斯分类