您的位置:首页 > 其它

朴素贝叶斯分类器

2014-04-19 18:39 330 查看

朴素贝叶斯分类器是在强独立性假设下,应用贝叶斯定理的一个简单概率分类器。对于其概率分类器本质更为形象化的称谓是"独立特征模型"。

简单来讲,朴素贝叶斯分类器假设在给定类变量的条件下,某一个确定特征的值与其他特征的存在与否无关。例如:一种水果如果它是红的、圆的、直径为3‘’,可能会被确定为苹果。朴素贝叶斯分类器假定每一个特征对于该水果是苹果概率的贡献是相互独立的,与其他特征是否存在无关。

对于某些类型的概率模型,可通过有导师学习对朴素贝叶斯分类器进行有效的训练。

在某些实际应用中,对于朴素贝叶斯模型参数使用极大似然方法估计。也就是说,在不接受贝叶斯概率或不使用贝叶斯方法的条件下,直接使用朴素贝叶斯模型。即使是这种朴素的思想和过于简单化的假设,在许多复杂的实际问题中,朴素贝叶斯分类器表现的相当抢眼。朴素贝叶斯的一大优点在于仅需要少量训练数据就可对分类中所需的参数进行估计。因为变量间的独立性假设,对于每一类,仅需确定变量的方差而不用确定完整的协方差。

概率模型

抽象地讲,对于分类器概率模型其实是一个条件模型

P(C|F1,F2,...,Fn)

其中,C是类变量,F1,F2,...,Fn是特征。如果特征数n非常大或特征非常大,那么基于这样一个概率分布律上的模型是不可行的。利用贝叶斯定理对上述后验概率的式子变形得到



利用特征的独立性假设,可以将上式转化为



最终



从概率模型中构建一个分类器

至此,我们得到了独立特征模型即朴素贝叶斯概率模型。朴素贝叶斯分类器将这个模型与一个决策准则结合起来。一个常用的准则是选择最可能的假设即最大后验概率或最大后验概率决策准则。



(1)

模型的所有参数(类先验和特征概率分布)可通过训练集的相对频率来近似。常用的分类是二分类问题,我们假设两类先验是相等的。为了估计特征分布的参数,必须从训练集众为特征假定或生成一个非参数模型。称特征分布假设为朴素贝叶斯分类器的事件模型。

在处理连续数据时,通常假设与每类有关的值服从高斯分布



设我们拥有一批个数为8的训练样本,分别采样自4名男性和4名女性的身高、体重及脚码三种特征的数据。现在需要我们从这一批数据中训练一个朴素贝叶斯分类器。对于一个新的测试样本,也就是拥有三种特征的一个数据,对其属性也就是他的性别做出判断。由上述朴素贝叶斯分类器的一般训练过程,首先需要做出判断,这是一个二分类问题。每一个样本具有三个属性或特征,我们假设这三个特征在类给定的条件下服从高斯分布。也就是,对于男性群体,其身高、体重、脚码服从高斯分布。

在对分类器进行训练时,上述8个数据就构成了训练样本,训练的目的是从训练数据中尽可能地挖掘信息。朴素贝叶斯从根本上来说是在贝叶斯框架下来研究问题。而谈论贝叶斯,离不开先验、似然和后验。其中先验表示根据经验所获得的测试样本属于各类的概率,这是需要预先设定或者通过训练样本中各类样本所占比率获得的。如上述分类问题中,两类样本在整个训练集中所占比例相同,则先验概率也是相等的,都为0.5。

似然表示在类别给定的情况下,特征的概率。因此,首先应当给出特征分布的类型,一般对于连续值,选择高斯分布。高斯分布的均值和方差也可以通过训练样本给出。这样,这个问题就变得比较简单了。给定一个测试样本,掌握了它的特征,就可将特征放入经过训练样本训练好的分类器中进行测试。根据最大后验概率准则,属于哪一类的概率大,就选择这个样本属于那一类。




内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: