神奇的贝叶斯---垃圾邮件过滤
2015-03-11 11:23
127 查看
使用贝叶斯进行垃圾邮件过滤的原理很简单,假如我们在邮件中发现一个词--“发票”,那么就根据这个词来计算这封邮件是垃圾邮件的概率
P(垃圾|发票) = P(发票|垃圾)P(垃圾)/P(发票)
P(垃圾|发票) :邮件中出现发票一词时,该邮件是垃圾邮件的概率
P(发票|垃圾): 在垃圾邮件中,发票一词出现的概率
P(垃圾) : 垃圾邮件的概率
P(发票) : 发票一词在邮件中出现的概率
P(正常) : 正常邮件的概率
P(发票) = P(发票|垃圾)P(垃圾) + P(发票|正常)P(正常)
第一步,需要一个训练样本,正常邮件,和垃圾邮件各选取2000封,然后统计各个词在垃圾邮件和正常邮件中出现的次数,经过统计,发票一词在垃圾邮件中出现了400封,而在正常邮件中,只有5封邮件,如此,P(发票|垃圾) = 0.2 P(发票|正常) = 0.0025。如果一个词只在垃圾邮件中出现呢,那么它在正常邮件中出现的概率应当是多少呢?显然不应该为0,为0的话,就无法参与计算,因此需要给一个默认值,可以先设置为0.01。随着垃圾邮件的过滤,每一个词在垃圾邮件中的概率和在正常邮件中的概率都是会变化的。
第二步,进行垃圾邮件的识别,这里面,P(垃圾) = P(正常) = 0.5,这个是先验概率,虽然有研究表明用户实际中收到的垃圾邮件占比达到80%,但先验概率仍设置为50%。将以上各值带入公式计算 P(垃圾|发票) = 0.2*0.5/(0.5*0.2+0.5*0.0025) = 0.98 也就是说,有98%的概率是垃圾邮件
但是单凭这一个词就判断它是垃圾邮件是不合理的,毕竟,在正常邮件中,也是可以出现发票一词的,那么该怎么办呢?
邮件中不止发票这一个词,还有其他的词,其他的词也是可以计算垃圾邮件的概率的,这样,我们对所有词都计算,假设单词序列为W1,W2,W3....Wn
p1 = p(垃圾|W1)
p2 = p(垃圾|W2)
.....
pn = p(垃圾|Wn)
将这些值从大到小排序,然后选出其中最大的k个值进行联合概率计算
P = p1*p2*p3...*pk/(p1*p2*p3...*pk + (1-p1)*(1-p2)*(1-p3)...*(1-pk))
公式是如何推到的,这里就不做介绍,因为,我也搞不清楚,但是最终的联合概率计算公式却是如此的简单,以至于,我们完全不需要知道是如何推导出来的
P(垃圾|发票) = P(发票|垃圾)P(垃圾)/P(发票)
P(垃圾|发票) :邮件中出现发票一词时,该邮件是垃圾邮件的概率
P(发票|垃圾): 在垃圾邮件中,发票一词出现的概率
P(垃圾) : 垃圾邮件的概率
P(发票) : 发票一词在邮件中出现的概率
P(正常) : 正常邮件的概率
P(发票) = P(发票|垃圾)P(垃圾) + P(发票|正常)P(正常)
第一步,需要一个训练样本,正常邮件,和垃圾邮件各选取2000封,然后统计各个词在垃圾邮件和正常邮件中出现的次数,经过统计,发票一词在垃圾邮件中出现了400封,而在正常邮件中,只有5封邮件,如此,P(发票|垃圾) = 0.2 P(发票|正常) = 0.0025。如果一个词只在垃圾邮件中出现呢,那么它在正常邮件中出现的概率应当是多少呢?显然不应该为0,为0的话,就无法参与计算,因此需要给一个默认值,可以先设置为0.01。随着垃圾邮件的过滤,每一个词在垃圾邮件中的概率和在正常邮件中的概率都是会变化的。
第二步,进行垃圾邮件的识别,这里面,P(垃圾) = P(正常) = 0.5,这个是先验概率,虽然有研究表明用户实际中收到的垃圾邮件占比达到80%,但先验概率仍设置为50%。将以上各值带入公式计算 P(垃圾|发票) = 0.2*0.5/(0.5*0.2+0.5*0.0025) = 0.98 也就是说,有98%的概率是垃圾邮件
但是单凭这一个词就判断它是垃圾邮件是不合理的,毕竟,在正常邮件中,也是可以出现发票一词的,那么该怎么办呢?
邮件中不止发票这一个词,还有其他的词,其他的词也是可以计算垃圾邮件的概率的,这样,我们对所有词都计算,假设单词序列为W1,W2,W3....Wn
p1 = p(垃圾|W1)
p2 = p(垃圾|W2)
.....
pn = p(垃圾|Wn)
将这些值从大到小排序,然后选出其中最大的k个值进行联合概率计算
P = p1*p2*p3...*pk/(p1*p2*p3...*pk + (1-p1)*(1-p2)*(1-p3)...*(1-pk))
公式是如何推到的,这里就不做介绍,因为,我也搞不清楚,但是最终的联合概率计算公式却是如此的简单,以至于,我们完全不需要知道是如何推导出来的
相关文章推荐
- 三门问题与神奇的贝叶斯大脑
- (转)数学之美番外篇:平凡而又神奇的贝叶斯方法
- 刘未鹏 : 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 数学之美番外篇:平凡而又神奇的贝叶斯方法(2)——刘未鹏
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 数学之美--平凡而又神奇的贝叶斯方法(四)
- 平凡而又神奇的贝叶斯方法
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 【佳文选读】数学之美番外篇:平凡而又神奇的贝叶斯方法
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 平凡而又神奇的贝叶斯方法
- 转:数学之美番外篇:平凡而又神奇的贝叶斯方法 收藏
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- 数学之美--平凡而又神奇的贝叶斯方法(五)
- 平凡而又神奇的贝叶斯方法
- 平凡而又神奇的贝叶斯方法
- 数学之美番外篇:平凡而又神奇的贝叶斯方法