您的位置:首页 > 编程语言 > Python开发

朴素贝叶斯实现垃圾信息分类

2017-10-18 10:27 232 查看

朴素贝叶斯实现垃圾信息分类

代码github

1.贝叶斯定义(贝叶斯算法介绍)

P(A|B) = P(B|A) * P(B) / P(A)


2.训练过程

中文分词(以下简称特征),过滤掉中英文符号,数字,字母,单个词
将所有特征组成一个去重的词向量列表
计算各个特征在所有分类下的概率


3.分类预测

将待分类数据,分词,向量化
根据贝叶斯公式计算各个分类下的概率,取最大概率即分类结果


4.优化

概率取对数,防止四舍五入对概率的影响
每个特征加1,防止单个特征概率为0


5.总结

训练9000条数据,预测2000条数据,正确率在95%左右
接下来还需要对特征进行处理,提高正确率,如过滤掉只出现一次的特征,加入语义相关性分析等
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息