【机器学习】朴素贝叶斯分类
2016-03-31 15:51
246 查看
一、分类的数学定义:
从数学角度来说,分类问题可做如下定义:
已知集合:
和
,确定映射规则
,使得任意
有且仅有一个
使得
成立。(不考虑模糊数学里的模糊集情况)。
其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。
二、贝叶斯统计基础:
定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:
表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:
。我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路:
三、朴素贝叶斯分类的数学原理
朴素贝叶斯分类的正式定义如下:
1、设
为一个待分类项,每个a为x的一个特征属性。这些特征属性需要人工给定。
2、预先得到类别集合
。
3、人工计算
。
4、如果
,则
。
现在的关键就是如何定义和计算第3步中的各个条件概率。我们可以这么做:
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。训练样本需要人工标记。
2、统计得到在各类别下各个特征属性的条件概率估计。即
。这些是统计出类别为yi时,其特征值ai有多大的贡献比率。
3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
分母对于当前类别x为常数,所以不用管分母,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
上述值取哪个yi最大,当前x就属于哪个yi。
从数学角度来说,分类问题可做如下定义:
已知集合:
和
,确定映射规则
,使得任意
有且仅有一个
使得
成立。(不考虑模糊数学里的模糊集情况)。
其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。
二、贝叶斯统计基础:
定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:
表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:
。我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路:
三、朴素贝叶斯分类的数学原理
朴素贝叶斯分类的正式定义如下:
1、设
为一个待分类项,每个a为x的一个特征属性。这些特征属性需要人工给定。
2、预先得到类别集合
。
3、人工计算
。
4、如果
,则
。
现在的关键就是如何定义和计算第3步中的各个条件概率。我们可以这么做:
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。训练样本需要人工标记。
2、统计得到在各类别下各个特征属性的条件概率估计。即
。这些是统计出类别为yi时,其特征值ai有多大的贡献比率。
3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
分母对于当前类别x为常数,所以不用管分母,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
上述值取哪个yi最大,当前x就属于哪个yi。
相关文章推荐
- asp.net客户端调用服务器端方法——AjaxPro.2.dll的使用
- 浅析x86架构中cache的组织结构
- 漫谈iOS Crash收集框架
- Easyui 去掉datagrid 行的样式,并点击checked 改边行颜色!
- dreamweaver制作静态网页第一天
- 22.4-2简单路径条数
- C++STL库之algorithm库
- 仿QQ注册验证码的实现。
- 俩个float数之间比较大小
- 【追求进步】字符串的排列
- Winio64在64位系统中初始化失败问题
- Java锁之自旋锁详解
- 【OpenCV】OpenCV3的第三天——core组件
- 多线程:下载管理器(模拟 SDWebImage)
- APP Run In Background(App 的后台运行)
- Eclipse常用设置
- 笔记 AsyncTask运行原理
- xcode7.2如何真机测试iOS9.3系统
- 使用git pull文件时和本地文件冲突怎么办?
- 通过url地址获取数据后将数据利用SpringMVC的@ResponseBody返回中文可能出现乱码地方