您的位置：首页 > 其它

【05】standford L05 生成学习算法：高斯判别算法-朴素贝叶斯算法-Laplace Smoothing-文本分类-垃圾邮件处理

2015-01-06 17:05 344 查看

L5 笔记 Generative Learning Algorithms

0 Discriminative Learning Algorithms 和 Generative Learning Algorithms

本lecture主要讲的就是GLA生成学习算法。

DLA与GLA的区别

DLA判别学习算法通过学习（训练样本）直接计算p（y|x）【如Logistic regression，来一个“小白鼠x”，然后计算这个“小白鼠”的p值，p（y|x）】，或者通过训练学习，将输入空间X映射到标签上去{0,1}【如感知器算法】，这些都是算法都是DLA。（找到一个Decision boundary）
GLA：对p（x|y）和p（y）建模

【举例】分别大象与狗

DLA: 先通过训练样本得到decision boundary，然后测试的样本过来，来分别是大象还是狗。
GLA：y = 1 表示是大象， y = 0 表示是狗。

p(x|y = 0) 是表示狗特征的分布

p(x|y = 1) 是表示大象特征的分布

p(y) - 先验概率

【上面的得到后】可以得到

上式中p(x)是给定已知的。参考wiki
Bayes’ Theorem

1 高斯判别分析 Gaussian Discrimination analysis（GDA）- GLA算法一种

1.1 多变量正态分布

1.2 高斯判别分析 Gaussian Discrimination analysis model （分析变量 x 为连续实数）

1.3 GDA 与 Logistic regression

2 朴素贝叶斯分析 Naive Bayes

2.1 Naive Bayes （x 为离散的值）：如文本分析

2.2 Laplace Smoothing

2.3 文本分类的模型

1 高斯判别分析 Gaussian Discrimination analysis（GDA）

1.1 多变量正态分布

公式如下

关于参数均值μ 与协方差变化对分布的影响【2变量举例说明】【注意】图形与xy平面所围的体积应该是一定的。

1、不用的Σ值这里是对角阵

2、Σ值非对角阵

3、关于只均值μ的变化也很好理解

1.2 高斯判别分析 Gaussian

【模型】共用相同的协方差矩阵

【求解】

【注意】

这里使用共同的协方差。

【理解】：最后求解看bayes公式最大的P（y|x）

1.3 GDA 与 Logistic regression

【有趣的关系】：将下面的式子看成是 x 的函数，就是逻辑回归

【哪个好】
GDA更好一些（无论对于大样本m的还是小样本m）；
GDA的假设要求更高一些，更有效（Data efficient）；Logistic Regression的假设要求低一些；LR可以用于x|y=0 服从分布的情况。但是GDA高斯判别算法只能分析高斯分布特征的情况。
相对来说逻辑回归用得多一些，因为GDA只适用于高斯分布的情况。

2 朴素贝叶斯分析 Naive Bayes

2.1 Naive Bayes

【应用案例：垃圾邮件分类：文本分类】

【假设】: Naive Bayes Assumption

xi 在给定y的情况下是相互独立的。（不是 xi是相互独立的）

【算法】：Naive_Bayes_classifier

【以上是xi ={0,1}的情况，若对于xi = ｛0,1,2，……，k｝呢，就选择多变量分布，也就是p（xi|y）用不同的分布来表示】

离散的x多特征变量xi = ｛0,1,2，……，k｝，用NB比用GDA高斯判别算法更好一些。

2.2 Laplace Smoothing

2.3 文本分类的模型

暂且阅读与整理

【总结】

这讲里面【GLA生成学习算法】

1 利用Bayes理论（先验概率、条件概率等概率论知识）
2 似然估计。

【方法过程】见开始部分：第0部分

1 【注意】一个测试样本“喂”进来，X，看那个y使得后验概率的值最大，就判断为该y类！
2 【注意在各个算法中，概率的计算】

【扩展阅读理解数学基础】

Bayes’ Theorem
Multivariate_normal_distribution
Naive_Bayes_classifier

【致谢】

感谢Andrew教授的精彩课程与讲义

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 学习笔记 machine learning 机器学习

相关文章推荐

新的分享

章节导航

【05】standford L05 生成学习算法：高斯判别算法-朴素贝叶斯算法-Laplace Smoothing-文本分类-垃圾邮件处理

L5 笔记 Generative Learning Algorithms

0 Discriminative Learning Algorithms 和 Generative Learning Algorithms

DLA与GLA的区别

【举例】分别大象与狗

1 高斯判别分析 Gaussian Discrimination analysis（GDA）- GLA算法一种

1.1 多变量正态分布

1.2 高斯判别分析 Gaussian Discrimination analysis model （分析 变量 x 为连续实数）

1.3 GDA 与 Logistic regression

2 朴素贝叶斯分析 Naive Bayes

2.1 Naive Bayes （x 为 离散的值）：如文本分析

2.2 Laplace Smoothing

2.3 文本分类的模型

1 高斯判别分析 Gaussian Discrimination analysis（GDA）

1.1 多变量正态分布

1.2 高斯判别分析 Gaussian

1.3 GDA 与 Logistic regression

2 朴素贝叶斯分析 Naive Bayes

2.1 Naive Bayes

2.2 Laplace Smoothing

2.3 文本分类的模型

【总结】

这讲里面【GLA生成学习算法】

【方法过程】见开始部分：第0部分

【扩展阅读理解数学基础】

【致谢】

1.2 高斯判别分析 Gaussian Discrimination analysis model （分析变量 x 为连续实数）

2.1 Naive Bayes （x 为离散的值）：如文本分析