随机森林、EM、HMM、LDA
2016-05-23 16:55
246 查看
本篇简单介绍这些概念。
随机森林(Random Forest)是一种分类和回归算法,它包含了多个决策树,形成一个森林,随机森林的类别是所有决策树分类回归结果的众数决定。
由于它优点很多,适应比较广泛.
1、能够处理高维数据,不用做特征选择,自动选出那些特征重要。
2、训练速度快,分类精度高。
3、能检测到特征之间的相互影响。
4、不会产生过拟合。
期望最大化(Expectation-Maximization),也叫最大似然估计。它是一种参数估计方法。
基本思想是:参数的取值应该是使随机样本出现的概率最大。因此如果我们知道样样本的概率分布,就可以通过求使概率分布最大的参数值为最终取值。
参考文章1,已知100个男生的身高分布概率,当不知道他们的均值和方差,通过最大似然估计认为,均值和方差应该是使这个概率分布最大。
最大似然估计函数如下:
如果是连乘形式,可以求对数简化为相加形式:
求解可以是求导数为0,即牛顿法或者梯度下降法(计算机中使用)。
HMM,隐马尔科夫模型。
HMM在自然语言处理领域应用比较广泛,如汉语分词,词性标注,语音识别。
典型的隐马尔科夫模型,其下一个状态只与当前相关,与其他因素不相关。这样虽然不太正确,可能舍去了很多重要信息,但能简化模型和计算量,得出结果,因此实际中也经常用。
参考一个经典的HMM例子,见下图。
HMM能解决三个基本问题:
1、根据观测序列和模型参数,求模型参数已知条件下的观测序列后验概率。
2、求观测序列已知情况下的状态序列最合理取值。
3、如何调整模型参数,使观测序列后验概率取值最大。
LDA(latent dirichlet allocation)叫主题模型,应用在图像分类、文本分类、主题词抽取。
是一个三层贝叶斯概率模型,包含词、主题、文档。
可以解决矩阵稀疏的问题。
是最简单的话题模型(topic model),话题模型就是发现大量文档集合的主题的算法。
可以判断两个文档的相似性和距离。是基于主题模型的语义挖掘技术,能区别两篇文章在语义上的区别,而非词频的区别。
主题模型常用算法有两种:pLSA和LDA。更多内容参考文章6.
参考文章
1、http://www.cnblogs.com/openeim/p/3921835.html
2、http://www.cnblogs.com/skyme/p/4651331.html(HMM介绍)
3、http://blog.csdn.net/app_12062011/article/details/50408664#t6(HMM在自然语言处理中的应用详细介绍)
4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog
5、http://blog.csdn.net/daringpig/article/details/8072794
6、http://blog.csdn.net/huagong_adu/article/details/7937616(LDA与TF-IDF的区别)
随机森林(Random Forest)是一种分类和回归算法,它包含了多个决策树,形成一个森林,随机森林的类别是所有决策树分类回归结果的众数决定。
由于它优点很多,适应比较广泛.
1、能够处理高维数据,不用做特征选择,自动选出那些特征重要。
2、训练速度快,分类精度高。
3、能检测到特征之间的相互影响。
4、不会产生过拟合。
期望最大化(Expectation-Maximization),也叫最大似然估计。它是一种参数估计方法。
基本思想是:参数的取值应该是使随机样本出现的概率最大。因此如果我们知道样样本的概率分布,就可以通过求使概率分布最大的参数值为最终取值。
参考文章1,已知100个男生的身高分布概率,当不知道他们的均值和方差,通过最大似然估计认为,均值和方差应该是使这个概率分布最大。
最大似然估计函数如下:
如果是连乘形式,可以求对数简化为相加形式:
求解可以是求导数为0,即牛顿法或者梯度下降法(计算机中使用)。
HMM,隐马尔科夫模型。
HMM在自然语言处理领域应用比较广泛,如汉语分词,词性标注,语音识别。
典型的隐马尔科夫模型,其下一个状态只与当前相关,与其他因素不相关。这样虽然不太正确,可能舍去了很多重要信息,但能简化模型和计算量,得出结果,因此实际中也经常用。
参考一个经典的HMM例子,见下图。
HMM能解决三个基本问题:
1、根据观测序列和模型参数,求模型参数已知条件下的观测序列后验概率。
2、求观测序列已知情况下的状态序列最合理取值。
3、如何调整模型参数,使观测序列后验概率取值最大。
LDA(latent dirichlet allocation)叫主题模型,应用在图像分类、文本分类、主题词抽取。
是一个三层贝叶斯概率模型,包含词、主题、文档。
可以解决矩阵稀疏的问题。
是最简单的话题模型(topic model),话题模型就是发现大量文档集合的主题的算法。
可以判断两个文档的相似性和距离。是基于主题模型的语义挖掘技术,能区别两篇文章在语义上的区别,而非词频的区别。
主题模型常用算法有两种:pLSA和LDA。更多内容参考文章6.
参考文章
1、http://www.cnblogs.com/openeim/p/3921835.html
2、http://www.cnblogs.com/skyme/p/4651331.html(HMM介绍)
3、http://blog.csdn.net/app_12062011/article/details/50408664#t6(HMM在自然语言处理中的应用详细介绍)
4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog
5、http://blog.csdn.net/daringpig/article/details/8072794
6、http://blog.csdn.net/huagong_adu/article/details/7937616(LDA与TF-IDF的区别)
相关文章推荐
- 用Python从零实现贝叶斯分类器的机器学习的教程
- My Machine Learning
- 机器学习---学习首页 3ff0
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- 反向传播(Backpropagation)算法的数学原理
- 关于SVM的那点破事
- 也谈 机器学习到底有没有用 ?
- TensorFlow人工智能引擎入门教程之九 RNN/LSTM循环神经网络长短期记忆网络使用
- TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
- TensorFlow人工智能引擎入门教程所有目录
- 如何用70行代码实现深度神经网络算法
- 量子计算机编程原理简介 和 机器学习
- 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
- 已经证实提高机器学习模型准确率的八大方法
- 初识机器学习算法有哪些?
- 机器学习相关的库和工具
- 10个关于人工智能和机器学习的有趣开源项目
- 机器学习实践中应避免的7种常见错误
- 机器学习常见的算法面试题总结
- 不平衡数据处理技术——RUSBoost