您的位置：首页 > 其它

随机森林、EM、HMM、LDA

2016-05-23 16:55 246 查看

本篇简单介绍这些概念。

随机森林（Random Forest）是一种分类和回归算法，它包含了多个决策树，形成一个森林，随机森林的类别是所有决策树分类回归结果的众数决定。

由于它优点很多，适应比较广泛.

1、能够处理高维数据，不用做特征选择，自动选出那些特征重要。

2、训练速度快，分类精度高。

3、能检测到特征之间的相互影响。

4、不会产生过拟合。

期望最大化（Expectation-Maximization），也叫最大似然估计。它是一种参数估计方法。

基本思想是：参数的取值应该是使随机样本出现的概率最大。因此如果我们知道样样本的概率分布，就可以通过求使概率分布最大的参数值为最终取值。

参考文章1，已知100个男生的身高分布概率，当不知道他们的均值和方差，通过最大似然估计认为，均值和方差应该是使这个概率分布最大。

最大似然估计函数如下：

如果是连乘形式，可以求对数简化为相加形式：

求解可以是求导数为0，即牛顿法或者梯度下降法（计算机中使用）。

HMM，隐马尔科夫模型。

HMM在自然语言处理领域应用比较广泛，如汉语分词，词性标注，语音识别。

典型的隐马尔科夫模型，其下一个状态只与当前相关，与其他因素不相关。这样虽然不太正确，可能舍去了很多重要信息，但能简化模型和计算量，得出结果，因此实际中也经常用。

参考一个经典的ＨＭＭ例子，见下图。

HMM能解决三个基本问题：

1、根据观测序列和模型参数，求模型参数已知条件下的观测序列后验概率。

2、求观测序列已知情况下的状态序列最合理取值。

3、如何调整模型参数，使观测序列后验概率取值最大。

LDA（latent dirichlet allocation）叫主题模型，应用在图像分类、文本分类、主题词抽取。

是一个三层贝叶斯概率模型，包含词、主题、文档。

可以解决矩阵稀疏的问题。

是最简单的话题模型（topic model），话题模型就是发现大量文档集合的主题的算法。

可以判断两个文档的相似性和距离。是基于主题模型的语义挖掘技术，能区别两篇文章在语义上的区别，而非词频的区别。

主题模型常用算法有两种：pLSA和LDA。更多内容参考文章6.

参考文章

1、http://www.cnblogs.com/openeim/p/3921835.html

2、http://www.cnblogs.com/skyme/p/4651331.html（HMM介绍）

3、http://blog.csdn.net/app_12062011/article/details/50408664#t6（HMM在自然语言处理中的应用详细介绍）

4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog

5、http://blog.csdn.net/daringpig/article/details/8072794

6、http://blog.csdn.net/huagong_adu/article/details/7937616（LDA与TF-IDF的区别）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航