白话机器学习算法(十一) GMM
2014-03-29 22:31
162 查看
GMM就是高斯混合模型,用GMM去聚类的话,就变成了一个似然估计的问题,估计的参数就是选取每个高斯部件的概率,每个高斯各自的均值方差;
我们可以把实际数据看做由这个GMM随机数生成器产生的,N个数据就是N个观测值,数据之间独立;
根据数据找出这个模型的参数,有了模型参数,我就能简单的算出数据属于哪个高斯部件的概率最大,论文中一般都说responsibility,所以用高斯混合模型来聚类,实质就是一个参数估计问题,EM算法就是专门干这个的;
HMM也是一个参数估计问题,而且HMM跟GMM有很大的相似;
总的来说,基于概率的聚类 用到的就是两个东西 MAP(比如贝叶斯) MLE(这个就很多了,GMM GTM都是这样的),;其他的还有ME(最大熵),ICA的一种方法就是基于最大熵模型得出统计独立的各个分量;
关于EM算法,以后专门详细讨论 .
如果将GMM稍微推广下,加上一点约束,就是假定这些高斯中心位于高维空间的一个流形上,就可以把这些高斯中心映射到一个低维隐空间,我就可以将实际的数据通过后验概率映射到那个隐空间坐标上,实现数据降维,或者数据可视化,这就是GTM算法,这个算法可以在低维空间保持数据的拓扑有序,但是这个保证需要实际数据满足上面的那个假设,就是假定这些高斯中心位于高维空间的一个流形上,隐空间的维度是这个流形的本质维度才行,如果不满足,就不能完全保证这些数据的拓扑有序;
我们可以把实际数据看做由这个GMM随机数生成器产生的,N个数据就是N个观测值,数据之间独立;
根据数据找出这个模型的参数,有了模型参数,我就能简单的算出数据属于哪个高斯部件的概率最大,论文中一般都说responsibility,所以用高斯混合模型来聚类,实质就是一个参数估计问题,EM算法就是专门干这个的;
HMM也是一个参数估计问题,而且HMM跟GMM有很大的相似;
总的来说,基于概率的聚类 用到的就是两个东西 MAP(比如贝叶斯) MLE(这个就很多了,GMM GTM都是这样的),;其他的还有ME(最大熵),ICA的一种方法就是基于最大熵模型得出统计独立的各个分量;
关于EM算法,以后专门详细讨论 .
如果将GMM稍微推广下,加上一点约束,就是假定这些高斯中心位于高维空间的一个流形上,就可以把这些高斯中心映射到一个低维隐空间,我就可以将实际的数据通过后验概率映射到那个隐空间坐标上,实现数据降维,或者数据可视化,这就是GTM算法,这个算法可以在低维空间保持数据的拓扑有序,但是这个保证需要实际数据满足上面的那个假设,就是假定这些高斯中心位于高维空间的一个流形上,隐空间的维度是这个流形的本质维度才行,如果不满足,就不能完全保证这些数据的拓扑有序;
相关文章推荐
- (四)洞悉linux下的Netfilter&iptables:包过滤子系统iptable_filter
- Linux系统手动安装rzsz 软件包
- 作为面试官,告诉你们互联网公司需要什么样的人
- XML解析方式
- 使用MySQL主从服务器配置实现双机热备
- 有趣的代码: fixTypeof
- Umbraco (asp.net cms) to Drupal migration
- php-单例模式和工厂模式
- hibernate的createSQLQuery
- 对8086地址的理解.
- Abstract Factory
- 光线跟踪的 GPU 程序解读
- '\0' 占用字节数
- dede搜索结果页支持article、sql、channelartlist 等标签
- 网络技术@交换机配置
- Row Border in DataGrid 表格边框
- 如何理解 CUDA 中的 cudaMalloc() 的参数
- 最大子数组
- 有矢而发,触类旁通[内核学习的方法论]
- 如何在excel中完成 双纵坐标 柱状图的绘制 (柱子重叠的解决方法)