条件随机场(CRF)和隐马尔科夫模型(HMM)
2018-03-04 14:12
204 查看
转载自机器不学习(2018-02-28)的回答
CRF是一个feature-based模型。你实际用的时候可以把feature放到node或者边上面。CRF只是提供了一套体系让你来做带关系的feature模型。相比之下HMM model的是state之间的概率,对于所有的state-state的transition都要学一个probability。如果把这部分feature化,变成一个参数模型的话那就回到CRF了。CRF和HMM都有全局最优。这个全局最优和两者的区别是两件事情。你写下两者的loss function就能看到两个都是convex的,所以存在全局最优解。然后如果是sequence或者tree的结构的话,都可以用DP+EM来优化,从而得到全局最优解。但是如果结构中有环的话就可能需要近似解了。所以总体来说,两者区别在于是否是feature化了,全局最优是看是否loss function是convex的,然后有没有精确解取决于结构。这是三个不同的概念,分属model design(判别式生成式etc),凸优化,和概率图模型的inference三部分知识体系。看图说话吧:1. 一图流,最大区别就是一个是Generative Model,一个是Discriminative Model,而CRF并不止Linear-Chain这种形式(类似于HMM),既然题主已经知道就不再赘述了。
![](http://p3.pstatp.com/large/66bc000421997762d01a)
2. 全局最优体现在训练的时候,我们用最大似然法做参数估计,所以要在训练集上面最大化对数似然函数L:
![](http://p9.pstatp.com/large/66b9000606d875a8619b)
一般来讲,我们最后还要加上一项正则化惩罚项来防止overfitting。公式可以重写为:
![](http://p1.pstatp.com/large/66bd00006b731bdcb440)
好了,现在我们将对数似然函数拆成A,B和C三部分,B属于Normalization,C属于Regularization。然后分别对他们求关于Lambda-k(就是参数)的偏微分。针对A:
![](http://p3.pstatp.com/large/66be00003d0e909918af)
针对B:
![](http://p1.pstatp.com/large/66bb00041fb0b9beaec7)
针对C:
![](http://p3.pstatp.com/large/66bc0004219aea5a995a)
所以,整个对数似然函数,其实是一个Concave函数,第一项A是线性的,第二项B属于Normalization,不会改变其Concave的性质,最后一项C也是Concave的,所以ABC三项加起来就是整个对数使然函数都是Concave的,而在最优化中,若函数是Concave的,那么每个局部最优都是全局最优,同时加上正则化项可以令对数似然函数严格Concave,意味着只有一个global optimum。Reference:1. Classical Probabilistic Models and Conditional Random Fields2. An Introduction to Conditional Random Fields for Relational Learning
CRF是一个feature-based模型。你实际用的时候可以把feature放到node或者边上面。CRF只是提供了一套体系让你来做带关系的feature模型。相比之下HMM model的是state之间的概率,对于所有的state-state的transition都要学一个probability。如果把这部分feature化,变成一个参数模型的话那就回到CRF了。CRF和HMM都有全局最优。这个全局最优和两者的区别是两件事情。你写下两者的loss function就能看到两个都是convex的,所以存在全局最优解。然后如果是sequence或者tree的结构的话,都可以用DP+EM来优化,从而得到全局最优解。但是如果结构中有环的话就可能需要近似解了。所以总体来说,两者区别在于是否是feature化了,全局最优是看是否loss function是convex的,然后有没有精确解取决于结构。这是三个不同的概念,分属model design(判别式生成式etc),凸优化,和概率图模型的inference三部分知识体系。看图说话吧:1. 一图流,最大区别就是一个是Generative Model,一个是Discriminative Model,而CRF并不止Linear-Chain这种形式(类似于HMM),既然题主已经知道就不再赘述了。
2. 全局最优体现在训练的时候,我们用最大似然法做参数估计,所以要在训练集上面最大化对数似然函数L:
一般来讲,我们最后还要加上一项正则化惩罚项来防止overfitting。公式可以重写为:
好了,现在我们将对数似然函数拆成A,B和C三部分,B属于Normalization,C属于Regularization。然后分别对他们求关于Lambda-k(就是参数)的偏微分。针对A:
针对B:
针对C:
所以,整个对数似然函数,其实是一个Concave函数,第一项A是线性的,第二项B属于Normalization,不会改变其Concave的性质,最后一项C也是Concave的,所以ABC三项加起来就是整个对数使然函数都是Concave的,而在最优化中,若函数是Concave的,那么每个局部最优都是全局最优,同时加上正则化项可以令对数似然函数严格Concave,意味着只有一个global optimum。Reference:1. Classical Probabilistic Models and Conditional Random Fields2. An Introduction to Conditional Random Fields for Relational Learning
相关文章推荐
- 条件随机场(CRF)与隐马尔科夫模型(HMM)
- 条件随机场(CRF)相对于HMM,MEMM的优势
- 条件随机场专题(3)--说起CRF,不得不提的HMM
- 【转】统计模型之间的比较,HMM,最大熵模型,CRF条件随机场
- 使用隐马尔科夫模型(HMM)进行语音识别
- 隐马尔科夫模型(HMM)及其扩展
- 【转载】CRF条件随机场简介
- [置顶] HMM Tutorial 隐马尔科夫模型
- HMM基本原理及其实现(隐马尔科夫模型)
- 隐马尔科夫模型(HMM)详解
- HMM->MEMM->CRF
- 隐马尔科夫模型 HMM 与 语音识别 speech recognition (1):名词解释
- Markov随机场(MRF)和条件随机场(CRF)
- 隐马尔科夫模型HMM自学(1)
- 条件随机场 (CRF) 分词序列谈之一 - 专注自然语言技术 - 51CTO技术博客
- 隐马尔科夫模型HMM的介绍以及应用
- HMM 隐马尔科夫模型
- 基于隐马尔科夫模型(HMM)的地图匹配(Map-Matching)算法
- 隐马尔科夫模型(HMM)详解
- 机器学习实战——条件随机场(CRF)