您的位置:首页 > 其它

“Parameter estimation for text analysis ”翻译

2017-09-18 01:31 162 查看

《Parameter estimation for text analysis 》翻译(待完善)

最近因为需要了解LDA文章,阅读了《LDA数学八卦》,里面提到了这篇文章,感觉翻译一遍会理解得更透彻,但是文字功底不好,只能作粗浅的表述,欢迎指正建议~

摘要:这篇文章展示利用离散概率分布的参数估计方法,跟文本建模非常相关。从极大似然开始,还会有贝叶斯后验估计,中心概念,如共轭分布,贝叶斯网络的先导内容。通过完整的近似推理算法的推导,详细解释LDA模型,这个近似推理算法基于Gibbs抽样,最后讨论Dirichlet超参数估计。

文本分析中的参数估计

原作者:Gregor Heinrich

简介

这篇技术讲义旨在通过回顾离散域的贝叶斯参数估计的基础内容,帮助理解基于主题的文本分析方法的内部原理,例如PLSA,LDA,计数数据的混合模型。尽管这部分基础内容在学术界被视为普遍常识,但是没有通俗的书籍或者介绍性的文章填充这样的角色:大部分一直的文本使用高斯域的例子,里面的表达并不常见。其他对于主题模型的介绍工作出于简洁性的考虑,忽略了算法的细节还有其他背景。

因此我们将在第二节利用二进制数据的一些简单例子,系统地解释参数估计的基本概念。然后我们将在第三节介绍文本领域所需的最常见的概率分布以及共轭的概念。相关的现实世界的共轭对的联合共轭性直接证明了所选分布的正确性。第四节将介绍贝叶斯网络,作为一种图形化语言通过概率模型描述系统。

有了前面的基础概念,我们在第五节阐述LDA的概念,这个模型能灵活估计文本属性。以LDA为示例,描述在贝叶斯网络中作为近似推理的方法,Gibbs抽样。然后讨论LDA的两个重要内容:第六节讨论LDA超参数的影响和估计方法,第七节分析LDA模型的查询和估计

参数估计方法

现有两个推断问题:(1)推断最能够解释变量观测值X的分布参数;(2)给定先前的观测计算新的观测的概率。前面的问题,我们称作估计问题,后面的问题称作预测或者回归问题。

X的观测值的集合可以认为是服从独立同分布。参数独立于分布。

在贝叶斯统计中,有些概率函数无处不在。它们最好被介绍为贝叶斯规则的一部分:

p(θ|X)=p(X|θ)p(θ)p(X)

公式中对应角色为:

后验=似然∗先验观测

接下来从极大似然开始解释估计方法,先验信念怎么通过最大化后验被合并,最后利用贝叶斯规则推断完整的后验分布。

极大似然估计

极大似然估计尝试找到最大化似然性的参数,

L(θ|X)等价于p(X|θ)=⋂x∈Xp(x|θ)

相当于X生成观测序列的联合概率。因为上式的乘积特性,常常使用对数似然代替更简单,两者是等价的。极大似然估计可以写作:

θ^ML=argmax∑x∈Xlogp(x|θ)

常用估计参数的方法是解下面的等式:

∂L(θ|X)∂θk=0,∀θk∈θ

给定X的观测可以计算新的观测x~的概率:

p(x~|X)=∫θ∈Θp(x~|θ)p(θ|X)dθ≈∫θ∈Θp(x~|θ~ML)p(θ|X)dθ=p(x~|θ~ML)

(我的想法:这里是依据贝叶斯网络的思想,实际上是对p(x~θ|X)中的θ求和,得到p(x~|X),另外X决定θ,θ决定x~,因此p(x~θ1|X)=p(x~|θ1)p(θ1|X))

也就是新抽取的样本期望是根据估计的参数分布。

举个例子,考虑N次伯努利实验的集合C,参数未知,譬如投掷形状不均匀的硬币。伯努利密度函数:

p(C=c|p)=pc(1−p)1−c服从B(n,p)

这里把c=1定义为头,c=0定义为尾。

构建参数p的极大似然估计可以利用对数似然表达式如下:

L=log∏i=1Np(C=ci|p)=∑i=1Nlogp(C=ci|p)=n(1)logp(C=1|p)+n(0)logp(C=0|p)=n(1)logp+n(0)log(1−p)

n(c)指伯努利实验中事件c出现的次数

极大后验估计

极大后验估计非常类似于极大似然估计,不同之处在于它允许参数的先验信念的存在,以p(θ)分布的形式来表达。这个名字来源于最大化参数的后验概率:

θ~MAP=argmaxp(θ|X)

利用贝叶斯规则,可写为:

θ~MAP=argmaxp(X|θ)p(θ)p(X)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: