您的位置:首页 > 其它

参数估计:最大似然估计(MLE),最大后验估计(MAP),贝叶斯估计,经验贝叶斯(Empirical Bayes)与全贝叶斯(Full Bayes)

2016-05-01 14:49 495 查看

参数估计:最大似然估计(MLE),最大后验估计(MAP),贝叶斯估计,经验贝叶斯(Empirical Bayes)与全贝叶斯(Full Bayes)

参数估计最大似然估计MLE最大后验估计MAP贝叶斯估计经验贝叶斯Empirical Bayes与全贝叶斯Full Bayes
参数估计

最大似然估计MLE

最大后验估计MAP

贝叶斯估计

经验贝叶斯Empirical Bayes

全贝叶斯Full Bayes

参数估计

  典型的离散型随机变量分布有二项式分布,多项式分布,泊松分布;典型的连续型随机变量分布有正态分布,拉普拉斯分布,student t 分布,帕雷托分布。它们都可以看成是参数分布,因为它们的函数形式被一小部分参数所控制。因此,给定一堆数据,我们希望用一个给定的分布去拟合实际数据分布的时候,就要估计出这些参数的值,以便能够利用分布模型来做密度估计。这就是参数估计!

  对于参数估计,一直存在两个学派的不同解决方案。一是频率学派解决方案:通过某些优化准则(比如似然函数)来选择特定参数值;二是贝叶斯学派解决方案:假定参数服从一个先验分布,通过观测到的数据,使用贝叶斯理论计算对应的后验分布且选择的先验与后验都满足共轭性质。

最大似然估计(MLE)

  最大似然估计(MLE),当给定一堆数据D\mathcal{D}且假定我们已经知道数据的分布,这个分布的参数θ\theta是固定的。MLE的目标就是找出这样一个固定的参数θ\theta,使得模型产生出观测数据的概率最大:

θˆ=argmaxθp(D|θ)\widehat{\theta}=argmax_\theta p(\mathcal{D}|\theta)

  举个栗子,我们假设抛硬币,正面朝上的次数满足二项分布,正面朝上的概率是μ\mu。现在我们抛10枚硬币,正面朝上的次数是2次,明显μ=0.2\mu=0.2。但现在我们用MLE去求解这个参数。

p(D|μ)=∏i=1nμxi(1−μ)1−xip(\mathcal{D}|\mu)=\prod_{i=1}^n \mu^{x_i} (1-\mu)^{1-x_i}

  其中x=1x=1表示正面朝上,x=0x=0表示反面朝上,n是抛硬币的次数。对数形式为:

logp(D|μ)=log(∏i=1nμxi(1−μ)1−xi)=∑i=1nlog(μxi(1−μ)1−xi)=∑i=1n[logμxi+log(1−μ)1−xi]=∑i=1n[xilogμ+(1−xi)log(1−μ)]\log p(\mathcal{D}|\mu)=\log (\prod_{i=1}^n \mu^{x_i} (1-\mu)^{1-x_i})\\
=\sum_{i=1}^n \log (\mu^{x_i} (1-\mu)^{1-x_i})\\
=\sum_{i=1}^n [\log \mu^{x_i}+ \log (1-\mu)^{1-x_i}]\\
=\sum_{i=1}^n [x_i \log \mu+ (1-x_i)\log (1-\mu)]

  对参数μ\mu求导:

∂logp(D|μ)∂μ=∑i=1n∂∂μ[xilogμ+(1−xi)log(1−μ)]=∑i=1n[xi∂∂μlogμ+(1−xi)∂∂μlog(1−μ)]=1μ∑i=1nxi−11−μ∑i=1n(1−xi)\frac{\partial \log p(\mathcal{D}|\mu)}{\partial \mu}=\sum_{i=1}^n \frac{\partial }{\partial \mu}[x_i \log \mu+ (1-x_i)\log (1-\mu)]\\
=\sum_{i=1}^n [x_i \frac{\partial }{\partial \mu}\log \mu+ (1-x_i) \frac{\partial }{\partial \mu} \log (1-\mu)]\\
=\frac{1}{\mu}\sum_{i=1}^n x_i - \frac{1}{1-\mu}\sum_{i=1}^n (1-x_i)

我们另导数等于0,就可以得到:

μˆML=1n∑i=1nxi=0.2\widehat{\mu}_{ML}=\frac{1}{n}\sum_{i=1}^n x_i=0.2

最大后验估计(MAP)

  最大后验估计(MAP)是最大似然估计(MLE)的扩展并与其类似,都是假设在给定数据的情况下,分布的参数都是固定的数值。但是不同的是,MAP介绍这个参数服从一个分布,既参数取到每个值的可能性不是相等的,而是服从一个分布的。而MLE的参数是不服从分布的(或者说服从均匀分布,因此取到每一值是均可能的。)。MAP是根据贝叶斯定理先验转后验推导出来的:

θˆ=argmaxθp(θ|D)=argmaxθp(D|θ)p(θ|η)p(D)=argmaxθp(D|θ)p(θ|η)\widehat{\theta}=argmax_\theta p(\theta|\mathcal{D})\\
= argmax_\theta \frac{p(\mathcal{D}|\theta) p(\theta|\eta)}{p(\mathcal{D})}\\
=argmax_\theta p(\mathcal{D}|\theta) p(\theta|\eta)

  我们可以看到第一项p(D|θ)p(\mathcal{D}|\theta)是似然函数,而第二项p(θ|η)p(\theta|\eta)则是一个先验分布,其中η\eta是超参。

  我们回到刚才那个抛硬币的栗子,我们假设参数μ\mu的先验分布是beta分布,既:

p(θ|η)=p(μ|a,b)=Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)(b−1)p(\theta|\eta)=p(\mu|a,b)=Beta(\mu|a,b)=\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{(b-1)}

  我们对p(D|μ)Beta(μ|a,b)p(\mathcal{D}|\mu) Beta(\mu|a,b)取对数后:

L=logp(D|μ)Beta(μ|a,b)=logp(D|μ)+logBeta(μ|a,b)\mathcal{L}=\log p(\mathcal{D}|\mu) Beta(\mu|a,b) = \log p(\mathcal{D}|\mu) + \log Beta(\mu|a,b)

  求导:

∂L∂μ=∂logp(D|μ)∂μ+∂logBeta(μ|a,b)∂μ\frac{\partial \mathcal{L}}{\partial \mu}= \frac{\partial \log p(\mathcal{D}|\mu)}{\partial \mu} + \frac{\partial \log Beta(\mu|a,b)}{\partial \mu}

  我们要让导数等于零,其中第一项求导的结果在上面已经求得,我现在只需要知道第二项的导数的表达式:

∂logBeta(μ|a,b)∂μ=∂∂μlog[Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)(b−1)]=∂∂μlogΓ(a+b)Γ(a)Γ(b)+∂∂μlogμa−1(1−μ)(b−1)=0+(a−1)∂∂μlogμ+(b−1)∂∂μlog(1−μ)=a−1μ−b−11−μ\frac{\partial \log Beta(\mu|a,b)}{\partial \mu} =\frac{\partial }{\partial \mu} \log [\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{(b-1)}]\\
=\frac{\partial }{\partial \mu} \log \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} + \frac{\partial }{\partial \mu} \log \mu^{a-1}(1-\mu)^{(b-1)}\\
=0+(a-1) \frac{\partial }{\partial \mu}\log{\mu}+(b-1) \frac{\partial }{\partial \mu}\log{(1-\mu)}\\
=\frac{a-1}{\mu}-\frac{b-1}{1-\mu}

  所以:

∂L∂μ=1μ∑i=1nxi−11−μ∑i=1n(1−xi)+a−1μ−b−11−μ\frac{\partial \mathcal{L}}{\partial \mu}=\frac{1}{\mu}\sum_{i=1}^n x_i - \frac{1}{1-\mu}\sum_{i=1}^n (1-x_i) + \frac{a-1}{\mu}-\frac{b-1}{1-\mu}

  另导数等于0,求得:

μˆMAP=1n∑ni=1xi+a−1n+a+b−2\widehat{\mu}_{MAP}=\frac{\frac{1}{n}\sum_{i=1}^n x_i+a-1}{n+a+b-2}

其中a与b根据人的经验给定,比如我们认为一枚均匀硬币正反两面朝上的概率都是相等的,那么我们就可以假设a=b=0.5a=b=0.5,这样爱一定程度上可以防止因为数据不足导致训练出的模型参数太差。

贝叶斯估计

  贝叶斯估计是最大后验估计(MAP)的进一步扩展,和MAP一样,也认为参数不是固定的,都假设参数服从一个先验分布。但是MAP是直接估计出参数的值,而贝叶斯估计是估计出参数的分布,这就是贝叶斯与MLE与MAP最大的不同。定义如下

  现在我们要求的就不再是后验概率,而是p(D)p(\mathcal{D}),既观察到evidence的概率。当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。求得一个新的值xˆ\widehat{x}出现的概率:

p(xˆ|D)=∫p(xˆ|θ)p(θ|D)dθ=∫p(xˆ|θ)p(D|θ)p(θ|η)p(D)dθp(\widehat{x}|\mathcal{D})=\int p(\widehat{x}|\theta)p(\theta|\mathcal{D})d \theta\\
=\int p(\widehat{x}|\theta)\frac{p( \mathcal{D}|\theta)p(\theta|\eta)}{p(\mathcal{D})}d \theta

  上面的公式也就是贝叶斯估计的核心了,它把类条件概率密度p(xˆ|θ)p(\widehat{x}|\theta)与未知参数的后验概率密度p(θ|D)p(\theta|\mathcal{D})联系起来了 。注意,此积分不再等于1,这也是贝叶斯估计与最大后验估计最大的区别了。再说简单点,就是贝叶斯估计使用贝叶斯定理去估计参数的后验概率密度:

p(θ|D)=p(D|θ)p(θ|η)p(D)=p(D|θ)p(θ|η)∫θp(D|θ)p(θ|η)dθp(\theta|\mathcal{D}) =\frac{p( \mathcal{D}|\theta)p(\theta|\eta)}{p(\mathcal{D})}=\frac{p( \mathcal{D}|\theta)p(\theta|\eta)}{\int_\theta p( \mathcal{D}|\theta)p(\theta|\eta) d \theta}

  还是来看下抛硬币的栗子,设n(1)n^{(1)}是正面朝上的总次数n(0)n^{(0)}是反面朝上的总次数,1B(a,b)=Γ(a+b)Γ(a)Γ(b)\frac{1}{B(a,b)}=\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)},且B函数有 的一个性质是,且在待会的推导中会用到B(p,q)=∫10xp−1(1−x)q−1dxB(p,q)=\int_0^1 x^{p-1}(1-x)^{q-1} dx。现在根据贝叶斯估计 估计参数μ\mu的分布:

p(μ|D,a,b)=p(D|μ)p(μ|a,b)∫10p(D|μ′)p(μ′|a,b)dμ′=p(D|μ)Beta(μ|a,b)∫10p(D|μ′)Beta(μ′|a,b)dμ′=(∏ni=1μxi(1−μ)1−xi)(Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)(b−1))B(n(1),n(0))=(μn(1)(1−μ)n(0))(B(a,b)μa−1(1−μ)(b−1))B(n(1),n(0))=μn(1)+a−1(1−μ)n(0)+b−1B(n(1)+a,n(0)+b)=Beta(μ|n(1)+a,n(0)+b)p(\mu|\mathcal{D},a,b)=\frac{p(\mathcal{D}|\mu)p(\mu|a,b)}{\int _0^1 p(\mathcal{D}|\mu')p(\mu'|a,b) d \mu'}\\
=\frac{p(\mathcal{D}|\mu)Beta(\mu|a,b)}{\int _0^1 p(\mathcal{D}|\mu')Beta(\mu'|a,b) d \mu'}\\
=\frac{(\prod_{i=1}^n \mu^{x_i} (1-\mu)^{1-x_i}) (\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{(b-1)})}{B(n^{(1)},n^{(0)})}\\
=\frac{( \mu^{n^{(1)}} (1-\mu)^{n^{(0)}}) ( B(a,b)\mu^{a-1}(1-\mu)^{(b-1)})}{B(n^{(1)},n^{(0)})}\\
=\frac{\mu^{n^{(1)}+ a- 1}(1-\mu)^{n^{(0)} + b-1} }{B(n^{(1)}+a,n^{(0)}+b)}\\
=Beta(\mu|n^{(1)}+ a,n^{(0)}+ b)

根据Beta函数 期望和方差公式,我们可以得到参数的期望 方差是:

E[μ]=n(1)+an(1)+a+n(0)+b=2+a10+a+bE[\mu]=\frac{n^{(1)}+ a}{n^{(1)}+ a +n^{(0)}+ b }=\frac{2 +a }{10 + a+ b}

var[μ]=(n(1)+a)(n(0)+b)(n(1)+a+n(0)+b)2(n(1)+a+n(0)+b+1)=(2+a)(8+b)(10+a+b)2(11+a+b)var[\mu]=\frac{(n^{(1)}+ a)(n^{(0)}+ b)}{(n^{(1)}+ a + n^{(0)}+ b)^2 (n^{(1)}+ a + n^{(0)}+ b + 1) }\\
=\frac{(2+a)(8+b)}{(10+a+b)^2(11+a+b)}

  贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。理论上,它看起来很完美,但在实际中,它并不能直接利用,它需要知道证据的确切分布概率,而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。

经验贝叶斯(Empirical Bayes)

  经验贝叶斯(Empirical Bayes or ML-Ⅱ)也是计算参数的分布而不是值,但是它是通过计算出分布的超参来确定函数的分布的。

ηˆ=argmaxη∫p(D|θ)p(θ|η)dθ=argmaxηp(D|η)\widehat{\eta}=argmax_\eta \int p(\mathcal{D}|\theta) p(\theta|\eta)d \theta=argmax_\eta p(\mathcal{D}|\eta)

全贝叶斯(Full Bayes)

  全贝叶斯(Full Bayes)就假设参数的参数都是服从一定分布的。。。

p(θ,η|D)∝p(D|θ)p(θ|η)p(η)p(\theta,\eta|\mathcal{D}) \propto p(\mathcal{D}|\theta)p(\theta|\eta)p(\eta)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: