您的位置：首页 > 其它

极大似然估计

2017-05-17 18:43 120 查看

本文摘自《机器学习》周志华著清华大学出版社

本文摘自《概率论与数理统计》陈希孺著中国科学技术大学出版社

极大似然估计

定义

设总体有分布f(x;θ1,...,θk),X1,...,Xn为自这个总体中抽出的样本，则样本(X1,...,
4000
Xn)的分布（即其概率密度函数或概率函数为）

f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...θk),

记为L(x1,...,xn;θ1,...θk)。

固定θ1,...,θk，而看作x1,...,xn的函数时，L是一个概率密度函数或概率函数。可以这样理解：若L(Y1,...,Yn;θ1,...,θk)>L(X1,...,Xn;θ1,...,θk)，则在观察时出现(Y1,...,Yn)这个点的可能性要比出现(X1,...,Xn)这个点的可能性大。把这件事情反过来说，可以这样想：当已观察到X1,...,Xn时，若L(X1,...,Xn;θ′1,...,θ′k)>L(X1,...,Xn;θ″1,...,θ″k)，则被估计的参数(θ1,...,θk)是(θ′1,...,θ′k)的可能性要比它是(θ″1,...,θ″k)的可能性要大。

当X1,...,Xn固定而把L看做θ1,...,θk的函数时，它称为“似然函数”。这个名称的意义，可根据上述分析得到理解：这个函数对不同的(θ1,...,θk)取值，反映了在观察结果(X1,...,Xn)已知的条件下，(θ1,...,θk)的各种值得“似然程度”。注意，这里有些像贝叶斯公式中的推理：把观察值X1,...,Xn看成结果，而把参数值(θ1,...,θk)看成是导致这个结果的原因。现已有了结果了，要反过来推算各种原因的概率。这里，参数θ1,...,θk有一定的值（虽然未知），并非事件或随机变量，无概率可言，于是就改用“似然”这个词。

由上述分析就自然地导致如下的方法：应该用似然程度最大的那个点(θ∗1,...,θ∗k)，即满足下面条件：

L(X1,...,Xn;θ∗1,...,θ∗k)=maxL(X1,...,Xn;θ1,...,θk)θ1,...,θk 公式（1）

的(θ∗1,...,θ∗k)去做(θ1,...,θk)的估计值，因为在已得到的样本X1,...,Xn的条件下，这个“看来最像”是真参数值。这个估计(θ∗1,...θ∗n)就叫做(θ1,...,θn)的“极大似然估计”。如果要估计的是g(θ1,...,θk)，则g(θ∗1,...,θ∗n)是它的极大似然估计。因为

lnL=∑ni=1lnf(Xi;θ1,...,θk),公式（2）

且为使L达到最大，只需使lnL达到最大，故在f对θ1,...,θk存在连续的偏导数时，可建立方程组（称为似然方程组）：

∂lnL∂θi=0(i=1,...,k)公式（3）

如果这个方程组有唯一解，又能验证它是一个极大值点，则它必是使L达到最大的点，即最大似然估计。在几个常见的重要例子中，这一点不难验证。可是，在较复杂的场合，方程组（3）可以有不止一组解，求出这样的解很费计算，且不容易判定哪一个使L达到最大。

有时，函数f并不对θ1,...,θk可导，甚至f本身也不连续，这是方程组（3）就没有办法应用了，必须回归到原来的定义公式（1）中。

实例

上面讲的内容太抽象，那砸门来个例题来看看极大似然估计是如何解决问题。

考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即，我们获取一个采样x1=H,x2=T,…,x80=T并把正面的次数记下来，正面记为H，反面记为T).并把抛出一个正面的概率记为p, 抛出一个反面的概率记为1−p (因此，这里的p即相当于上边的θ). 假设我们抛出了49个正面，31 个反面，即49次H，31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为p = 1 / 3, p = 1 / 2, p = 2 / 3. 这些硬币没有标记，所以我们无法知道哪个是哪个。使用最大似然估计, 通过这些试验数据(即采样数据)，我们可以计算出哪个硬币的可能性最大。这个可能性函数取以下三个值中的一个:

P(H=49,T=31 | p=13)=(8049)(13)49×(1−13)31≈0.000

P(H=49,T=31 | p=12)=(8049)(12)49×(1−12)31≈0.012

P(H=49,T=31 | p=13)=(8049)(23)49×(1−23)31≈0.054

从上面的算式可以看出，p̂ =23时，似然函数取得最大值，为0.054。

最大似然估计在各种分布中的运用

正态分布

设X1,...,Xn是从正态总体N(μ,σ2)中抽出的样本，则似然函数为：

L=∏i=1n[(2πσ2‾‾‾‾‾√)−1exp(−12σ2(Xi−μ)2]) ,公式（4）

故，

lnL=−n2ln(2π)−n2lnσ2−12σ2∑i=1n(Xi−μ)2

求方程组（3）（把σ2作为一个整体看）。

f(x)=⎧⎩⎨⎪⎪⎪⎪∂lnL∂μ=1σ2∑i=1n(Xi−μ)=0 , ∂lnL∂σ2=−n2σ2+12σ4∑i=1n(Xi−μ)2=0

由第一式得出，

μ∗=∑i=1nXin=X¯ ,

由此带入式2中，得到σ2的解为：

σ∗2=∑i=1n(Xi−X¯)2n=m2

我们看到：μ和σ的极大似然估计μ∗和σ∗与其矩估计完全一样。在本例中，容易肯定(μ∗
33477
,σ∗)确是使似然函数L达到最大值得点。因为似然方程组只有唯一的根(μ∗,σ∗)，而这个点不可能是L的极小值点。因为由L的表达式公式（4）可知，当∣μ∣→∞或σ2→0时，L趋向于0，而L在每个点出都大于0。以下几个例子类似。

指数分布

设X1,...,Xn是从指数分布总体中抽出的样本，求参数λ的极大似然估计。有

L=∏i=1n(λe−λXi) ,

故，

lnL=nlnλ−λ∑i=1nXi ,

解方程，

∂lnL∂λ=nλ−∑i=1nXi=0 ,

得λ的极大似然估计为

λ∗=n∑i=1nXi=1X⎯⎯ ,

仍与其矩估计一样。但是在这里，极大似然估计只有一个。

均匀分布

设Xi,...,Xn是从均匀分布R(0,θ)的总体中抽出的样本，求θ的极大似然估计。

当0<Xi<θ时，Xi的密度函数为1θ，此外为0。故似然函数L为

L={θ−n ,当0<Xi<θ0 , 其他情况

对固定的X1,...,Xn，此函数为θ的间断函数，故无法使用似然方程。但此例不难直接使用定义公式（1）去解决：为使L达到最大，θ必须尽量小，但不能太小以致L为0。这个界线就在θ∗=max(X1,...,Xn)处：当θ≥θ∗时，L大于0且为θ−n；当θ<θ∗时，L为0。故唯一使L达到最大值的θ值，即θ的极大似然估计，为θ∗。

如果使用矩阵法，则因总体分布的均值为θ2，θ的矩估计为θ̂ =2X⎯⎯⎯。

柯西分布

设总体分布有密度函数

f(x,θ)=1π[1+(x−θ2)](−∞<x<∞)公式（5）

这个分布包含一个参数θ，θ可取任何实数值。这个分布叫做柯西分布，其密度作为x的函数，关于θ对称。故θ是这个分布的中位数。

现设X1,...,XN为自这个总体中抽出的样本，要估计θ。由于

∑i=1nXi−θ1+(Xi−θ)2=0,

这个方程有很多根，且求根不容易。因此，对本例而言，极大似然估计法也不是理想的方法。

为估计参数θ，有一个简答易行但考来合理的方法可用。这个方法基于θ是总体分布的中位数这个事实。既然如此，我们就要设法在样本X1,...,Xn中找到一种对应于中位数的东西。这个思想其实在矩估计法中已经使用过了，因为总体矩在样本中对应物就是样本矩。

现在把X1,...,Xn按由小到大顺序排成一列，得：

X(1)≤X(2)≤ ... ≤X(n), 公式（6）

它们称为次序统计量。既然中位数是“居中”的意思，我们就在样本中找到居中者：

m̂ =⎧⎩⎨⎪⎪X(n+1)2 ,当n为奇数时（X(n2)+X(n2+1)）/ 2 ,当n为偶数时

当n为奇数的时候，有一个居中者，为X((n+1)2)；当n为偶数，就没有一个居中者，那就把最居中的两个平均，这样定义的m̂ 叫做“样本中位数”。我们就拿m̂ 作为θ的估计。

就正态总体N(μ,σ2)而言，μ也是总体的中位数，故μ也可以用样本的中位数去估计。从这些例子中，我们看出一点：统计推断问题，往往可以从许多看来都合理的途径去考虑，并无一成不变的方法，不同解固然有优劣之分，但这种优劣也是相对于一定的准则而言，并无绝对的价值。下述情况也并非不常见：估计甲在某一准则下优于乙，而乙又在另一准则下优于甲。

注意

需要注意的是，这种参数变化的方法虽能使类条件使类条件概率估计变得相对简单，但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中，欲做出能较好接近潜在真实分布的假设，往往需在一定程度上利用关于应用任务本身的经验知识，否则若仅凭“猜测”来假设概率分布形式，很可能产生误导性的结果。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习贝叶斯分类器极大似然估计

相关文章推荐

新的分享

章节导航