你应该掌握的四种参数估计技术
2015-08-22 16:13
381 查看
所谓估计
概率学上,对未知的概率密度函数进行估计有两种方法:参数估计和非参数估计。非参数估计是不假定数学模型,直接利用已知类别的学习样本先验知识估计数学模型。常用的方法由直方图方法、神经网络方法、Parzen窗法和KnK_n近邻法。而参数估计则是先假定研究问题具有某种数学模型,如正态分布、二项分布等,再利用已知类别的学习样本,估计模型里的参数。常用的方法有距估计、最大似然估计、最大后验估计和贝叶斯估计。本文主要介绍四种常用的参数估计技术。
参数估计
1. 距估计
用样本矩作为相应总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。用数学公式描述矩估计的过程为:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪μ1=μ1(θ1,θ2,...,θk)μ2=μ2(θ1,θ2,...,θk)......μk=μk(θ1,θ2,...,θk)⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪
\left\{
\begin{matrix}
\mu_1=\mu_1(\theta_1,\theta_2,...,\theta_k) \\
\mu_2=\mu_2(\theta_1,\theta_2,...,\theta_k) \\
... ...\\
\mu_k=\mu_k(\theta_1,\theta_2,...,\theta_k)
\end{matrix}
\right\}
从中解出参数
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪θ1=θ1(μ1,μ2,...,μk)θ2=θ2(μ1,μ2,...,μk)......θk=θk(μ1,μ2,...,μk)⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪
\left\{
\begin{matrix}
\theta_1=\theta_1(\mu_1,\mu_2,...,\mu_k) \\
\theta_2=\theta_2(\mu_1,\mu_2,...,\mu_k) \\
... ...\\
\theta_k=\theta_k(\mu_1,\mu_2,...,\mu_k)
\end{matrix}
\right\}
其中,θ1,θ2,...,θk\theta_1,\theta_2,...,\theta_k是k个待估参数, μ1,μ2,...,μk\mu_1,\mu_2,...,\mu_k是总体k阶矩。先用已知样本,计算k阶样本矩,公式为:
Al=∑Ni=1XliN
A_l=\frac {\sum_{i=1}^NX_i^l} {N}
然后用计算得到的k阶样本矩来作为对总体矩的估计,带入方程得到对应的矩估计:
θ¯l=θi(A1,A2,...,Ak)
\overline\theta_l=\theta_i(A_1,A_2,...,A_k)
2. 最大似然估计(MLE)
样本X1,X2,...,XnX_1,X_2,...,X_n来自总体X,总体的概率密度为P{X=x}=p(x;θ)P\{X=x\}=p(x;\theta)或f(x;θ)f(x;\theta)。其中θ∈Θ\theta\in\Theta的形式已知,θ\theta为待估参数。得到其似然函数为:
L(θ)=L(x1,x2,...,xn;θ)=∏i=1nf(xi;θ)
L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^nf(x_i;\theta)
那么,当L(x1,x2,...,xn;θ)L(x_1,x_2,...,x_n;\theta)在θ∈Θ\theta\in\Theta中取得最大值时,即公式描述为:
L(x1,x2,...,xn;θ¯)=maxθ∈ΘL(x1,x2,...,xn;θ)
L(x_1,x_2,...,x_n;\overline\theta)=max_{\theta\in\Theta} L(x_1,x_2,...,x_n;\theta)
θ¯\overline \theta就是θ\theta的最大似然估计θ¯(x1,x2,...,xn)\overline\theta(x_1,x_2,...,x_n)。在应用中常常采用对数形式给出对数似然方程,在计算中,令dL(θ)dθ=0\frac {dL(\theta)}{d\theta}=0或者dlogL(θ)dθ=0\frac {d\log L(\theta)}{d\theta}=0,得到最大值处的θ\theta就是最大似然估计。
3. 最大后验估计(MAP)
最大似然估计没有考虑θ\theta的概率分布,或者认为θ\theta的概率分布在θ∈Θ\theta\in\Theta上式均匀分布的。在贝叶斯学派看来,θ\theta也是随机变量,有着一定的先验概率。因此如果不加以考虑,估计结果会出现较大的误差。最大后验估计的表达式为:
p(θ|x1,x2,...,xn)=p(x1,x2,...,xn|θ)×p(θ)∑i{p(x1,x2,...,xn|θi)×p(θi)}=L(x1,x2,...,xn|θ)×p(θ)const
p(\theta|x_1,x_2,...,x_n)=\frac {p(x_1,x_2,...,x_n|\theta) \times p(\theta)} {\sum_i\{p(x_1,x_2,...,x_n|\theta_i)\times p(\theta_i)\}}=\frac{L(x_1,x_2,...,x_n|\theta)\times p(\theta)}{const}
公式可以等效为:
后验概率=(似然度×先验概率)标准化常量=标准似然度×先验概率
后验概率=\frac{(似然度\times 先验概率)}{标准化常量}=标准似然度\times 先验概率
4. 贝叶斯估计
贝叶斯估计也是基于后验概率公式,但引入了损失函数作为判断的标准。贝叶斯估计得一般步骤为
选择先验概率分布,设为π(θ)\pi(\theta)
确定似然函数。
确定参数θ\theta的后验分布。
选择损失函数。
引入一个非负函数,记为loss(θ^,θ)loss(\hat\theta,\theta)来刻画参数真实值θ\theta与估计值θ^\hat\theta的差距严重程度,称为损失函数。常用的损失函数有:平方误差损失函数
估计参数。
根据选择的损失函数的期望误差最小值对应的解θ^\hat\theta作为参数的贝叶斯估计值。以平方误差损失函数为例,贝叶斯估计给定X时的条件期望为:
θ^=E[θ|X]=∫θp(θ|X)dθ
\hat\theta=E[\theta|X]=\int\theta p(\theta|X)d\theta
2015-8-22
艺少
概率学上,对未知的概率密度函数进行估计有两种方法:参数估计和非参数估计。非参数估计是不假定数学模型,直接利用已知类别的学习样本先验知识估计数学模型。常用的方法由直方图方法、神经网络方法、Parzen窗法和KnK_n近邻法。而参数估计则是先假定研究问题具有某种数学模型,如正态分布、二项分布等,再利用已知类别的学习样本,估计模型里的参数。常用的方法有距估计、最大似然估计、最大后验估计和贝叶斯估计。本文主要介绍四种常用的参数估计技术。
参数估计
1. 距估计
用样本矩作为相应总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。用数学公式描述矩估计的过程为:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪μ1=μ1(θ1,θ2,...,θk)μ2=μ2(θ1,θ2,...,θk)......μk=μk(θ1,θ2,...,θk)⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪
\left\{
\begin{matrix}
\mu_1=\mu_1(\theta_1,\theta_2,...,\theta_k) \\
\mu_2=\mu_2(\theta_1,\theta_2,...,\theta_k) \\
... ...\\
\mu_k=\mu_k(\theta_1,\theta_2,...,\theta_k)
\end{matrix}
\right\}
从中解出参数
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪θ1=θ1(μ1,μ2,...,μk)θ2=θ2(μ1,μ2,...,μk)......θk=θk(μ1,μ2,...,μk)⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪
\left\{
\begin{matrix}
\theta_1=\theta_1(\mu_1,\mu_2,...,\mu_k) \\
\theta_2=\theta_2(\mu_1,\mu_2,...,\mu_k) \\
... ...\\
\theta_k=\theta_k(\mu_1,\mu_2,...,\mu_k)
\end{matrix}
\right\}
其中,θ1,θ2,...,θk\theta_1,\theta_2,...,\theta_k是k个待估参数, μ1,μ2,...,μk\mu_1,\mu_2,...,\mu_k是总体k阶矩。先用已知样本,计算k阶样本矩,公式为:
Al=∑Ni=1XliN
A_l=\frac {\sum_{i=1}^NX_i^l} {N}
然后用计算得到的k阶样本矩来作为对总体矩的估计,带入方程得到对应的矩估计:
θ¯l=θi(A1,A2,...,Ak)
\overline\theta_l=\theta_i(A_1,A_2,...,A_k)
2. 最大似然估计(MLE)
样本X1,X2,...,XnX_1,X_2,...,X_n来自总体X,总体的概率密度为P{X=x}=p(x;θ)P\{X=x\}=p(x;\theta)或f(x;θ)f(x;\theta)。其中θ∈Θ\theta\in\Theta的形式已知,θ\theta为待估参数。得到其似然函数为:
L(θ)=L(x1,x2,...,xn;θ)=∏i=1nf(xi;θ)
L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^nf(x_i;\theta)
那么,当L(x1,x2,...,xn;θ)L(x_1,x_2,...,x_n;\theta)在θ∈Θ\theta\in\Theta中取得最大值时,即公式描述为:
L(x1,x2,...,xn;θ¯)=maxθ∈ΘL(x1,x2,...,xn;θ)
L(x_1,x_2,...,x_n;\overline\theta)=max_{\theta\in\Theta} L(x_1,x_2,...,x_n;\theta)
θ¯\overline \theta就是θ\theta的最大似然估计θ¯(x1,x2,...,xn)\overline\theta(x_1,x_2,...,x_n)。在应用中常常采用对数形式给出对数似然方程,在计算中,令dL(θ)dθ=0\frac {dL(\theta)}{d\theta}=0或者dlogL(θ)dθ=0\frac {d\log L(\theta)}{d\theta}=0,得到最大值处的θ\theta就是最大似然估计。
3. 最大后验估计(MAP)
最大似然估计没有考虑θ\theta的概率分布,或者认为θ\theta的概率分布在θ∈Θ\theta\in\Theta上式均匀分布的。在贝叶斯学派看来,θ\theta也是随机变量,有着一定的先验概率。因此如果不加以考虑,估计结果会出现较大的误差。最大后验估计的表达式为:
p(θ|x1,x2,...,xn)=p(x1,x2,...,xn|θ)×p(θ)∑i{p(x1,x2,...,xn|θi)×p(θi)}=L(x1,x2,...,xn|θ)×p(θ)const
p(\theta|x_1,x_2,...,x_n)=\frac {p(x_1,x_2,...,x_n|\theta) \times p(\theta)} {\sum_i\{p(x_1,x_2,...,x_n|\theta_i)\times p(\theta_i)\}}=\frac{L(x_1,x_2,...,x_n|\theta)\times p(\theta)}{const}
公式可以等效为:
后验概率=(似然度×先验概率)标准化常量=标准似然度×先验概率
后验概率=\frac{(似然度\times 先验概率)}{标准化常量}=标准似然度\times 先验概率
4. 贝叶斯估计
贝叶斯估计也是基于后验概率公式,但引入了损失函数作为判断的标准。贝叶斯估计得一般步骤为
选择先验概率分布,设为π(θ)\pi(\theta)
确定似然函数。
确定参数θ\theta的后验分布。
选择损失函数。
引入一个非负函数,记为loss(θ^,θ)loss(\hat\theta,\theta)来刻画参数真实值θ\theta与估计值θ^\hat\theta的差距严重程度,称为损失函数。常用的损失函数有:平方误差损失函数
估计参数。
根据选择的损失函数的期望误差最小值对应的解θ^\hat\theta作为参数的贝叶斯估计值。以平方误差损失函数为例,贝叶斯估计给定X时的条件期望为:
θ^=E[θ|X]=∫θp(θ|X)dθ
\hat\theta=E[\theta|X]=\int\theta p(\theta|X)d\theta
2015-8-22
艺少
相关文章推荐
- Parallel Programming in Python
- Memcached vs. MongoDB vs. Redis Comparison
- [NOIP2011]选择客栈
- sql server中触发器
- Android实现网络多线程文件下载
- 重学C++ (二)
- (zhuan)路径、描边与填充
- Android四大组件之Activity复习笔记
- 04-树9. Path in a Heap (25) -- 小堆树-利用其性质
- FastJSON应用前测试
- bfs模版
- OCiOS开发:音频播放器 AVAudioPlayer
- UVa:1610 Party Games(字符串处理)
- C++builder的文件读写操作总结(3)
- Java进阶06 容器
- 揭开私有继承的面纱
- 线段树维护区间的和和单点更新-HDU1166-敌兵布阵
- hdu 1698 Just a Hook(线段树成段更新+延迟标记).
- [python] 命令行参数
- CF268C. Beautiful Sets of Points