概率论复习 – ML vs. MAP vs. Bayesian Inference
2016-10-11 21:44
218 查看
转自:http://www.xperseverance.net/blogs/2012/11/1396/
距离上次好好看这些概念大概半年过去了,很不幸,真的把他们忘记了。果真是不用则费,即使是简单的概念。
这次要写下来,以后再忘记则看看就容易回忆起来,事实上我现在觉得不太可能再忘记了……
参考资料:
《统计学完全教程》、《PR&ML》、《Parameter estimation for text analysis》
1. 极大似然估计(Maximum likelihood estimation)
假设有一堆独立同分布数据X1,…,Xn
,其PDF为p(x;θ),其中θ
为模型参数,则其似然函数为:
Ln(θ)=∏i=1np(Xi;θ)
而极大似然估计就是要找到参数θ
,使得似然函数的值最大。这意思就是找到一个参数θ,使得使用分布p(x;θ)来估计这一堆数据Xi
的效果最好。
为啥捏,因为假设X都是离散值的情况下,Ln(Xi;θ)
表达的含义是:从参数θ通过模型p(x;θ)产生这一堆数据的概率(把所有单个数据产生的概率乘起来就是产生这一堆数据的概率)。所以p(x;θ)=Pθ(x={Xi}),那么如果当有两个参数θ1和θ2时,Pθ1(x={Xi})>Pθ2(x={Xi}),则说明θ1更好的描述了这组数据,因此要找到一个θ
使得整似然函数的值最大!
所以只要将似然函数对θ
求导,就可以找到这样的θ
。
例子:求N次伯努利分布的最大似然估计:
Bern(x|μ)=μx(1−μ)1−x
L(X|μ)=∏i=1NμXi(1−μ)1−Xi=μS(1−μ)N−S
, 其中S=∑i=1NXi
将logL(X|μ)
对μ求导得
Sμ−N−S1−μ=0
得μ̂ N=1NS=X¯N
2. 极大后验估计(Maximum a posteriori estimation)
极大后验估计中加入了一些先验知识,它最大化的是一个后验函数。具体来说,因为贝叶斯定律:
p(θ|x)=p(x|θ)p(θ)p(x)
那么极大后验估计就是要求:
θ̂ MAP=argmaxθ p(x|θ)p(θ)=argmaxθ{∑Xilog p(Xi|θ)+log p(θ)}
可见,极大后验估计中相对于最大似然估计,多了log p(θ)
,也就是先验的影响。这一点在Beta分布的后验估计上就能看出来,由于这部分已经写在了这里,所以就不再赘述。
3. 贝叶斯推断(Bayesian Inference)
前面的MAP是一个点估计,只估计似然函数达到最大点的情况下,参数θ
的值。Bayesian inference extends the MAP approach by allowing a distribution over the parameter set
θ
instead of making a direct estimate. Not only encodes this the maximum(a posteriori) value of the data-generated parameters, but it also incorporates expectation as another parameter estimate as well as variance information as
a measure of estimation quality or confidence. ——《Parameter estimation for text analysis》
具体来说,给定数据X和需要求的参数θ
,贝叶斯推断需要求出一个具体的分布:
p(θ|X)=P(X|θ)P(θ)/P(X)
这里和MAP的区别就在于,MAP忽略了P(X)因为它是常量,对于MAP的过程:求导后再求等于0来获得最好的θ
,这个常量是没有用的。但是贝叶斯推断要的是整个p(θ|X)的分布,所以P(X)这个normalisation
term是需要被求出来的。在获得具体的分布之后,所要求的参数值可以通过估计期望或方差得到。
距离上次好好看这些概念大概半年过去了,很不幸,真的把他们忘记了。果真是不用则费,即使是简单的概念。
这次要写下来,以后再忘记则看看就容易回忆起来,事实上我现在觉得不太可能再忘记了……
参考资料:
《统计学完全教程》、《PR&ML》、《Parameter estimation for text analysis》
1. 极大似然估计(Maximum likelihood estimation)
假设有一堆独立同分布数据X1,…,Xn
,其PDF为p(x;θ),其中θ
为模型参数,则其似然函数为:
Ln(θ)=∏i=1np(Xi;θ)
而极大似然估计就是要找到参数θ
,使得似然函数的值最大。这意思就是找到一个参数θ,使得使用分布p(x;θ)来估计这一堆数据Xi
的效果最好。
为啥捏,因为假设X都是离散值的情况下,Ln(Xi;θ)
表达的含义是:从参数θ通过模型p(x;θ)产生这一堆数据的概率(把所有单个数据产生的概率乘起来就是产生这一堆数据的概率)。所以p(x;θ)=Pθ(x={Xi}),那么如果当有两个参数θ1和θ2时,Pθ1(x={Xi})>Pθ2(x={Xi}),则说明θ1更好的描述了这组数据,因此要找到一个θ
使得整似然函数的值最大!
所以只要将似然函数对θ
求导,就可以找到这样的θ
。
例子:求N次伯努利分布的最大似然估计:
Bern(x|μ)=μx(1−μ)1−x
L(X|μ)=∏i=1NμXi(1−μ)1−Xi=μS(1−μ)N−S
, 其中S=∑i=1NXi
将logL(X|μ)
对μ求导得
Sμ−N−S1−μ=0
得μ̂ N=1NS=X¯N
2. 极大后验估计(Maximum a posteriori estimation)
极大后验估计中加入了一些先验知识,它最大化的是一个后验函数。具体来说,因为贝叶斯定律:
p(θ|x)=p(x|θ)p(θ)p(x)
那么极大后验估计就是要求:
θ̂ MAP=argmaxθ p(x|θ)p(θ)=argmaxθ{∑Xilog p(Xi|θ)+log p(θ)}
可见,极大后验估计中相对于最大似然估计,多了log p(θ)
,也就是先验的影响。这一点在Beta分布的后验估计上就能看出来,由于这部分已经写在了这里,所以就不再赘述。
3. 贝叶斯推断(Bayesian Inference)
前面的MAP是一个点估计,只估计似然函数达到最大点的情况下,参数θ
的值。Bayesian inference extends the MAP approach by allowing a distribution over the parameter set
θ
instead of making a direct estimate. Not only encodes this the maximum(a posteriori) value of the data-generated parameters, but it also incorporates expectation as another parameter estimate as well as variance information as
a measure of estimation quality or confidence. ——《Parameter estimation for text analysis》
具体来说,给定数据X和需要求的参数θ
,贝叶斯推断需要求出一个具体的分布:
p(θ|X)=P(X|θ)P(θ)/P(X)
这里和MAP的区别就在于,MAP忽略了P(X)因为它是常量,对于MAP的过程:求导后再求等于0来获得最好的θ
,这个常量是没有用的。但是贝叶斯推断要的是整个p(θ|X)的分布,所以P(X)这个normalisation
term是需要被求出来的。在获得具体的分布之后,所要求的参数值可以通过估计期望或方差得到。
相关文章推荐
- 2011考研数学概率论基础复习必备知识点
- ConcurrentMap VS SynchronizedMap
- 项目分析(map复习)
- 概率论复习系列
- 在VS13上编译通过的代码放在12上编译-错误:l __dtoui3 referenced in function _event_debug_map_HT_GROW
- 【留坑】 POJ2503 注意输入输出&&几种数据结构的复习、比较(线性表建立的字典 || 树建立的字典_即Trie || hash || map)
- 翻译:MLAPP(2.2节 概率论简要回顾)
- 转~~是否有朋友能对LS,MMSE,LMMSE,ML,MAP,LMS,AR
- 今天开始概率论的复习
- Collection和Map(Java复习四)
- ConcurrentSkipListMap VS ConcurrentHashMap
- 只是随便想写点什么----概率论复习01
- ibatis resultType vs ResultMap
- Global GUI map for automation with VS.NET
- 【map练习】【map+模拟】codevs1164 统计数字题解
- vs 2003 中hash_map使用方法
- java collections - keyset() vs entrySet() in map
- VS生成Map文件
- homework3 for Bayesian inference
- jQuery map vs. each作者该解法对吗?