最大似然估计
2017-04-25 22:51
204 查看
假设随机投掷一枚图钉,投掷的结果为X,X为随机变量,取值为{0, 1}
上述表格中仅有1个独立的参数θ
现在重复进行了6次实验,得到数据集D={1,0,1,1,0,1}
给定参数θ,数据集D发生的可能性为条件概率P(D∣∣θ),称为θ的似然(likelihood),记作
L(θ∣∣D)=P(D∣∣θ)
D是已知的,θ是未知的,因此L(θ∣∣D)是关于θ的函数
对于上述观测到的数据集D={1,0,1,1,0,1},当θ=0时,显然D是不可能发生的,即P(D∣∣θ=0)=0,而当θ=13时,对应的观测数据集D是最“合理”的,即P(D∣∣θ=13)的值最大,这就是最大似然估计,寻找一个最优的参数θ∗,使得L(θ∣∣D)取最大值
θ∗=argmaxθL(θ∣∣D)
设数据集D由m个样本组成,即D={D1,D2,...,Dm},在最大似然估计中,需要做2个假设
假设1,各次实验相互独立,即P(D∣∣θ)=∏m1P(Di∣∣θ)
假设2,每个样本Di的条件概率P(Di∣∣θ)相同,即P(Di=0∣∣θ)=θ,P(Di=1∣∣θ)=1−θ
上述2个假设统称为独立同分布(i.i.d)
X的取值 | 0 | 1 |
---|---|---|
概率 | θ | 1−θ |
现在重复进行了6次实验,得到数据集D={1,0,1,1,0,1}
给定参数θ,数据集D发生的可能性为条件概率P(D∣∣θ),称为θ的似然(likelihood),记作
L(θ∣∣D)=P(D∣∣θ)
D是已知的,θ是未知的,因此L(θ∣∣D)是关于θ的函数
对于上述观测到的数据集D={1,0,1,1,0,1},当θ=0时,显然D是不可能发生的,即P(D∣∣θ=0)=0,而当θ=13时,对应的观测数据集D是最“合理”的,即P(D∣∣θ=13)的值最大,这就是最大似然估计,寻找一个最优的参数θ∗,使得L(θ∣∣D)取最大值
θ∗=argmaxθL(θ∣∣D)
设数据集D由m个样本组成,即D={D1,D2,...,Dm},在最大似然估计中,需要做2个假设
假设1,各次实验相互独立,即P(D∣∣θ)=∏m1P(Di∣∣θ)
假设2,每个样本Di的条件概率P(Di∣∣θ)相同,即P(Di=0∣∣θ)=θ,P(Di=1∣∣θ)=1−θ
上述2个假设统称为独立同分布(i.i.d)
相关文章推荐
- 最大似然估计与最大后验概率的区别与联系
- 最大似然估计_基本知识回顾
- 最大似然估计 (MLE)与 最大后验概率(MAP)在机器学习中的应用
- 最大似然估计(MLE)和最大后验概率(MAP)
- 【转载】参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE)
- 最大似然估计
- 参数估计:最大似然估计MLE
- 理解最大似然估计
- 最大似然估计
- 文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
- 最大似然估计与贝叶斯参数估计
- 最大似然估计MLE与贝叶斯估计
- 贝叶斯思想以及与最大似然估计、最大后验估计的区别(转)
- 最大后验估计和最大似然估计
- 矩估计和最大似然估计关系
- 最大似然估计
- 最大似然估计VS最大后验概率估计,logistic regression VS Bayes Classification
- 模式分类对于最大似然参数估计与贝叶斯参数估计的一些理解
- 最大似然估计
- [转]语音识别中区分性训练(Discriminative Training)和最大似然估计(ML)的区别