softmax交叉熵与最大似然估计
2017-09-16 21:11
429 查看
其实我们常用的 softmax 交叉熵损失函数,和 最大似然估计是等价的。
首先来看 softmax 交叉熵目标函数是什么样子的: 对于N个样本
obj=−∑nNy(n)jlogf(x(n);w)j=−∑nNlogf(x(n);w)j
j: 第 n 个样本属于 第 j 类, f 代表神经网络。
如果用最大似然估计呢?即:最大化已出现的样本的概率
objlogobj=∏nNp(y(n)|f(x(n);w))=∑nNlogp(y(n)|f(x(n);w))=∑nNlogf(x(n);w)j
最大化上式等价于最小化 负的上式,所以和 softmax 交叉熵是等价的。
所以,softmax 交叉熵也是想 最大化 已出现样本的概率。
首先来看 softmax 交叉熵目标函数是什么样子的: 对于N个样本
obj=−∑nNy(n)jlogf(x(n);w)j=−∑nNlogf(x(n);w)j
j: 第 n 个样本属于 第 j 类, f 代表神经网络。
如果用最大似然估计呢?即:最大化已出现的样本的概率
objlogobj=∏nNp(y(n)|f(x(n);w))=∑nNlogp(y(n)|f(x(n);w))=∑nNlogf(x(n);w)j
最大化上式等价于最小化 负的上式,所以和 softmax 交叉熵是等价的。
所以,softmax 交叉熵也是想 最大化 已出现样本的概率。
相关文章推荐
- 最大似然估计学习总结
- 机器学习:最大似然估计与最大后验概率估计
- 文本语言模型的参数估计方法--最大似然估计、MAP、贝叶斯估计
- 最大似然估计与最小二乘的解释
- 最大似然估计学习
- 文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
- 参数估计-最大似然估计、MAP及贝叶斯估计
- [转] 最大似然估计
- 最大似然估计(MLE)和最大后验概率(MAP)
- 最大似然估计
- 最小二乘与最大似然估计之间的关系
- 最大似然估计与最大后验概率的区别与联系
- 最大似然估计log likelihood
- (常用算法2)矩估计与最大似然估计
- 最大似然估计、MAP、贝叶斯估计
- 最大似然估计与meanshift
- 补充资料——自己实现极大似然估计(最大似然估计)MLE
- 机器学习之--最大似然估计
- 最大似然估计_基本知识回顾