熵简介
2017-04-17 17:14
1036 查看
熵
如果X为一个离散变量,则可以根据以下式子计算熵H(X)=−∑x∈Rp(x)log2p(x)
其中约定0log0=0,该公式定义的熵的单位为二进制位(bit)。该公式可以理解为描述一个随机变量的不确定性。熵越大,不确定性越大。
联合熵&条件熵
如果X,Y是一对离散型随机变量X,Y∼p(x,y),则X,Y的联合熵H(X,Y)定义为H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)
实际上描述的是表达一对随机变量平均所需要的信息量。
在给定X的情况下,随机变量Y的条件熵定义为
H(Y|X)=∑x∈Xp(x)H(Y|X)=−∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)=−∑x∈X∑y∈Yp(y,x)logp(y|x)
将H(X,Y)展开,可得
H(X,Y)=−∑x∈X∑y∈Yp(x,y)log[p(y|x)p(x)]=−∑x∈X∑y∈Yp(x,y)[logp(y|x)+logp(x)]=−∑x∈X∑y∈Yp(x,y)logp(y|x)−∑x∈X∑y∈Yp(x,y)logp(x)=H(Y|X)+H(X)
由此可得熵的链式规则,
H(X1,X2,...,Xn)=H(X1)+H(X2|X1)+...+H(Xn|X1,...,Xn−1)
互信息
I(X,Y)=H(Y)−H(Y|X)反映的是得到X的信息之后,Y的不确定性减少的程度。
相对熵
相对熵也被称为Kullback-Leibler距离,即KL距离,衡量的是相同事件空间中的两个概率分布的差异的测度。其定义为D(p(x)||q(x))=∑x∈Xp(x)logp(x)q(x),即期望D(p(x)||q(x))=Ep(logp(x)q(x))
可知当两个随机分布完全相同时,其相对熵为0,当差别增加时,其相对熵也增加。
通过KL距离的表示,互信息也可以表示为联合分布与独立性的差距,即
I(X,Y)=D(p(x,y)||p(x)p(y))
交叉熵
交叉熵是用来衡量估计模型与真实概率之间的差距。如果一个随机变量X∼p(x),q(x)用于近似p(x)的分布,那么变量X与模型q之间的交叉熵表示为
H(X,q)=H(X)+D(p||q)=−∑xp(x)logq(x)=EP(log1q(x))
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可
相关文章推荐
- 挖掘信息熵(读kmp算法有感)
- 机器学习整理的一些概念
- KL距离,Kullback-Leibler Divergence
- 货币信息高于货币价值而存在
- 机器学习相关的基本公式:从Bayes公式到cross entropy
- 决策树(一)
- 交叉熵 相对熵
- 交叉熵
- 为什么在训练神经网络时候比较适合使用交叉熵错误率,而不是分类错误率或是均方差
- 熵在计算机方向的应用(浅谈信息熵)
- 机器学习中的一些信息论 information theory
- 浅谈熵与贝叶斯
- 信息论中的各种熵
- 图像的熵、联合熵、互信息
- 信息熵
- 关于信息增益和熵
- 典型序列及信源编码的一种理解
- BP神经网络——从二次代价函数(Quadratic cost)到交叉熵(cross-entropy cost)代价函数
- TensorFlow 实战(一)—— 交叉熵(cross entropy)的定义
- 神经网络中的Softmax是如何更新参数的