您的位置:首页 > 其它

熵简介

2017-04-17 17:14 1036 查看

如果X为一个离散变量,则可以根据以下式子计算熵

H(X)=−∑x∈Rp(x)log2p(x)

其中约定0log0=0,该公式定义的熵的单位为二进制位(bit)。该公式可以理解为描述一个随机变量的不确定性。熵越大,不确定性越大。

联合熵&条件熵

如果X,Y是一对离散型随机变量X,Y∼p(x,y),则X,Y的联合熵H(X,Y)定义为

H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)

实际上描述的是表达一对随机变量平均所需要的信息量。

在给定X的情况下,随机变量Y的条件熵定义为

H(Y|X)=∑x∈Xp(x)H(Y|X)=−∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)=−∑x∈X∑y∈Yp(y,x)logp(y|x)

将H(X,Y)展开,可得

H(X,Y)=−∑x∈X∑y∈Yp(x,y)log[p(y|x)p(x)]=−∑x∈X∑y∈Yp(x,y)[logp(y|x)+logp(x)]=−∑x∈X∑y∈Yp(x,y)logp(y|x)−∑x∈X∑y∈Yp(x,y)logp(x)=H(Y|X)+H(X)

由此可得熵的链式规则,

H(X1,X2,...,Xn)=H(X1)+H(X2|X1)+...+H(Xn|X1,...,Xn−1)

互信息

I(X,Y)=H(Y)−H(Y|X)

反映的是得到X的信息之后,Y的不确定性减少的程度。

相对熵

相对熵也被称为Kullback-Leibler距离,即KL距离,衡量的是相同事件空间中的两个概率分布的差异的测度。其定义为

D(p(x)||q(x))=∑x∈Xp(x)logp(x)q(x),即期望D(p(x)||q(x))=Ep(logp(x)q(x))

可知当两个随机分布完全相同时,其相对熵为0,当差别增加时,其相对熵也增加。

通过KL距离的表示,互信息也可以表示为联合分布与独立性的差距,即

I(X,Y)=D(p(x,y)||p(x)p(y))

交叉熵

交叉熵是用来衡量估计模型与真实概率之间的差距。

如果一个随机变量X∼p(x),q(x)用于近似p(x)的分布,那么变量X与模型q之间的交叉熵表示为

H(X,q)=H(X)+D(p||q)=−∑xp(x)logq(x)=EP(log1q(x))




本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息