您的位置:首页 > 其它

信息论及其若干结论和部分证明过程

2016-05-16 21:46 323 查看
首先在介绍信息论之前,有必要提一下信息论之父,克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月30日-2001年2月26日)。他是美国著名的数学家、电子工程师、密码学家。1948年,香农发表了划时代的论文-《A Mathematical Theory of Communication》,奠定了现代信息论的基础。

引言

问题:给定两个离散分布,如何衡量他们之间的相似度?连续的随机变量,又如何衡量相似度?

答:信息论!

下面介绍信息论的一些基本概念。

熵,Entropy,在化学和热力学中是用来描述系统的混乱程度的量。香农巧妙的将其用于信息论,表示数据的混论程度。假设X是离散的随机变量,它的概率质量函数(p.m.f)p(X=si)=ai。那么随机变量X的熵定义如下:

H(X)=−∑xp(x)log2p(x)

此处熵的单位叫做比特bit。很显然,当X服从0-1分布时,H(X)=0;当X服从离散均匀分布时,H(X)=log2m

其中m为X的不同取值个数。当然,如果X是连续随机变量的话,我们就需要使用积分来替换求和。定义如下:h(X)=−∫xp(x)lnp(x)

此处熵的单位叫做纳特nat。

联合熵与条件熵

联合熵,joint entropy,是给定两个随机变量X和Y,X和Y的联合熵定义如下:

H(X,Y)=−∑x∑yp(x,y)log2p(x,y)

当X=x,Y|X=x是一个新的随机变量,称作是Y在X=x下的条件概率。其熵的定义如下:

H(Y|X=x)=−∑yp(y|x)log2p(y|x)

那么H(Y|X)的定义如下:

H(Y|X)=∑xp(x)H(Y|X=x)=−∑x∑yp(x,y)log2p(y|x)

显然,H(X,Y)=H(X)+H(Y|X)。由此,我们可以看出X与Y的联合熵是由X的熵与Y在移除X的影响下的熵的和。

互信息与相对熵

互信息,mutual information,是一种用来衡量分布间相似度的量。根据条件熵的定义可知,条件熵不具有对称性,即H(Y|X)≠H(X|Y)

但是,H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y),所以H(X)-H(X|Y)=H(Y)-H(Y|X)。我们将H(X)-H(X|Y)定义为X与Y的mutual information,数学定义为I(X;Y)。I(X:Y)的大小衡量X与Y的相似程度。不难推出,I(X;Y)=∑x∑yp(x,y)log2p(x,y)p(x)∗p(y)=I(Y;X)

根据定义可知,I(X;X)=H(X),因为I(X;X)=H(X)-H(X|X),H(X|X)=0。所以H(X)我们可以理解成是它与它自己之间的互信息,也叫做自信息,self-information。

当然,在概率论里面,有一个量用来衡量分布之间的距离,它叫做Kullback-Leibler divergence(KL距离)。对于概率质量函数分布为p(x)和q(x)的两个分布来说,他们的KL距离的定义如下:

KL(p||q)=∑xp(x)log2p(x)q(x)

KL距离有时也被称为是相对熵relative entropy。虽然KL距离被称为距离,然而它并不是一个合格的度量方法metric method。因为它不满足三角不等式和对称性。

下面给出一些基本定理的证明:

1、KL(p||q)>0,对于任意的分布p和q。

证明:



2、KL(p||q)=0,iff p(x)=q(x),对于任意的x

证明:



3、在所有均值存在,方差一定的分布中,高斯分布的熵最大

证明:hint:可以借助KL距离恒正性,即假设该任意满足的分布时q,高斯分布为p,则KL(q||p)=-H(q)+CE(q,p)。

在后续的博文中会给出证明过程。感兴趣的小伙伴也可以自己去证明.

4、对于均匀分布,若区间为[a,b],则熵为ln(b-a)

5、

,则


结语

信息论,博大精深,在机器学习,模式识别等领域都有十分广泛的应用。仅以此博文记录自己的学习过程。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息