您的位置:首页 > 其它

浅谈信息的度量

2016-07-21 23:27 330 查看
就我个人而言觉得信息的度量是十分难量化的。也的确是这样,平日一个人说的一句话有多少信息是很难度量得到的。可是在自然语言处理中,信息度量的量化又十分重要。《数学之美》一书中吴军先生举了一个非常好的例子。他假设了一种情形,他向一个人猜测1-32号足球队伍中哪支队伍是世界杯的冠军,他如果采用五五分的方法逐步缩小范围那么需要五次就能知道哪支队伍是冠军,假设每向对方询问一次需要花费一元,那么谁是世界杯冠军这条信息则需要花费五元。而香农在他的论文“通信的数学原理”中使用比特来度量信息量。

其实在上述例子中,是可以优化的。每次的猜测不一定一定要五五分,可以将少数的夺冠热门分为一组,这样就可以大大降低猜测需要耗费的次数。当每支队伍夺冠希望不等时,香农使用了一个公式来对这种情况的信息进行度量。



其中H为信息熵,单位是比特。p1, p2....分别是这32支队伍夺冠的概率。当概率相同时,信息的熵就是5比特。而对于随机变量X,它的熵定义如下:



变量的不确定性越大熵也越大

事物往往是有许多不确定性的,这时需要引入信息I,当I>U时我们可以说不确定性被消除了,但是当I<U时,只能说这些信息消除了事物的一部分不确定性。吴军先生举了网页搜索的例子,当用户只输入某些常用关键词,会出来许多的结果,这时需要挖掘隐藏的信息以确定用户真正想要查找的信息从而给用户提供正确的网页。基于上述公式,如果我们知道一些情况Y,那么在Y条件下X的熵就是



这时可以证明,H(X)>H(X|Y),也就是二元模型的不确定性要小于一元模型。

现在来谈谈互信息的概念,互信息用于对两个信息之间的相关性进行度量,比如“天气很闷热”和“要下雨了”这两条信息的互信息就很高。假定有两个随机事件X和Y,他们的互信息定义如下:



其实这个互信息也可以看作是X的不确定性H(X)以及在知道Y的情况下X的不确定性H(X|Y)之间的差异。也就是



而在机器翻译中往往需要解决的二义性问题则可以通过这样的问题解决,比如美国总统Bush是翻译为人名还是灌木丛,就可以通过该词的上下文提取相关信息减小不确定性。如果这个词的上下文频繁出现了国会,总统,美国,华盛顿等词就可当作人名进行翻译。如果是大量出现土壤、环境等词则应该当作灌木丛进行翻译。

最后提提相对熵的概念。相对熵的定义如下



公式比较复杂,但是有些结论是可以直接记住的。

1.对于两个完全相同的函数,他们的相对熵为0。

2.相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。

3.对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。

本文参照吴军先生的《数学之美》
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息