您的位置:首页 > 其它

余弦定理和新闻分类

2013-01-07 11:13 155 查看
新闻的特征向量

把文字的新闻变成一组可计算的数字,再设计一个算法类计算任意两篇新闻的相似性。

找一组数字(或者向量)描述一篇新闻,词是信息的载体,因此要对每个实词的重要性进行排序。

在“如何度量网页相关性”一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为

单词编号 汉字词

------------------

1 阿

2 啊

3 阿斗

4 阿姨

...

789 服装

....

64000 做作

在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

单词编号 TF/IDF 值

==============

1 0

2 0.0034

3 0

4 0.00052

5 0

...

789 0.034

...

64000 0.075

如果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。

学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。

余弦定理对我们每个人都不陌生,它描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦 --



如果我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于



其中分母表示两个向量 b 和 c 的长度,分子表示两个向量的内积。举一个具体的例子,假如新闻 X 和新闻 Y 对应向量分别是

x1,x2,...,x64000 和

y1,y2,...,y64000,

那么它们夹角的余弦等于,



当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。



我们在中学学习余弦定理时,恐怕很难想象它可以用来对新闻进行分类。在这里,我们再一次看到数学工具的用途。

新闻分类

假定一些新闻类别的特征向量为x1,x2,x3……xk,那么对于任何一个要被分类的新闻Y,就计算它和各类新闻特征向量的余弦相似值。

如果事先没有新闻类别特征向量,可以采用一个自底向上的不断合并的办法:

1、计算所有新闻之间两两的余弦相似性,把相似性大于一个阀值的新闻合并成一个小类

2、把每个小类中的所有新闻看做一个整体,计算小类的特征向量,再计算,不断合并。

计算余弦定理的技巧:

简化:分母部分(向量长度)不需要多次计算。考虑向量中非零元素。删除虚词。

位置的加权:标题中的词贡献度大。开头结尾的词比中间的词重要。——标题和重要位置的词额外加权。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: