您的位置:首页 > 其它

《数学之美》—余弦定理和新闻的分类

2017-08-06 00:00 288 查看

摘要和理解:

计算机整理、分类和聚合各个新闻网站的内容,一切都是自动生成的。这里面的关键技术就是新闻的自动分类。

计算机本质上只能做快速计算。为了让计算机能够“算”新闻,就要求我们先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性。

怎样找一组数字(或一个向量)来描述一篇新闻?

统计词汇表 新闻的特征向量 ——>某篇新闻对应的TF-IDF值。(eg:0,0,0,3,0...28,0,0,3)

4.怎样衡量两个特征向量之间的相似性?

余弦定理 通过计算两个向量的夹角来判断对应的新闻主题的接近程度。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息