《数学之美》—余弦定理和新闻的分类
2017-08-06 00:00
288 查看
摘要和理解:
计算机整理、分类和聚合各个新闻网站的内容,一切都是自动生成的。这里面的关键技术就是新闻的自动分类。计算机本质上只能做快速计算。为了让计算机能够“算”新闻,就要求我们先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性。
怎样找一组数字(或一个向量)来描述一篇新闻?
统计词汇表 新闻的特征向量 ——>某篇新闻对应的TF-IDF值。(eg:0,0,0,3,0...28,0,0,3)
4.怎样衡量两个特征向量之间的相似性?
余弦定理 通过计算两个向量的夹角来判断对应的新闻主题的接近程度。
相关文章推荐
- 数学之美系列十二:余弦定理和新闻的分类
- 数学之美 系列十二 - 余弦定理和新闻的分类
- 数学之美 系列 12 - 余弦定理和新闻的分类
- 数学之美系列十二 -- 余弦定理和新闻的分类
- 数学之美 系列 12 - 余弦定理和新闻的分类
- 数学之美:GOOGLE新闻归类算法与余弦定理
- 数学之美系列之十二:余弦定理和新闻的分类
- 数学之美 系列 十二 - 余弦定理和新闻的分类
- 余弦定理实现新闻自动分类算法
- 【数学之美 系列十二】 余弦定理和新闻的分类
- 余弦定理和新闻的分类
- 数学之美(系列 12) 之 余弦定理和新闻的分类
- 余弦定理和新闻的分类
- 数学之美系列之十二:余弦定理和新闻的分类
- 余弦定理和新闻分类
- 数学之美系列十二 -- 余弦定理和新闻的分类
- 余弦定理和新闻的分类
- 数学之美 系列 12 - 余弦定理和新闻的分类
- 数学之美 系列十二 - 余弦定理和新闻的分类(转载)
- 数学之美系列十二:余弦定理和新闻的分类