您的位置:首页 > 大数据

大数据学习笔记1

2016-05-05 17:21 274 查看
文档分类

通常文档中最常出现的词都是无意义的常用词,而关于主题的词语通常出现的并不多,但又不是所有少见的词都有用。

1.找出跟主题相关的重要词汇;

2. 计算TF.IDF,度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(Term Frequency, Inverse Document Frequency)

TF_{ij} = f_{ij}/max_kf_{kj}

f_{ij}表示词项i在文档j中出现的频率,而max_kf_{kj}表示最大词项x出现在j中的频率

IDF_i = log2N/n_i

词项i在文档集中的n_i篇文档中出现

具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项

自然对数e

常数e=2.7182818

1. x趋近于无穷大时,(1+1/x)^x = e

幂定律

两个变量之间在对数空间下呈现线性关系,称为幂定律(power law)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: