大数据学习笔记1
2016-05-05 17:21
274 查看
文档分类
通常文档中最常出现的词都是无意义的常用词,而关于主题的词语通常出现的并不多,但又不是所有少见的词都有用。
1.找出跟主题相关的重要词汇;
2. 计算TF.IDF,度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(Term Frequency, Inverse Document Frequency)
TF_{ij} = f_{ij}/max_kf_{kj}
f_{ij}表示词项i在文档j中出现的频率,而max_kf_{kj}表示最大词项x出现在j中的频率
IDF_i = log2N/n_i
词项i在文档集中的n_i篇文档中出现
具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项
自然对数e
常数e=2.7182818
1. x趋近于无穷大时,(1+1/x)^x = e
幂定律
两个变量之间在对数空间下呈现线性关系,称为幂定律(power law)
通常文档中最常出现的词都是无意义的常用词,而关于主题的词语通常出现的并不多,但又不是所有少见的词都有用。
1.找出跟主题相关的重要词汇;
2. 计算TF.IDF,度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(Term Frequency, Inverse Document Frequency)
TF_{ij} = f_{ij}/max_kf_{kj}
f_{ij}表示词项i在文档j中出现的频率,而max_kf_{kj}表示最大词项x出现在j中的频率
IDF_i = log2N/n_i
词项i在文档集中的n_i篇文档中出现
具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项
自然对数e
常数e=2.7182818
1. x趋近于无穷大时,(1+1/x)^x = e
幂定律
两个变量之间在对数空间下呈现线性关系,称为幂定律(power law)
相关文章推荐
- TIME_WAIT状态
- 修复 Sync with Gradle for project ' ' failed: 拒绝连接问题
- 多线程—wait,notify(针对方法synchronized)
- http://blog.csdn.net/welovesunflower/article/details/51202313
- pthread_cond_wait()用法分析
- Lumen log daily 每天创建一份日志文件
- 题目1138:进制转换 (大数据10进制到2进制)
- 文档去重算法:SimHash和MinHash
- 如何将dailog始终居中显示
- 大数据之机器学习(11)
- contains 精确匹配
- AIO原理
- AIDL(接口定义语言)的使用步骤
- 服务端出现大量close_wait问题
- 219. Contains Duplicate II
- readwrite,readonly,assign,retain,copy,nonatomic 属性的作用
- 使用Genymotion调试出现错误INSTALL_FAILED_CPU_ABI_INCOMPATI
- 大数据学习资源汇总
- rails笔记
- 虚拟机不能启动,E_FAIL(0x80004005) 及其处理