的Tf-idf值分词计算列举
2016-02-28 15:43
218 查看
(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。
例如:一篇文档分词后,总共有500个分词,而分词”十二seo”出现的次数是20次,则TF值是: tf =20/500=2/50=0.04
逆向文件频率:一个分词出现在的文档数越少越能和其它文档区别开来。算法是: log((总文档数/出现该分词的文档数)+0.01)
;(注加上0.01是为了防止log计算返回值为0)。
例如:一个文档库中总共有50篇文档,2篇文档中出现过“十二seo”分词,则idf是:
Idf = log(50/2 + 0.01) = log(25.01)=1.39811369
例如:一篇文档分词后,总共有500个分词,而分词”十二seo”出现的次数是20次,则TF值是: tf =20/500=2/50=0.04
逆向文件频率:一个分词出现在的文档数越少越能和其它文档区别开来。算法是: log((总文档数/出现该分词的文档数)+0.01)
;(注加上0.01是为了防止log计算返回值为0)。
例如:一个文档库中总共有50篇文档,2篇文档中出现过“十二seo”分词,则idf是:
Idf = log(50/2 + 0.01) = log(25.01)=1.39811369
TF-IDF结合计算就是 tf*idf,比如上面的“十二seo”分词例子中: TF-IDF = tf* idf = (20/500)* log(50/2 + 0.01)= 0.04*1.39811369=0.0559245476
相关文章推荐
- 安卓应用开发实战:[3]修改安卓应用程序图标
- commit信息修改
- 多线程
- Spring Bean装配-自动装配
- Android测试系列之Instrumented Unit Test-UiAutomator
- 算法代码实现之插入排序,C/C++实现
- c++中重载输出操作符
- copy 一个txt文件x行到x行复制到另外一个文件/复制文件内容
- 多线程应用--生产者、消费者模式
- OC基础--常用类的初步介绍与简单实用之集合类
- Android打包之Gradle打包
- 在终端上传本地项目到GitHub
- 字符串处理
- 论美貌 (殖装 第二卷 宇宙佣兵 第八三四节 )
- android 通过eclipse混淆代码 打包 + proguard 总结
- Linux设备驱动模型
- Android记录20-获取缓存大小和清除缓存功能
- android linearlayout 把控件view置底部(放在页面最下方)
- C#交互功能的演化
- 微软面试题之两个链表的第一个公共结点