贝叶斯应用_文本分析_理论支持
2018-09-07 00:00
141 查看
一:停用词
语料中大量出现却没什么作用的词
二:词频(TF)
词频(TF)=某词在文章中的出现次数 / 该文章所有词的出现次数
三:逆文档频率(IDF)
逆文档频率(IDF)=log( 语料库的文档总数 / (包含该词的文档树+1) )
四:Tf-idf 关键词提取
Tf-idf=TF * IDF
五:相似度
对需要求相似度的两个中文句子进行 分词-构建语料库-词频-词频向量-求余弦
六:相似度举例
句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。
分词:
句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
语料库: 我,喜欢,看,电视,电影,不,也。
词频:
句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。
句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。
词频向量:
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
相关文章推荐
- 贝叶斯应用_文本分析_代码实践
- 图像处理、分析、识别、应用的课程笔记,PPT/PDF课件,计算机视觉中的机器学习、目标识别、分割、文本识别、fMRI 分析、运动和追踪等在线视频教程
- Spark应用 —— 文本分析
- 计算机辅助分析在单元串联式多电平叠加中压变频器理论方面的应用
- C语言实现fft理论基础与工程应用的实例分析
- 主元分析(PCA)理论分析及应用
- 主元分析(PCA)理论分析及应用
- mahout应用kmeans进行文本聚类——实例分析
- glib学习笔记之四——GLib核心应用支持:glib库线程池代码分析
- 现代控制理论-章节组织结构和仿真应用案例详细分析
- 基于贝叶斯算法文本分析之新闻分类
- C++ Primer 学习笔记_38_STL实践与分析(12)--容器的综合应用:文本查询程序
- 主题模型及其在文本情感分析中的应用
- 现代控制理论-章节组织结构和仿真应用案例详细分析
- 主题模型及其在文本情感分析中的应用
- .NET下文本相似度算法余弦定理和SimHash浅析及应用实例分析
- 现代控制理论-章节组织结构和仿真应用案例详细分析
- 主题模型及其在文本情感分析中的应用
- 主题模型及其在文本情感分析中的应用
- 支持手机NFC快捷支付的消费系统应用情况分析