文本挖掘与分析课程笔记_Week1
2017-12-20 10:57
239 查看
前言
概念区分:文本检索与搜索引擎:大量数据→少量有用数据
文本挖掘:少量有用数据→提炼出有用知识并应用
ps:越深层次的数据挖掘往往鲁棒性不够,准确率不够高,同时依赖人工的介入,但更能获取高质量的分析结果。
第一周笔记
从某种意义上来讲,人类可以比做一个观察器,但这个观察器输出的是文本,我们可以通过几个方面对文本进行分析:
对文本结构进行分析,可以获得与语言有关的知识(语法等)对观察者的文本进行分析,可以获得与观察者有关的知识(个人特点)
对文本信息的分析,可以获得与实体有关的知识
NLP(自然语言处理)对计算机来说是困难的:
人类进行语言交流是基于一些共有的基础知识,而计算机缺少这方面的知识词和句子的多义和歧义,计算机难以识别这种模糊性
文本挖掘的各层次及相应可用的分析方法,应用如下:
基础词类关系:聚合(paradigmatic)和组合(syntagmatic)
聚合指同类词,其特点是相似度高,或者说相互可替代性高组合是词的联合,配对,即一起出现的概率大
计算词的相似度:VSM,相似度函数(将抽象的相似性问题转化为对高维向量距离的求解)
x1,x2,…,xn分别表示文档中单词正则化后出现的概率EOWC(共同词期望),这里的点积用于计算文档中,两个随意选择的词完全一样的概率(可用于测量文档相似度):
EOWC的一些缺点及对应解决方法:
TF用于一个文档中IDF用于多个文档(文库)
TF-IDF是一种用于资讯检索的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降
TF(词频,某个词在该文件中出现的次数)及BM25(出现越频繁的权重越低,但不会超过x=y)转换的具体形式:
IDF(反文档频率)
M是总文件数k是包含该词的文件数
IDF越大,则说明该词具有很好的类别区分能力
用BM25来挖掘组合关系:
参数b用于调整文档长度对相关性影响,b越大,则文档长度的对相关性得分的影响越大课后测验
相关文章推荐
- 文本挖掘与分析课程笔记_Week3
- coursera 公开课 文本挖掘和分析(text mining and analytics) week 1 笔记
- python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part2
- 中文文本挖掘课程笔记之jieba分词(1)
- 【python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析
- coursera NLP学习笔记之week1课程介绍&基础的文本处理
- 文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析
- 图像处理、分析、识别、应用的课程笔记,PPT/PDF课件,计算机视觉中的机器学习、目标识别、分割、文本识别、fMRI 分析、运动和追踪等在线视频教程
- python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part1
- R:文本挖掘学习笔记1 - tm Package
- Coursera 机器学习(by Andrew Ng)课程学习笔记 Week 8(二)——降维
- Boolan C++面向对象编程(下) 课程笔记Week2
- Stanford机器学习课程笔记2-高斯判别分析与朴素贝叶斯
- R语言做文本挖掘 Part5情感分析
- 用R做中文文本分析--用R进行文本挖掘与分析:分词、画词云
- 【python数据挖掘课程】十九.鸢尾花数据集可视化、线性回归、决策树花样分析
- Python实现购物评论文本情感分析操作【基于中文文本挖掘库snownlp】
- 狄泰C++课程学习笔记:第五课:引用的本质分析
- 《machine learning with spark》学习笔记--文本挖掘
- 【课程笔记】地统计分析