您的位置：首页 > 其它

文本挖掘与分析课程笔记_Week1

2017-12-20 10:57 239 查看

前言

概念区分：

文本检索与搜索引擎:大量数据→少量有用数据

文本挖掘：少量有用数据→提炼出有用知识并应用

ps：越深层次的数据挖掘往往鲁棒性不够，准确率不够高，同时依赖人工的介入，但更能获取高质量的分析结果。

对文本结构进行分析，可以获得与语言有关的知识（语法等）

对观察者的文本进行分析，可以获得与观察者有关的知识（个人特点）

对文本信息的分析，可以获得与实体有关的知识

人类进行语言交流是基于一些共有的基础知识，而计算机缺少这方面的知识

词和句子的多义和歧义，计算机难以识别这种模糊性

聚合指同类词，其特点是相似度高，或者说相互可替代性高

组合是词的联合，配对，即一起出现的概率大

x1,x2,…,xn分别表示文档中单词正则化后出现的概率

TF用于一个文档中

IDF用于多个文档（文库）

TF-IDF是一种用于资讯检索的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降

M是总文件数

k是包含该词的文件数

IDF越大，则说明该词具有很好的类别区分能力

参数b用于调整文档长度对相关性影响，b越大，则文档长度的对相关性得分的影响越大

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 自然语言处理NLP coursera课程

相关文章推荐

新的分享

章节导航