您的位置:首页 > 移动开发

MLAPP学习笔记-Data Mining和Machine Learning的区别及延伸

2016-07-25 14:49 183 查看

一、写在前面

  从上学开始,都习惯把笔记记录在纸张上,大多数是觉得可以偶尔练练字什么的。但问题是时间一长的笔记就很容易遗失,不管是纸张老化还是自己不知道扔哪了。另一个是,自己本身也是从事数据分析这个方向,看得最多还是电子版的资料。所以,决定试着把笔记也通过写博客的方式来积累。

二、笔记背景

  从2014年开始,算是系统学习Data Mining这方面的知识。 之前都是大学课余时间的了解。之前 StackExchange (stats.stackexchange.comi)上有一个问题,就是说“Data Mining、Machine Learning、AI和统计学有什么区别?”。说实话,从大学二年级开始接触Data Mining的科普知识,到了研究生二年级,在做“Text mining”的相关研究,用得最多是“非参贝叶斯模型”的基础知识。但是很明确说出一些它们之间的区别,才感觉自己只不过看见树木,很少跳出来看看整个森林。其实这并不是一件很好的事,只顾局部,不看全局。所以很遗憾自己没能很快拿出一个可解释的结果。在第三部分,我将做一次结果的搬运工,把自己理解的看法记录在这篇笔记中。当下很流行的是“大数据”这种概念,我算是比较保守的。这种各个行业都能喊出的概念比较难以接受,理解比较慢吧!很长一段时间,不知道“大”到底在哪?但是很多所谓“大数据分析”还是基于基础,比如“机器学习”。“机器学习”最近很火,网上的理由太多,而我是本身学习研究就是用到的一些知识,所以对“机器学习”总有一定认识和理解。在机器学习上,国内能拿得出手的教材确实很少,在写这篇笔记之前,国内算是出了一本良心之作是周志华老师《机器学习》,奔着支持的心,买了一本学习了一下。感觉阅读还是挺顺的。但之前到现在,一直学习国外几本经典之作,一本是《PRML》和《MLAPP》。当然这是简写,全称可以随便一搜索就可以找到。太经典了!最近自己也重读MLAPP这本经典书籍,希望有新的理解。正好作者书中写到了“Data Mining”和“Machine Learning”的一个区别,也引起了自己对这个问题理解。

三、笔记内容

  关于“Data Mining”和“Machine Learning”的区别,在那篇问答的博文有很好对比解释。在这里,我简单介绍一下。首先,不管是“Data Mining”,还是“AI”和“Machine Learning”。都是以统计学为基础。而统计学着重于数据的收集、组织、分析和解释的一门学科。可以分为描述性统计学和推断统计学。而描述性统计学注重的是对数据整理与分析,得出数据的分布状态、数字特征和随机变量之间的关系进行估计和描述,可以细分为数据的集中、离散和相关性分析。推断统计学侧重于通过样本数据推断总体。“Data Mining”在通过算法的得到的结果上,采用描述性统计学(大部分)来解释问题。而”Machine Learning”则是侧重于通过推断统计学来实现的自学习。

  这也正是在MLAPP(Machine Learning:A Probabilistic Perspective)书上说的一句话“in data mining, there is more emphasis on interpretable models, whereas in machine learning, there is more emphasis on accurate models.”。这句话的理解应该是说“Data Mining”强调的是数据和算法的物理意义。比如说,在“购物篮分析中”,“啤酒与尿布”、“面包和黄油”等关联关系,更多是关心其中一个事物的出现,另一个事物也将出现。这说明“Data Mining”是更注重于模型的解释上,也就是在于数据的结果上。“Machine Learning”的关注点在于我们可以对数据建立起一个可以学习的模型和参数的推断。也即是更多地考虑模型与数据符合程度和数据产生的精确度。最经典的例子莫过于“ANN(人工神经网络)”,模型的中间层是一个隐含层。在考虑所有可能的情况下,估计是没有人可以说出每层神经元层组成的矩阵背后的物理意义吧。所以说,在实际应用中,也会让很多人在模型的可理解性和可接受度上造成一定困难。

  顺便自己发散一下,平时自己也会做一些“数据分析”的工作,而学习上做的东西更多是“数据挖掘”。这两个概念仍是有一定的区别,最重要的一点是“数据分析”分析人完成假设、验证假设是否成立等过程;但是数据挖掘更多是关注数据挖掘算法自动学习数据中隐藏的关系或规律。

四、笔记结束

  通过写笔记,可以假设自己又一次对知识的理解。由于人的认知是有限的,所以很难通过一两次就达到很高的理解。只能通过不断理解与实践,最红不断提高认知。达到一个可以很好理解的地步。希望自己可以坚持好一件事。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习