您的位置:首页 > 其它

从“分析”的角度谈OLAP、数据挖掘、统计分析三者之间的区别和联系

2005-11-21 13:36 921 查看
近来一直在考虑基于OLAP的分析、数据挖掘里的挖掘分析、统计业务中的统计分析相互间的内在关系,因为乍看上去这三者是非常相似的,很容易混在一起。事实上,他们之间还是有很大的区别。
首先谈谈OLAP中的分析,由于OLAP的核心是对多维数据集的处理,构建数据立方体,对数据立方体进行切片、切块、上卷、下钻等操作,达到比对分析的目的,同时建立数据立方体的过程也是对数据进行聚合汇总的过程,使得操作人员可以对总体的统计结果有个全面的了解,单个数据在大多数情况下是没有意义的,除非业务人员希望找出造成总量数据发生改变的某个因素是什么,这个时候可以进行下钻操作,然后分析。显然,这里分析是业务人员知道自己需要什么,以及如何找到自己的所需,即know what you want and how to get it。人工思考、处理的成分居多。
显然,现在很多应用仅靠人工分析是远远不够的,当业务人员don't know what you want and how to get it的时候,传统的OLAP就变成了摆设,它只能罗列一大堆的数据在你面前,至于里面有些什么,金子还是煤渣,只有天知道了。此时,人们把数据挖掘的方法引进来,通过挖掘找到了你不找的东西,而这些东西恰恰又对你有用。这是业务人员需要做的就是提供待分析的数据,然后点个按钮喝杯茶坐等结果出来了(呵,我的导师看到了肯定会指责我:从软件工程的角度出发,点个按钮这种具体的用户操作不该在此出现),并且这个结果可以直接写在报告里交给老板。因此,数据挖掘里面的分析更加只能,更加少的依赖于人工的处理。
最后就是统计分析。统计分析在我看来才是数据挖掘的一脉祖先,因为数据挖掘的许多基本思想和方法都来源于传统统计理论。最典型的就是时间序列分析,你可以在这两个领域里找到大量时序分析的论述,并且数据挖掘中时序分析的方法与统计里的时序分析方法相同,比如一元回归等。但是,统计分析中的时序分析并不仅限于此,还有其他一些相关的方法。另外,数据挖掘里的决策树方法等人工智能方法在传统统计理论中是不存在的。最后可以得出结论,那就是数据挖掘的一些基本方法来源于统计分析,针对性更强(比如挖掘中的时序分析针对趋势预测),通过与人工智能等其他技术相结合,产生更灵活有效的分析方式。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐