您的位置:首页 > 其它

数据挖掘概述

2010-03-31 22:44 211 查看
数据挖掘一
数据挖掘的定义:
按企业既定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的商业规律,且进一步将其模式化的数据处理和方法。它最吸引人的地方就是能够建立预测型模型而不是回顾性模型。传统的数据分析工具的分析的重点是在于向管理人员提供过去已经发生了什么,描述过去的事实,而挖掘工具的目的在于预测未来的情况。
数据挖掘与数据仓库的关系:


首先,由于大多数数据挖掘工具要在集成的,一致的经过清理的数据上进行数据挖掘。这就需要在数据挖掘中有一个费用昂贵的数据清理、数据变换和数据集成过程,作为数据挖掘的预处理。而已经完成数据清理、数据变换和数据集成的数据仓库、完全能为数据数据挖掘提供它所需要的挖掘数据。使数据挖掘免除了数据准备的繁杂过程。


其次,在数据仓库的构造搓成中已经围绕数据仓库组建了包括数据存取,数据集成,数据合并,导出数据库的转换,ODBC/OLE DB的连接、Web访问和服务工具以及报表与OLAP分析工具等全面的数据处理和数据分析基础设施。在数据挖掘过程中所需的数据处理和分析工具完全可在数据仓库的数据处理和数据分析工具中找到,根本没有必要为数据挖掘重新设置同样的基础设施。


此外,在数据挖掘过程中,常常需要进行探测式的数据分析,穿越各种数据库,选择相关数据,对各种数据选择不同额粒度,以不同的形式提供知识或结果。而数据仓库中的OLAP完全可为数据挖掘提供有关的数据操作支持 。
常用的数据挖掘技术
l 统计分析类
统计分析(或称数据分析)技术中使用的的数据模型有线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术。利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模型解释这些数据,解释隐藏在这些数据背后的市场规律和商业机会。
l 知识发现类
知识发现类数据挖掘技术是与统计类数据挖掘技术完全不同的一种挖掘技术。它可以从数据仓库的大量数据中筛选信息,寻找市场可能出现的运营模式,发掘人们所不知道的事实。知识发现类数据挖掘技术包含人工神经网络、决策树、遗传算法、粗糙集、规则发现和关联顺序等。


人工神经网络是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建立三大类多种神经网络模型。前馈式网络以感知识、反向传播模型、函数性网络为代表,可用于预测和模式识别方面;反馈式网络以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算;自组织网络以ART模型、Koholon模型为代表,用于聚类。神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或累加计算)。


决策树是一个类似于流程图的树结构,其中每个内部节点表示在某个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。由于每个决策树或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵数的枝干,故称决策树,书的最顶层节点是根节点,内部节点用矩形表示,而树叶节点用椭圆表示。


遗传算法是近几年发展起来的一种崭新的全局优化算法,借用了生物学遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个个体的适应性的提供;解决问题时,要对待解决问题的模型结构和参数进行编码,一般用字符串来表示,这个过程就将问题符号化、离散化了。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉(重组)选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)对某些个体的某些基因进行变异的过程。标准遗传算法是不收敛于全局最优解的,而当保留当前所得最优值时就是收敛于全局最优解的。这种收敛性只是指计算时间趋向无穷时的可以以概率1达到全局最优解。


粗糙集(RS)能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素,而精确集是完全没有边界元素的。


关联规则是数据挖掘的一种主要形式,是与大多数人想象的数据挖掘过程最为相似的一种数据挖掘形式,即在大型数据库中“淘金”——人们感兴趣的规则。在关联规则系统中,规则是“如果怎么样、怎么样、怎么样,那么就怎么样”的简单形式表示的。根据规则中所处理的值类型,关联规则可以分为布尔关联规则和量化关联规则两种。根据关联规则集涉及不同的抽象层次,关联规则则可分为多层关联规则和单层关联规则。关联规则的评价标准可以用正确率、覆盖率和兴趣度来衡量。

l 其他数据挖掘技术
其他数据挖掘技术中包含文本数据挖掘、Web数据挖掘、分类系统、可视化系统、空间数据挖掘和分布式数据挖掘


文本数据挖掘和Web数据挖掘是近几年新发展起来的崭新数据挖掘技术。前者主要为了满足对非结构化信息的挖掘的需要,后者则是针对日益发展的因特网技术所带来的大批量网络信息的挖掘。


分类系统应该说也是一种知识发现技术,但是它的实现可以采用各种知识发现类技术的支持,而且在数据挖掘中具有特殊重要的作用。


可视化系统则是为使数据挖掘能以图形或图像的方式在屏幕上显示出来,且能交互处理。这样,可以很清楚地发现隐含的和有用的知识。可视化技术可以分为两类:表示空间数据场的体可视化技术和表示非空间数据的信息可视化。可视化数据挖掘可以分为数据可视化、数据挖掘结果可视化、数据挖掘过程可视化和交互式数据可视化挖掘。


空间数据则是基于地理信息系统的数据挖掘技术。空间数据挖掘方法目前主要有空间数据分类、空间数据关联分析和空间趋势分析。


分布式数据挖掘是基于分布式数据库的,利用分布式算法从分布式数据库中挖掘知识的技术。分布式数据挖掘技术主要用于对水平式分布或垂直方式分布的数据库系统中数据的挖掘。
l 常用数据挖掘工具


按使用方式: 决策方案生成工具,商业分析工具和研究分析工具


按数据挖掘技术分类: 基于神经网络的工具,基于规则和决策树的工具,基于模糊逻辑的工具和综合性数据挖掘工具


按应用范围分类: 专用型的数据挖掘工具, 通用性的的数据挖掘工具
l 数据挖掘工具的评价标准


模式种类的数量:数据挖掘工具能够提供的模式越多,它的知识发现能力越强;多种类型模式的结合应用,有助于降低问题的复杂性。


解决复杂问题的能力:由于数据挖掘数据量一般都比较大,因此,算法的时空复杂性成为许多挖掘工具实际应用中的重要限制因素。考察数据挖掘工具解决问题的能力大小,可从挖掘工具的模式应用,数据选择和转换能力,可视化程度,扩展性等方面


操作性能:图形界面友好的工具可以方便用户,引导用户执行任务,节省数据挖掘时间


数据获取能力:数据挖掘工具的使用基础是数据库或数据仓库。因此一个优秀的数据挖掘工具可以使用SQL语句直接从数据库或数据仓库中读取数据。


挖掘结果的方便输出


噪声数据的处理及挖掘工具的鲁棒性
l 数据挖掘工具的选择:
首先确定是否有专用挖掘工具。如果有专用挖掘工具并且能够胜任用户的数据挖掘应用,应该首先考虑采用专用的挖掘工具,如果采用通用的数据挖掘工具,就要考察这些工具是否能够提供有用的足够的知识。
l 数据挖掘过程:
确定数据挖掘对象、数据准备、建立模型、数据挖掘、结果分析与知识应用。
确定数据挖掘对象,在将数据挖掘应用与客户关系管理中时,就需要对客户关系管理的商业主题进行仔细的定义。每个CRM应用都有一个或多个商业目标,要为每个目标建立恰当的模型。例如,“提高客户对企业促销的响应率”或“提高每个客户的响应的价值”这两个目标所需要的模型是不同的,并且在定义问题的同时,也生成了评价CRM应用结果的标准和方法,即确定了数据挖掘结果的评价指标。
数据准备:数据的选择和数据的预处理
数据挖掘模型的构建:模型的准确性、模型的可理解性、模型的性能
数据挖掘
结果分析
知识的应用
l 数据挖掘的用户


业务分析人员:或称为企业管理顾问。要求这些人精通业务,能够解释业务对象,并且能够根据具体业务对象要求确定用于数据定义和挖掘算法


数据分析人员:要求这些人员精通数据挖掘分析技术,且对统计学能够较熟练的掌握,有能力把业务需求转化为数据挖掘的各个步骤,并且能为每步操作选择合适的技术。


数据管理人员:这些人员需要精确数据管理技术,能从数据库或数据仓库中收集数据挖掘所需要的数据。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: