您的位置:首页 > 其它

《数据挖掘——概念和技术》笔记之概论

2007-07-03 22:46 387 查看
数据库技术已经从原始的文件处理发展到开发具有查询和事务处理的数据库管理系统。进一步的发展已经导致越来越需要有效的高级数据分析工具。这种需求是各种应用收集的数据爆炸性增长的必然结果,这些应用包括商务和管理、行政管理、科学和工程以及环境控制。

数据挖掘是从大量数据中发现有趣模式,其中数据可以存放在数据库、数据仓库或其他信息库中。这是一个年轻的跨学科领域,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。其他有贡献的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和许多应用领域,如商务、经济学和生物信息学。

知识发现过程包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。

典型的数据挖掘系统结构包括数据库和/或数据仓库及相应的服务器,数据挖掘引擎和模式评估模块(二者与知识库交互),以及图形用户界面。作为一个整体,数据挖掘组件与数据库或数据仓库系统集成可能是不耦合、松散耦合、半紧密耦合或紧密耦合。一个设计良好的数据挖掘系统应当提供与数据库和/或数据仓库系统的紧密耦合或半紧密耦合。

数据模式可以从许多不同类型的数据库挖掘,如关系数据库、数据仓库、事务数据库和对象-关系数据库。有趣的数据模式也可以从其他类型的信息库中提取,包括空间的、时间序列的、序列的、文本的、多媒体的数据库和遗产数据库、数据流和万维网。

数据仓库是一种数据的长期存储储存库,这些数据来自多个数据源,经过组织数据仓库以有利于管理决策的方式组织。这些数据在一种一致的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称作OLAP(联机分析处理)

数据挖掘功能包括发现概念/类描述、关联和相关、分类、预测、聚类、趋势分析、离群点和偏差分析以及相似性分析。特征化和区分是数据汇总形式。

模式表示知识,如果它是易于理解的,在某种必然程度上对于检验数据是有效的,并且可能有用、新颖或者验证用户好奇的直觉。模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程。

数据挖掘系统可以根据所挖掘的数据库类型、所挖掘的知识类型、所使用的技术或应用加以区分。

我们研究了五种以数据挖掘查询形式说明数据挖掘任务的原语。这些原语说明任务相关的数据(即待挖掘的数据集)、挖掘的知识类型、背景知识(通常是概念分层形式)、兴趣度度量以及用来显示所发现模式的知识表示和可视化技术。

可以设计数据挖掘查询语言,支持即席的和交互的数据挖掘。数据挖掘查询语言(DMQL)应当提供说明每种数据挖掘原语的命令。这种查询语言是基于SQL的,并且可以最终形成标准,成为数据挖掘图形用户界面的基础。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: