OLE DB for Data Mining中的基本概念
2007-09-30 21:45
344 查看
OLE DB for Data Mining 为一系列的数据挖掘对象定义了通用的概念。下面分别来介绍这些概念。
实例(Case)
数据挖掘是用来分析实例的—一个实例是一个基本的信息实体。它包括一系列的属性,比如性别和年龄。属性也可以叫做统计学中的变量。一个属性可能有一系列的值,称为状态。例如,性别属性有2种状态:男和女。
一个实例可能是简单的。例如,当你用客户的统计信息分析客户的贷款风险时,一个实例就是一个客户。它与客户表中的一行相当。
一个实例也可能是复杂的。例如,当你基于客户的历史购买信息分析购买行为时,一个实例就是一个带有购买商品列表的客户。这种实例叫做嵌套实例。一个嵌套实例至少包括一个表。下图显示了几个客户以及历史购买信息的嵌套实例。
在OLE DB for Data Mining中,数据挖掘算法提供了消费实例。如果一个实例是嵌套实例,数据挖掘算法要求输入带等级行集格式的实例
注意:在OLE DB for Data Mining中,嵌套实例概念的提出是极其重要的。它能处理复杂的一对多的关系。它为模型建立增加了许多功能。如果没有嵌套实例的概念,你就得在数据转换阶段,将要嵌套的实例作为实例的属性。这是一个具有挑战性的工作。因为大部分关系型数据库对表中列的数量有限制,如果你的实例中有很多不同的产品,很难转换整个购买表。
实例键(The Case Key)
实例键是实例的属性,是实例的唯一标志符。一个实例键通常是关系表的主键。有时候实例键是组合实例键。例如,姓和名一起被作为实例键。
嵌套键(The Nested Key)
尽管实例键可以认为关系中的主键,但嵌套键并不等同于关系中的外键。实例键仅仅是标志符,不包括任何模式,然而嵌套键是嵌套实例的一个重要属性。嵌套实例的其他属性都是用来描述嵌套键的。例如,设计一个模型描述客户购买行为的模式,嵌套键是产品。数量描述产品的购买。嵌套键并不是一个标志符,它包括了模式的有用信息。例如,我们用产品这个嵌套键作为输入,可以预测实例的性别属性。
实例表和嵌套表(Case Tables and Nested Tables)
实例表包含实例的直属信息。嵌套表包含实例的嵌套信息。嵌套表通常是事务表,比如客户的历史购买记录。嵌套表通过实例键与实例表连接。为了连接实例表与嵌套表,形成了分等级的行集,因此OLE DB定义了操作符shape。以后的章节将介绍操作符shape的语法。
提示:对于熟悉数据仓库和olap的人来说,实例表通常是维表,而嵌套表是事实表。
标量列和表列(Scalar Columns and Table Columns)
挖掘模型中的列与关系表中的列类似;统计术语中也叫做变量或者属性。按照用法挖掘模型中的列有4种:键列,输入列,预测列,输入和预测列。预测列是挖掘模型的目的。大部分挖掘模型使用输入列来预测输出列。一些算法中,比如聚类,不需要有预测列。在这种情况下,挖掘模型可能仅仅包含输入列。
有两种列结构:标量和表。大部分列都是标量列。一条记录中每个标量列是单一的值。例如,性别和年龄都是标量列。表列是特殊的列。一个表列嵌入了一个表。例如,购买列就是一个表列,它存储了每个客户的购买信息。它包括表中的两列:产品和数量。OLE DB 有个概念是分等级的行集。行集的直属部分是标量列,分等级的部分是表列。
数据挖掘模型
一个数据挖掘模型或者说挖掘模型,可以看作关系型的表。它包括关键列,输入列和预测列。每个模型都与相应的挖掘算法相关联。训练挖掘模型就是用指定的带有合适参数的挖掘算法,发现训练数据集中的模式。训练后,被发现的模式存储到挖掘模型中。就像关系型表包含一系列的记录,一个数据挖掘模型中包含一系列的模式。
模型创建
模型创建就是创建一个空的挖掘模型,这个概念与创建表的含义相似。
模型训练
模型训练也叫模型处理. 它调用数据挖掘算法发掘训练数据集中的知识。训练后,模式被存储到挖掘模型中。
模型预测
模型预测是用已经训练过的挖掘模型的模式匹配新数据集,并且预测每个实例可预测列的值。
实例(Case)
数据挖掘是用来分析实例的—一个实例是一个基本的信息实体。它包括一系列的属性,比如性别和年龄。属性也可以叫做统计学中的变量。一个属性可能有一系列的值,称为状态。例如,性别属性有2种状态:男和女。
一个实例可能是简单的。例如,当你用客户的统计信息分析客户的贷款风险时,一个实例就是一个客户。它与客户表中的一行相当。
一个实例也可能是复杂的。例如,当你基于客户的历史购买信息分析购买行为时,一个实例就是一个带有购买商品列表的客户。这种实例叫做嵌套实例。一个嵌套实例至少包括一个表。下图显示了几个客户以及历史购买信息的嵌套实例。
在OLE DB for Data Mining中,数据挖掘算法提供了消费实例。如果一个实例是嵌套实例,数据挖掘算法要求输入带等级行集格式的实例
注意:在OLE DB for Data Mining中,嵌套实例概念的提出是极其重要的。它能处理复杂的一对多的关系。它为模型建立增加了许多功能。如果没有嵌套实例的概念,你就得在数据转换阶段,将要嵌套的实例作为实例的属性。这是一个具有挑战性的工作。因为大部分关系型数据库对表中列的数量有限制,如果你的实例中有很多不同的产品,很难转换整个购买表。
实例键(The Case Key)
实例键是实例的属性,是实例的唯一标志符。一个实例键通常是关系表的主键。有时候实例键是组合实例键。例如,姓和名一起被作为实例键。
嵌套键(The Nested Key)
尽管实例键可以认为关系中的主键,但嵌套键并不等同于关系中的外键。实例键仅仅是标志符,不包括任何模式,然而嵌套键是嵌套实例的一个重要属性。嵌套实例的其他属性都是用来描述嵌套键的。例如,设计一个模型描述客户购买行为的模式,嵌套键是产品。数量描述产品的购买。嵌套键并不是一个标志符,它包括了模式的有用信息。例如,我们用产品这个嵌套键作为输入,可以预测实例的性别属性。
实例表和嵌套表(Case Tables and Nested Tables)
实例表包含实例的直属信息。嵌套表包含实例的嵌套信息。嵌套表通常是事务表,比如客户的历史购买记录。嵌套表通过实例键与实例表连接。为了连接实例表与嵌套表,形成了分等级的行集,因此OLE DB定义了操作符shape。以后的章节将介绍操作符shape的语法。
提示:对于熟悉数据仓库和olap的人来说,实例表通常是维表,而嵌套表是事实表。
标量列和表列(Scalar Columns and Table Columns)
挖掘模型中的列与关系表中的列类似;统计术语中也叫做变量或者属性。按照用法挖掘模型中的列有4种:键列,输入列,预测列,输入和预测列。预测列是挖掘模型的目的。大部分挖掘模型使用输入列来预测输出列。一些算法中,比如聚类,不需要有预测列。在这种情况下,挖掘模型可能仅仅包含输入列。
有两种列结构:标量和表。大部分列都是标量列。一条记录中每个标量列是单一的值。例如,性别和年龄都是标量列。表列是特殊的列。一个表列嵌入了一个表。例如,购买列就是一个表列,它存储了每个客户的购买信息。它包括表中的两列:产品和数量。OLE DB 有个概念是分等级的行集。行集的直属部分是标量列,分等级的部分是表列。
数据挖掘模型
一个数据挖掘模型或者说挖掘模型,可以看作关系型的表。它包括关键列,输入列和预测列。每个模型都与相应的挖掘算法相关联。训练挖掘模型就是用指定的带有合适参数的挖掘算法,发现训练数据集中的模式。训练后,被发现的模式存储到挖掘模型中。就像关系型表包含一系列的记录,一个数据挖掘模型中包含一系列的模式。
模型创建
模型创建就是创建一个空的挖掘模型,这个概念与创建表的含义相似。
模型训练
模型训练也叫模型处理. 它调用数据挖掘算法发掘训练数据集中的知识。训练后,模式被存储到挖掘模型中。
模型预测
模型预测是用已经训练过的挖掘模型的模式匹配新数据集,并且预测每个实例可预测列的值。
相关文章推荐
- [置顶] 【DL--04】深度学习基本概念—data_format
- 注册“Oracle Provider for OLE DB”和创建链接服务器
- Microsoft OLE DB Provider for ODBC Drivers 错误 '80004005'解决方案
- Java Data Mining: Strategy, Standard, and Practice: A Practical Guide for architecture, design, and
- Microsoft OLE DB Provider for SQL Server 错误 '80040e4d'
- Microsoft OLE DB Provider for SQL Server 错误 '80040e37'
- Datasets for Data Mining and Data Science
- Microsoft OLE DB Provider for SQL Server 错误 '80040e31' 超时已过期
- CoreData 基本概念
- Note for video Machine Learning and Data Mining——Theory of Generalization
- ODBC && OLE DB.NET DATA PROVIDER
- DB基本概念之 --- 过程与函数
- [译]Kinect for Windows SDK开发入门(十):手势识别 上:基本概念
- whole-genome-sequencing Data Analysis 学习笔记1 基本概念
- Entity Data Model最基本概念
- Kinect for Windows SDK开发入门(十):手势识别 上:基本概念
- Microsoft OLE DB Provider for Oracle 错误 '80004005'
- CoreData 基本概念
- OLE DB Provider for Microsoft Jet
- 关于Core Data框架的基本概念解析