您的位置:首页 > 其它

数据挖掘 多维分析技术理论基础知识

2016-07-16 23:32 513 查看
1.数据仓库 一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。

2.OLAP技术 一种分析技术,具有汇总合并和聚集功能,以及从不同的角度观察信息的能力。 但对于深层次

的分析, 如数据分类 聚类 和数据随时间变化的特征,需要借助其他分析工具。

3. 知识发现过程步骤, 数据清理 数据集成 数据选择 数据变换 数据挖掘 模式评估 知识表示

4.数据挖掘任务 一般分为两类 描述 和 预测

5.聚类分析 与分类和预测 不同 聚类 分析数据对象 而不考虑已知的类标记。对象 根据 最大化类内的相似

性,最小化类间的相似性的原则进行聚类或分组

6 孤立点分析 数据库 可能包含一些数据对象,他们与一般的行为和模型不一致。然而,在一些应用中,罕

见的事件可能更有研究价值。

7.演变分析 描述行为随时间变化的对象的规律或趋势。

8.性能问题 数据挖掘算法的有效性,可伸缩性和并行处理。  许多数据库的大容量,数据的广泛分布和一些

数据算法的计算复杂性 是促使开发并行和分布式数据挖掘算法的因素。

9.多维数据库模式 星型模式 雪花型模式 星型模式 星型模式包括一个大的包含大批数据和不冗余的中心表 

一组小的附属表维表。 雪花型模式 相比星型模式更加易于维护,并且节省存储空间,但是执行查询需要更

多的连接操作,所以,可能会降低浏览的性能。

10.多维数据模型上,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度

观察数据提供了灵活性。

11.多维操作 rollup上卷 通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。

下钻 drilldown 它由不太详细的数据 到更详细的数据。 下钻可以通过沿维的概念分层向下或引入新的维来

实现。切片 slice 在给定的数据立方体的一个维上进行选择,切块dice 通过对两个或多个维执行选择。

12 数据仓库 的设计过程。自顶向下 由总体设计和规划开始。当技术成熟,对必须解决的商务问题清楚并已

很好理解时,这种方法是有用的。 自底向上 以实验和原型开始 这样可以以相当低的代价前进 

13.olap 服务器 类型 rolap molap holap 

rolap 是一种中间服务器 介于关系的后端服务器和客户前端工具之间。它们使用关系或扩充关系DBMS 存放

并管理数据仓库,而olap 中间件支持其余部分。 相比其他分类,rolap 更具有可伸缩性。

molap 服务器通过基于数据的多维存储引擎,支持数据的多维视图。将多维视图直接映射到数据立方体数组

结构上。essbase   使用数据立方体的优点 是能够对预计算的汇总数据快速索引。 但是这样 引起的问题 

是  如果数据集是稀疏的 ,那么存储利用率可能很低。这种情况下,应当使用稀疏矩阵压缩技术。多数服务

器采用两级存储,来处理稀疏和稠密数据集,稠密子方不变 作为数组结构存储 

Holap将大量详细数据存放在关系型数据库中 而聚集保持在分离的MOLAP存储中。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息