OLTP和OLAP模式下的内存分配 [对数据仓库优化指明了纲领方向]
2014-01-10 09:18
417 查看
OLTP和OLAP模式下的内存分配
联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
区别OLTP还是OLAP
在数据库的设计中,就算完全掌握了以上的方法,但是,在不同的数据库类型上,使用起来也是大有差别的,这就需要设计者弄清楚自己的业务类型。如果没有正确地识别自己的业务类型,就盲目地开始设计数据库,或者是盲目地寻求优化方法,则往往是把OLAP的方法使用在OLTP上,或者是把OLTP的方法使用在OLAP上。如果这样,很可能会适得其反。
什么是OLTP
OLTP,也叫联机事务处理(Online Transaction Processing),表示事务性非常高的系统,一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行的Transaction以及Execute SQL的数量。在这样的系统中,单个数据库每秒处理的Transaction往往超过几百个,或者是几千个,Select 语句的执行量每秒几千甚至几万个。典型的OLTP系统有电子商务系统、银行、证券等,如美国eBay的业务数据库,就是很典型的OLTP数据库。
注意:如果不特殊指定,本书中的高可用数据库都是指OLTP类型的数据库。
OLTP系统最容易出现瓶颈的地方就是CPU与磁盘子系统。
CPU出现瓶颈常表现在逻辑读总量与计算性函数或者是过程上,逻辑读总量等于单个语句的逻辑读乘以执行次数,如果单个语句执行速度虽然很快,但是执行次数非常多,那么,也可能会导致很大的逻辑读总量。设计的方法与优化的方法就是减少单个语句的逻辑读,或者是减少它们的执行次数。另外,一些计算型的函数,如自定义函数、decode等的频繁使用,也会消耗大量的CPU时间,造成系统的负载升高,正确的设计方法或者是优化方法,需要尽量避免计算过程,如保存计算结果到统计表就是一个好的方法。
磁盘子系统在OLTP环境中,它的承载能力一般取决于它的IOPS处理能力。因为在OLTP环境中,磁盘物理读一般都是db file sequential read,也就是单块读,但是这个读的次数非常频繁。如果频繁到磁盘子系统都不能承载其IOPS的时候,就会出现大的性能问题。
OLTP比较常用的设计与优化方式为Cache技术与B-tree索引技术,Cache决定了很多语句不需要从磁盘子系统获得数据,所以,Web cache与Oracle data buffer对OLTP系统是很重要的。另外,在索引使用方面,语句越简单越好,这样执行计划也稳定,而且一定要使用绑定变量,减少语句解析,尽量减少表关联,尽量减少分布式事务,基本不使用分区技术、MV技术、并行技术及位图索引。因为并发量很高,批量更新时要分批快速提交,以避免阻塞的发生。
什么是OLAP
OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。在这样的系统中,语句的执行量不是考核标准,因为一条语句的执行时间可能会非常长,读取的数据也非常多。所以,在这样的系统中,考核的标准往往是磁盘子系统的吞吐量(带宽),如能达到多少MB/s的流量。磁盘子系统的吞吐量则往往取决于磁盘的个数,这个时候,Cache基本是没有效果的,数据库的读写类型基本上是db
file scattered read与direct path read/write。应尽量采用个数比较多的磁盘以及比较大的带宽,如4Gb的光纤接口。
在OLAP系统中,常使用分区技术、并行技术。如分区技术可以使得一些大表的扫描变得很快(只扫描单个分区),而且方便管理。另外,如果分区结合并行的话,也可以使得整个表的扫描会变得很快。并行技术除了与分区技术结合外,在Oracle 10g中,与RAC结合实现多节点的同时扫描,效果也非常不错,可把一个任务,如select的全表扫描,平均地分派到多个RAC的节点上去。
在OLAP系统中,不需要使用绑定(BIND)变量,因为整个系统的执行量很小,分析时间对于执行时间来说,可以忽略,而且可避免出现错误的执行计划。但是OLAP中可以大量使用位图索引,物化视图,对于大的事务,尽量寻求速度上的优化,没有必要像OLTP要求快速提交,甚至要刻意减慢执行的速度。
分开设计与优化
以上描述了OLTP与OLAP的特点,在设计上要特别注意,如在高可用的OLTP环境中,不要盲目地把OLAP的技术拿过来用。
如分区技术,假设不是大范围地使用分区关键字,而采用其它的字段作为where条件,那么,如果是本地索引,将不得不扫描多个索引,而性能变得更为低下。如果是全局索引,又失去分区的意义。
并行技术也是如此,一般在完成大型任务时才使用,如在实际生活中,翻译一本书,可以先安排多个人,每个人翻译不同的章节,这样可以提高翻译速度。如果只是翻译一页书,也去分配不同的人翻译不同的行,再组合起来,就没必要了,因为在分配工作的时间里,一个人或许早就翻译完了。
位图索引也是一样,如果用在OLTP环境中,很容易造成阻塞与死锁。但是,在OLAP环境中,可能会因为其特有的特性,提高OLAP的查询速度。MV也是基本一样,包括触发器等,在DML频繁的OLTP系统上,很容易成为瓶颈,甚至是Library Cache等待,而在OLAP环境上,则可能会因为使用恰当而提高查询速度。
关于SGA、PGA与系统内存三者间的关联,目前有一个相对通用的计算规则可供参考:
对于OLTP数据库,SGA=系统内存*70%*80%,PGA=SGA*(10%~20%)。SGA=系统内存*0.56 PGA=系统内存*(0.05~0.1)
对于OLAP数据库,SGA=系统内存*80%*60%,PGA=SGA*(45%~65%)。SGA=系统内存*0.48 PGA=系统内存*(0.22~0.31)
(对于32bit平台,默认情况下SGA最大可用内存有1.7GB的限制)
OLAP由于有着大量的全表扫描等操作,这样的环境中SGA的作用就不太大,因为可能一张表的数据量都比DB CACHE大,一个FTS的就需要反复几次数据经过SGA再转到PGA进行处理;至于共享池的存在意义就更不大了,因为很少有语句需要共享的。将PGA设置大一些就是因为OLAP里面的很多操作是需要到PGA来处理的,比如大数据量的排序、连接等操作,通过并行处理,通常是发生direct path read,这样数据通常是直接从数据文件读取到PGA进行处理,因此需要PGA大一些
相关文章推荐
- oltp olap 数据仓库 数据挖掘 商务智能概念
- 数据仓库篇章 OLTP/OLAP 区别
- OLAP,OLTP等数据仓库概念
- OLAP OLTP 数据仓库
- 《计算机时代》2015年第7期刊登出《基于数据仓库星形模式的广东省高速公路一张网资金结算情况分析系统》
- MongoDB 索引数据类型优化,节省60%内存
- 频繁分配释放内存导致的性能问题的分析 --(附)malloc分配原理浅析 mmap关注焦点 如何优化分配内存
- 深入浅出数据仓库中SQL性能优化之Hive篇
- 数据仓库和OLAP技术回顾综述
- 浅谈SUN JVM内存管理与应用服务器的优化之 服务器内存分配与优化
- Linux设备驱动程序学习之数据类型与内存分配 .
- java的各类型数据在内存中分配情况详解
- 关于VS编译的程序内存分配只能用1.5~2G上限的优化方案
- 34、C++ Primer 4th笔记,特殊工具与技术,优化内存分配(1)
- 深入浅出数据仓库中SQL性能优化之Hive篇
- 由动态分配和静态分配的数据在内存组成区别
- 优化方案:ETL的过程原理和数据仓库建设
- 黑马程序员-java各类型数据在内存分配问题
- java的各类型数据在内存中分配情况详解
- 基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(五)