关于HASH分区
2014-01-26 09:48
302 查看
上次参加oracle的培训,老师讲到了利用10g智能分区匹配可以极大地提高两个分区表的连接速度,对于这两个分区的要求就是必须采用相同的分区策略,最简单的实现就是两个分区表都采用HASH分区,并且HASH分区的分区数也必须是相同的。老师还提到对于HASH分区来说,分区的数量最好是2的幂,这样的效率会高一些。
至于为什么分区的数量最好是2的幂这个问题,我一直也没有思考,就当个经验记下来了。前两天看一位大牛的BLOG也提到HASH分区的事情,仔细阅读之后才明白。HASH分区的个数会极大的影响HASH分区表的数据分布。也就是说,HASH分区个数为2的幂的时候数据会更加的平均分布在每一个分区中。
我做了一个简单的测试,只帖出简单的测试方法和结论。
测试方法:
1, 建立测试用HASH分区表
2,插入测试记录
3,查询各个分区中的记录数
注意:在上面的表中我只插入了16条简单的记录,是为了测试方便,更加方便的得到测试的结论。不过,由于记录太少,所以即使采用合理的分区方式也不能避免数据分布的不平均。这个不平均是由于记录的问题产生的,分布方式本身是没有问题的。
测试结果:
我的测试一直做到partiton是8的时候,结果都很相似,就不贴出来了。
测试结论:
1, 对于HASH分区来说并不存在split partition的操作,仅仅存在add partition的操作。数据在各个分区的分布情况并不由我们控制,而是通过oracle中的hash函数来操作的,所以我们不能显示的指定某一个分区进行分裂。
2, 当我们对HASH分区进行add partition操作的时候,假设增加分区后的总分区个数为m,大于m的最小的2的幂是n,那么partiton m的数据是由分区(m – n/2)(某大牛的结论)。
3, 当我们确定合理的分区数量的之后,数据的分布完全由分区表中的数据本身决定。对于某些特定的数据来说,HASH分区后的效果可能并不好。数据的随机性越大,数据的样本量越大,HASH分区后的效果越好,因为数据有可能更加平均的分散到每个bucket中。
4, 最后需要说一点,虽然很简单,但却常常让人误会。对于分区个数为m的HASH分区表来说,无论期间经历了怎么样的过程(比如说先建立n个分区的HASH分区表,然后通过add partiton来达到m;还是直接建立一个分区数为m的分区表;)最后的结果都是一样。“殊途同归”!
5, 最后最后需要说的一点是,对于HASH分区表,drop partition操作是不可以的。
至于为什么分区的数量最好是2的幂这个问题,我一直也没有思考,就当个经验记下来了。前两天看一位大牛的BLOG也提到HASH分区的事情,仔细阅读之后才明白。HASH分区的个数会极大的影响HASH分区表的数据分布。也就是说,HASH分区个数为2的幂的时候数据会更加的平均分布在每一个分区中。
我做了一个简单的测试,只帖出简单的测试方法和结论。
测试方法:
1, 建立测试用HASH分区表
Create table sunwg (id varchar2(100)) Partition by hash(id) (partition p1, Partition p2);
2,插入测试记录
Insert into sunwg select rownum from dba_objects where rownum<17;
3,查询各个分区中的记录数
P1 rownum : select count(*) from sunwg partition (p1); P2 rownum : select count(*) from sunwg partition (p2);
注意:在上面的表中我只插入了16条简单的记录,是为了测试方便,更加方便的得到测试的结论。不过,由于记录太少,所以即使采用合理的分区方式也不能避免数据分布的不平均。这个不平均是由于记录的问题产生的,分布方式本身是没有问题的。
测试结果:
1,分区数:2,记录数:16 Partition p1 rownum : 6 Partition p2 rownum : 10 2, 分区数:3,记录数:16 Partition p1 rownum : 5 Partition p2 rownum : 10 Partition p3 rownum : 1 P1 ===》P1 + P3 3,分区数:4,记录数:16 Partition p1 rownum : 5 Partition p2 rownum : 4 Partition p3 rownum : 1 Partition p3 rownum : 6 P4 ===》P2 + P4
我的测试一直做到partiton是8的时候,结果都很相似,就不贴出来了。
测试结论:
1, 对于HASH分区来说并不存在split partition的操作,仅仅存在add partition的操作。数据在各个分区的分布情况并不由我们控制,而是通过oracle中的hash函数来操作的,所以我们不能显示的指定某一个分区进行分裂。
2, 当我们对HASH分区进行add partition操作的时候,假设增加分区后的总分区个数为m,大于m的最小的2的幂是n,那么partiton m的数据是由分区(m – n/2)(某大牛的结论)。
3, 当我们确定合理的分区数量的之后,数据的分布完全由分区表中的数据本身决定。对于某些特定的数据来说,HASH分区后的效果可能并不好。数据的随机性越大,数据的样本量越大,HASH分区后的效果越好,因为数据有可能更加平均的分散到每个bucket中。
4, 最后需要说一点,虽然很简单,但却常常让人误会。对于分区个数为m的HASH分区表来说,无论期间经历了怎么样的过程(比如说先建立n个分区的HASH分区表,然后通过add partiton来达到m;还是直接建立一个分区数为m的分区表;)最后的结果都是一样。“殊途同归”!
5, 最后最后需要说的一点是,对于HASH分区表,drop partition操作是不可以的。
SQL> alter table sunwg drop partition p1; alter table sunwg drop partition p1 * ERROR at line 1: ORA-14255: table is not partitioned by Range, Composite Range or List method
相关文章推荐
- 转:关于星际与XP的结对编程
- 【转】关于如何在类库中使用Response,Request,Server,Session!
- 关于eclipse的快捷键 常用大全
- 关于如何在.net程序中动态改变界面文化的一些链接
- 关于我国十进制网络安全地址投入使用
- 关于Jsp里面中文字符的问题
- js关于字符串的长度(含中英文)的
- 关于客户关系管理系统几点思考
- (转)关于asp.net的UrlRewriting,HttpHandlers ,HttpModules技术的文章收集
- 关于父类引用指向子类对象
- 关于CompleteWithAppPath函数,CompleteWithAppPath(aFileName)
- 关于本科学习GIS的一点感悟,不知道自己该干些什么的学弟学妹们可以借鉴一下……
- Asp.net 2.0 关于Header/title/Meta tages/Style操作的一点小技巧
- 关于Linux静态库和动态库的分析
- 又是一篇关于字符串的
- 关于某网站的JSP问题,能出问题到如此程度
- 一个关于jQuery UI里的slider的问题
- 关于HibernateDaoSupport的几个不错的讲解
- 关于menset函数
- 关于C# -WINFORM-DataGridView的更新、删除