您的位置：首页 > 数据库 > MySQL

MySQL 分区表原理及数据备份转移实战

2017-02-28 21:47 232 查看

MySQL 分区表原理及数据备份转移实战

1、分区表含义

分区表定义指根据可以设置为任意大小的规则，跨文件系统分配单个表的多个部分。实际上，表的不同部分在不同的位置被存储为单独的表。用户所选择的、实现数据分割的规则被称为分区函数，这在MySQL中它可以是模数，或者是简单的匹配一个连续的数值区间或数值列表，或者是一个内部HASH函数，或一个线性HASH函数。

分表与分区的区别在于：分区从逻辑上来讲只有一张表，而分表则是将一张表分解成多张表。

2、分区表优点

1)分区表更容易维护。对于那些已经失去保存意义的数据，通常可以通过删除与那些数据有关的分区，很容易地删除那些数据。相反地，在某些情况下，添加新数据的过程又可以通过为那些新数据专门增加一个新的分区，来很方便地实现。

2)一些查询可以得到极大的优化，这主要是借助于满足一个给定WHERE语句的数据可以只保存在一个或多个分区内，这样在查找时就不用查找其他剩余的分区。因为分区可以在创建了分区表后进行修改，所以在第一次配置分区方案时还不曾这么做时，可以重新组织数据，来提高那些常用查询的效率。

3)优化查询。涉及到例如SUM()和COUNT(),可以在多个分区上并行处理，最终结果只需通过总计所有分区得到的结果。

4)通过跨多个磁盘来分散数据查询，来获得更大的查询吞吐量。

3、分区表限制

1)一个表最多只能有1024个分区；

2) MySQL5.1中，分区表达式必须是整数，或者返回整数的表达式。在MySQL5.5中提供了非整数表达式分区的支持；

3)如果分区字段中有主键或者唯一索引的列，那么多有主键列和唯一索引列都必须包含进来。即：分区字段要么不包含主键或者索引列，要么包含全部主键和索引列；

4)分区表中无法使用外键约束；

5)MySQL的分区适用于一个表的所有数据和索引，不能只对表数据分区而不对索引分区，也不能只对索引分区而不对表分区，也不能只对表的一部分数据分区。

6)分区键必须是INT类型，或者通过表达式返回INT类型，可以为NULL。唯一的例外是当分区类型为KEY分区的时候，可以使用其他类型的列作为分区键(BLOB or TEXT 列除外)

7)如果表中有主键和唯一索引，按主键字段进行分区时，唯一索引列应该包含分区键。

8)目前mysql不支持空间类型和临时表类型进行分区。不支持全文索引。

9)对象限制(分区表达式不能出现Stored functions, stored procedures, UDFs, orplugins,Declared variables or user variables.)

10)运算限制(支持加减乘等运算出现在分区表达式，但是运算后的结果必须是一个INT或者NULL。支持DIV,不支持/,|, &, ^, <<, >>, and ~ 不允许出现在分区表达式中)

11)sql_mode限制(官方强烈建议你在创建分区表后，永远别改变mysql的sql_mode。因为在不同的模式下，某些函数或者运算返回的结果可能会不一样)

12)不支持query_cache和INSERT DELAYED

13)分区键不能是一个子查询(即使是子查询返回的是int值或者null.)

14)子分区限制(只有RANG和LIST分区能进行子分区。HASH和KEY分区不能进行子分区并且子分区必须是HASH 或 KEY类型)

4、分区类型

1)水平分区(根据列属性按行分)

如:一个包含十年发票记录的表可以被分区为十个不同的分区，每个分区包含的是其中一年的记录。

水平分区的几种模式：

* Range（范围）：这种模式允许DBA将数据划分不同范围。

如:可以将一个表通过年份划分成三个分区，80年代（1980's）的数据，90年代（1990's）的数据以及任何在2000年（包括2000年）后的数据。

* Hash（哈希）：这中模式允许DBA通过对表的一个或多个列的Hash Key进行计算，最后通过这个Hash码不同数值对应的数据区域进行分区。

如：可以建立一个对表主键进行分区的表。

* Key（键值）：上面Hash模式的一种延伸，这里的Hash Key是MySQL系统产生的。

* List（预定义列表）：这种模式允许系统通过DBA定义的列表的值所对应的行数据进行分割。例如：DBA建立了一个横跨三个分区的表，分别根据2004年2005年和2006年值所对应的数据。

* Columns分区是对range，list分区的补充，弥补了后两者只支持整型数分区（或者通过转换为整型数），使得支持数据类型增加很多（所有整数类型，日期时间类型，字符类型），还支持多列分区。

注:在多列分区表上插入数据时，采用元组的比较，即多列排序，先根据field1排序，再根据field2排序，根据排序结果来来分区存储数据。

* Composite（复合模式）：以上模式的组合使用。

如：在初始化已经进行了Range范围分区的表上，可以对其中一个分区再进行hash哈希分区。

垂直分区（按列分）：

如：一个包含了大text和BLOB列的表，这些text和BLOB列又不经常被访问，可以把这些不经常使用的text和BLOB划分到另一个分区，在保证它们数据相关性的同时还能提高访问速度。

注意：子分区（关键字subparttition）：使用RANGE或LIST分区可以再次分割形成子分区，子分区可以是HASH分区或者KEY分区。建议在多磁盘上使用。

5、查看是否有支持Partition分区表

注意:MySQL 5.6.1 之前的版本，可以下命令查看 have_partitioning 参数，新的版本已移除该参数。

5、实战常用分区表几种模式

1)使用RANGE分区模式

####创建测试表t1，并插入接近400万行数据，再没有分区的情况下，对查询某一条件耗时

如果是针对已有的表进行表分区，可以使用ALTER TABLE来进行更改表为分区表，这个操作会创建一个分区表，然后自动进行数据copy然后删除原表。

注: 这种会使服务器资源消耗比较大(400多万数据要1分多钟)

同样用上面的查询测试结果

同时也要注意，进行表分区以后，mysql存放的数据文件夹中该表的存放文件也被拆分为多个

实际生产环境中，大多是采用另外一种方式:新建一个和原来表一样的分区表，然后把数据从原表导出，接着导入新表，最后建立普通索引。

注:表主键只有id，而分区字段是atime, 这里主键要修改为 id,stsdate 联合主键，分区表要求分区字段要是主键或者是主键的一部分!!!

或采用导出数据再导入数据，可再添加索引

修改表名，导入数据，测试下ok，删除原来的表。

2)使用LIST分区模式(如果原表存在主键强烈创建新表时，把原主键和要分区字段作为联合主键一并创建)

存放mysql数据文件中生成，以下文件

3)COLUMNS分区

创建多列分区表tb02，这里两列都不是联合主键

4)Hase分区

HASH主要是为了让数据在设定个数的分区中尽可能分布平均，执行哈希分区时，mysql会对分区键执行哈希函数，以确定数据放在哪个分区中。HASH分区分为常规HASH分区和线性HASH分区，前者使用取模算法，后者使用线性2的幂的运算规则。

注意:HASH分区虽然尽可能让数据平均地分布在每个分区上，提高了查询效率，但增加了分区管理的代价，比如以前有5个分区，现在要加上一个分区，算法有mod(expr,5)变成(expr,6)，原5个分区的数据大部分要重新计算重新分区。虽然使用线性HASH分区会降低分区管理的代价，但是数据却没有常规HASH分布得那么均匀。

5)KEY分区

KEY分区类似与HASH分区，但是不能自定义表达式，不过支持分区键的类型很多，除Text,Blob等文本类型。

6)分区表管理

建议在生产环境中尽量不要修改分区，alter会读出存在旧表中的数据，再存入新定义的表中，过程IO将很大，而且全表都会锁住。

*1*删除分区:示例以上面tb01表

--未删除p05分区查询数据，主要验证当删除分区数据是否被删除

注意：删除分区会删除数据，谨慎操作；不可以删除hash或者key分区。

*2*增加分区

注：新分区的值不能包含任意一个现有分区中值列表中的值，否则报错;新增分区会重新整理数据，原有数据不会丢失。有MAXVALUE值后，直接不能直接加分区，如示例以上面的t1表为例子。

*3*分解分区

注：Reorganize partition关键字可以对表的部分分区或全部分区进行修改，并且不会丢失数据。分解前后分区的整体范围应该一致。

示例：

*4*合并分区

注:把2个分区合并为一个。

示例：把上面的tb05表中分解的p01和p02合并至p1上

*5*重新定义hash分区表:

RANGE和LIST分区在重新定义时，只能重新定义相邻的分区，不可以跳过分区，并且重新定义的分区区间必须和原分区区间一致，也不可以改变分区的类型。

示例:

*6*删除表的所有分区:

示例:删除tb03表所有分区

*7*整理分区碎片

注:如果从分区中删除了大量的行，或者对一个带有可变长度的行（也就是说，有VARCHAR，BLOB，或TEXT类型的列）作了许多修改，可以使用“ALTER TABLE ... OPTIMIZE PARTITION”来收回没有使用的空间，并整理分区数据文件的碎片。

*8*分析分区：

读取并保存分区的键分布。

*9*检查分区：

可以使用几乎与对非分区表使用CHECK TABLE 相同的方式检查分区。这个命令可以告诉tb04表分区p1,p2中的数据或索引是否已经被破坏。如果发生了这种情况，使用“ALTER TABLE ... REPAIR PARTITION”来修补该分区。

6、实际生产简单应用，场景:之前有个没有分区的大数据量表SmsSend(例表，大概2800万行记录)，统计过程非常的耗时，考虑用年分区，并且对历史数据库进行备份，把过去2014年的数据转移至新的备份表smssendbak。如在线重定义比较耗时间，可采用exchange处理！

1)查看当前SmsSend表

2)快速创建一个smssendbak备份表与原SmsSend表结构一致，并删除备份表所有分区

3)使用EXCHANGE PARTITION转移分区数据至备份表，并查看原来表分区记录以及新备份表smssendbak记录

本文出自 “一万小时定律” 博客，请务必保留此出处http://daisywei.blog.51cto.com/7837970/1900331

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航