Hibernate与数据库分表
2013-07-05 00:22
176 查看
数据库分片(shard)是一种在数据库的某些表变得特别大的时候采用的一种技术。
通过按照一定的维度将表切分,可以使该表在常用的检索中保持较高的效率,而那些不常用的记录则保存在低访问表中。比如:销售记录按照时间来切分。(横向切分)
也可以根据地域进行拆分,使得每个地区访问自己的表从而进行负载均衡。(纵向切分)
也可以纵横切分,使表拆的更细致。
也可以分库,让不同的数据存放在不同的服务器上,从而进一步均衡负载。
当遇到这样的事情的时候,如果不是采用了MongoDB这种自动拆表的工具,一般来说,都要自己实现一下切表的策略。其实,Hibernate中已经提供了一个很好用的包:
Hiberante Shard,该包是Google贡献给Hibernate社区的。根据其资料显示,现在这个包还是有些限制的。
比如:不能够进行跨表的order by,不能实现跨表的distinct,不能采用基础数据类型(如int)作为ID的类型。
但是它可以支持跨表的唯一ID,跨表的查询,跨表的累计...
而且它似乎只要少量的代码和简单的配置就可以使用,看来它真的是一个很好的工具。值得一试。
很不幸,网上的例子太少了,只找到了一段例子代码:
Hibernate Shards 数据的水平、垂直切割系列
这段代码下载之后运行了,由于数据量太少,并且生成在同一个表中,无法证明Hibernate Shards的作用。
官方网站的资料似乎也是惜墨如金,没有解释的非常详细。
Shards如何配置,如何使用呢?
一个工程里,有的表要切分,有的不必,如何做?
Shard和ebean如何结合使用呢?
带着这些课题,我开始了对Hibernate Shard的调查和研究。
Hibernate是一种ORM的包,它要有来自mapping.xml的“原型”,来自Java的Entity才能够形成ORMapping,还有一个数据库的表,它们的关系是一对一。
而如果采用分片技术,那么应该是一个原型,一个Entity,对应数据库的若干个结构相同的表。
在Hibernate Shard中,通过一个叫做“策略”的东西来完成这样的过程。
它允许通过定义不同的策略,来将不同分类的数据存放在不同的表(乃至库)中,而这个要通过一组和hibernate.cfg.xml结构一样的配置文件来定义。就像下面这样:
然后在生成SessionFactory的时候采用这样的代码:
而策略则分为三种:
ShardAccessStrategy
ShardSelectionStrategy
ShardResolutionStrategy
我们需要上述三种策略才能够构建Hibernate的SessionFactory,就像下面这样。
那么这三种策略都是什么,应该怎么配置呢?
这三种策略的文档说明和代码说明不怎么一致。(说实在的,这段文档真的没怎么看懂,幸运的是,它是OpenSource的)
ShardAccessStrategy 文档说,切片访问策略,它定义了Hibernate如何和多个Shard之间进行访问。
幸运的是,Hibernate已经为我们创建了两个定义好了的ShardAccessStrategy,它们是:
SequentialShardAccessStrategy (顺序切片访问策略) 和 ParallelShardAccessStrategy(并行切片访问策略)
顺序切片访问策略 如其名称所言,它按照顺序切片,资料显示,它有可能在访问无序数据时性能偏低,若是这种情况,官方建议使用LoadBalancedSequentialShardAccessStrategy。
并行切片访问策略 如其名称所言,它提供了并行访问的策略,所以它同时要求提供一个并行策略执行器。 —— 听起来挺难得,而且,介绍资料说——这超纲了。
先不管这么多吧,假设我们访问的数据是一种,按地区、按年份增长的数据,每个城市个月增长量都在10万~1百万,那么我们要在这里采用什么策略呢?
数据是按照时间排序的,所以,我们可以采用SequentialShardAccessStrategy,按月分片,并且按照地区分片。
ShardSelectionStrategy 文档说定义了如何创建一个新对象。
代码上的注释说:Determine the specific shard on which this object should reside
也就是说,这个是定义哪个领域用来存放这条数据的。
ShardResolutionStrategy 文档说是表示如何将数据进行分流的。比如我们提到的按地区、按月分片。那么数据需要根据这些条件存放在不同的表中。而ShardResolutionStrategy就是帮助我们来完成这个动作的。
代码注释上说:Determine the shards on which an object might live
在ShardStrategyFactory的newShardStrategy方法中传入的参数List<ShardId> shardIds会帮助我们进行选择区域动作。ShardId会定位对应的Continent。
我跟踪了一下那段例子代码,这里的shardIds表示有多少个hibernate.cfg.xml文件中的不同的shard_id字段的值。而ShardSelectionStrategy在Insert的时候会执行,而ShardResolutionStrategy则会在Select的时候执行。(update/delete尚未尝试。)
我们可以在ShardSelectionStrategy中建立自己的策略,比如,按照时间,按照地区来区分数据。从而把数据存放在不同的库中。
因为shardx.hibernate.cfg.xml指定了不同的数据库,所以,到这里可以实现分库了。
而对于那些不必分表的直接return 0即可。
第一版的测试代码在这里下载。
---------------
下一步我将研究一下,如何分表和如何结合Ebean。
通过按照一定的维度将表切分,可以使该表在常用的检索中保持较高的效率,而那些不常用的记录则保存在低访问表中。比如:销售记录按照时间来切分。(横向切分)
也可以根据地域进行拆分,使得每个地区访问自己的表从而进行负载均衡。(纵向切分)
也可以纵横切分,使表拆的更细致。
也可以分库,让不同的数据存放在不同的服务器上,从而进一步均衡负载。
当遇到这样的事情的时候,如果不是采用了MongoDB这种自动拆表的工具,一般来说,都要自己实现一下切表的策略。其实,Hibernate中已经提供了一个很好用的包:
Hiberante Shard,该包是Google贡献给Hibernate社区的。根据其资料显示,现在这个包还是有些限制的。
比如:不能够进行跨表的order by,不能实现跨表的distinct,不能采用基础数据类型(如int)作为ID的类型。
但是它可以支持跨表的唯一ID,跨表的查询,跨表的累计...
而且它似乎只要少量的代码和简单的配置就可以使用,看来它真的是一个很好的工具。值得一试。
很不幸,网上的例子太少了,只找到了一段例子代码:
Hibernate Shards 数据的水平、垂直切割系列
这段代码下载之后运行了,由于数据量太少,并且生成在同一个表中,无法证明Hibernate Shards的作用。
官方网站的资料似乎也是惜墨如金,没有解释的非常详细。
Shards如何配置,如何使用呢?
一个工程里,有的表要切分,有的不必,如何做?
Shard和ebean如何结合使用呢?
带着这些课题,我开始了对Hibernate Shard的调查和研究。
Hibernate是一种ORM的包,它要有来自mapping.xml的“原型”,来自Java的Entity才能够形成ORMapping,还有一个数据库的表,它们的关系是一对一。
而如果采用分片技术,那么应该是一个原型,一个Entity,对应数据库的若干个结构相同的表。
在Hibernate Shard中,通过一个叫做“策略”的东西来完成这样的过程。
它允许通过定义不同的策略,来将不同分类的数据存放在不同的表(乃至库)中,而这个要通过一组和hibernate.cfg.xml结构一样的配置文件来定义。就像下面这样:
<?xml version='1.0' encoding='utf-8'?> <!DOCTYPE hibernate-configuration PUBLIC "-//Hibernate/Hibernate Configuration DTD//EN" "http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd"> <hibernate-configuration> <session-factory> <property name="connection.driver_class">com.mysql.jdbc.Driver</property> <property name="connection.url">jdbc:mysql://localhost/test</property> <property name="connection.username">root</property> <property name="connection.password">root</property> <property name="connection.pool_size">10</property> <property name="show_sql">true</property> <property name="dialect">org.hibernate.dialect.MySQLInnoDBDialect</property> <property name="hbm2ddl.auto">validate</property> <property name="hibernate.connection.shard_id">0</property> <property name="hibernate.shard.enable_cross_shard_relationship_checks">false</property> <mapping resource="ContactEntity.hbm.xml" /> </session-factory> </hibernate-configuration>
然后在生成SessionFactory的时候采用这样的代码:
private static SessionFactory createSessionFactory() { Configuration prototypeCfg = new Configuration() .configure("shard0.hibernate.cfg.xml"); List<ShardConfiguration> shardCfgs = new ArrayList<ShardConfiguration>(); shardCfgs.add(buildShardConfig("shard0.hibernate.cfg.xml")); shardCfgs.add(buildShardConfig("shard1.hibernate.cfg.xml")); ShardStrategyFactory strategyFactory = buildShardStrategyFactory(); ShardedConfiguration shardedConfig = new ShardedConfiguration( prototypeCfg, shardCfgs, strategyFactory); return shardedConfig.buildShardedSessionFactory(); }
而策略则分为三种:
ShardAccessStrategy
ShardSelectionStrategy
ShardResolutionStrategy
我们需要上述三种策略才能够构建Hibernate的SessionFactory,就像下面这样。
private static ShardStrategyFactory buildShardStrategyFactory() { return new ShardStrategyFactory() { public ShardStrategy newShardStrategy(List<ShardId> shardIds) { ShardSelectionStrategy ss = new MyShardSelectionStrategy(shardIds); ShardResolutionStrategy rs = new MyShardResolutionStrategy(shardIds); ShardAccessStrategy as = new SequentialShardAccessStrategy(); return new ShardStrategyImpl(ss, rs, as); } }; }
那么这三种策略都是什么,应该怎么配置呢?
这三种策略的文档说明和代码说明不怎么一致。(说实在的,这段文档真的没怎么看懂,幸运的是,它是OpenSource的)
ShardAccessStrategy 文档说,切片访问策略,它定义了Hibernate如何和多个Shard之间进行访问。
幸运的是,Hibernate已经为我们创建了两个定义好了的ShardAccessStrategy,它们是:
SequentialShardAccessStrategy (顺序切片访问策略) 和 ParallelShardAccessStrategy(并行切片访问策略)
顺序切片访问策略 如其名称所言,它按照顺序切片,资料显示,它有可能在访问无序数据时性能偏低,若是这种情况,官方建议使用LoadBalancedSequentialShardAccessStrategy。
并行切片访问策略 如其名称所言,它提供了并行访问的策略,所以它同时要求提供一个并行策略执行器。 —— 听起来挺难得,而且,介绍资料说——这超纲了。
先不管这么多吧,假设我们访问的数据是一种,按地区、按年份增长的数据,每个城市个月增长量都在10万~1百万,那么我们要在这里采用什么策略呢?
数据是按照时间排序的,所以,我们可以采用SequentialShardAccessStrategy,按月分片,并且按照地区分片。
ShardSelectionStrategy 文档说定义了如何创建一个新对象。
代码上的注释说:Determine the specific shard on which this object should reside
也就是说,这个是定义哪个领域用来存放这条数据的。
ShardResolutionStrategy 文档说是表示如何将数据进行分流的。比如我们提到的按地区、按月分片。那么数据需要根据这些条件存放在不同的表中。而ShardResolutionStrategy就是帮助我们来完成这个动作的。
代码注释上说:Determine the shards on which an object might live
在ShardStrategyFactory的newShardStrategy方法中传入的参数List<ShardId> shardIds会帮助我们进行选择区域动作。ShardId会定位对应的Continent。
我跟踪了一下那段例子代码,这里的shardIds表示有多少个hibernate.cfg.xml文件中的不同的shard_id字段的值。而ShardSelectionStrategy在Insert的时候会执行,而ShardResolutionStrategy则会在Select的时候执行。(update/delete尚未尝试。)
我们可以在ShardSelectionStrategy中建立自己的策略,比如,按照时间,按照地区来区分数据。从而把数据存放在不同的库中。
因为shardx.hibernate.cfg.xml指定了不同的数据库,所以,到这里可以实现分库了。
而对于那些不必分表的直接return 0即可。
第一版的测试代码在这里下载。
---------------
下一步我将研究一下,如何分表和如何结合Ebean。
相关文章推荐
- Hibernate 动态表名映射(数据库分表) NamingStrategy
- Ibatis和Hibernate 数据库分表(动态表名映射)的实现方法
- Hibernate与数据库分表
- Hibernate与数据库分表
- Hibernate 动态表名映射(数据库分表) NamingStrategy
- Hibernate与数据库分表
- Ibatis和Hibernate 数据库分表(动态表名映射)的实现方法
- Ibatis和Hibernate 数据库分表(动态表名映射)的实现方法
- Ibatis和Hibernate 数据库分表(动态表名映射)的实现方法
- 让Hibernate识别数据库特有字段
- Hibernate数据库操作优化
- 关于在执行hibernate3.0的save方法后数据无法添加到数据库的问题
- 配置Hibernate连数据库
- 图文教程:使用MyEclipse的hibernate工具从数据库反向生成实体Bean
- Hibernate 不同数据库的连接及SQL方言
- Hibernate 不同数据库的连接及SQL方言
- hibernate + spring 不能写入数据库,查询就OK
- 精通数据库SQL——java数据类型,hibernate数据类型,标准sql数据类型之间的对应表
- hibernate 映射 数据库number 映射为 double 为空 报错问题
- Hibernate 各种数据库的配置