您的位置：首页 > 其它

Hive动态分区

2015-11-06 15:02 507 查看

在hive中，可以通过分区进行性能优化，通过此过程数据将以某个字段进行分片存储，从而缩小查询的扫描范围，提高查询速度。

hive分区可分为静态分区和动态分区。静态分区和动态分区的区别在于导入数据时，是手动输入分区名称，还是通过数据来判断数据分区。对于大数据批量导入来说，显然采用动态分区更为简单方便。

使用hive动态分区，可分为以下步骤：

1.修改配置文件hive-site.xml以支持动态分区

hive.exec.dynamic.partition
true

hive.exec.dynamic.partition.mode
nonstrict （设置dynamic partition模式，nostrict允许所有partition列都为dynamic partition，strict不允许）

hive.exec.max.dynamic.partitions
10000 （总共允许创建的最大动态分区数）

hive.exec.max.dynamic.partitions.pernode
10000 （一个Mapper/Reducer节点可以创建的最大动态分区数）

hive.exec.max.created.files 100000 （一个MapreduceJob可以创建的最大文件数）

2.创建表

hive> create table monitor(monitor_date string, h2 double, ch4 double)

> partitioned by (monitor_id string)

> row format delimited fields terminated by ',' ;

3.插入数据

hive> insert overwrite table monitor partition(monitor_id)

> select monitor_date, h2, ch4, monitor_id

> from monitor_tmp

> order by monitor_date;

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航