您的位置：首页 > 其它

Hive分区表更改表结构

2013-08-12 10:31 232 查看

Hive的分区表更改表结构后需要注意的是旧分区的结构(包括序列化参数)都是不会更改的，如果往旧分区里重新insert或者load数据覆盖掉原来的数据，hive去旧分区select出来的新字段仍是NULL，所以需要手动去数据库里修改hive的元数据。(基于hive-0.10，序列化参数应该是都不会变，但是在0.8.1里旧分区的结构好像也会随着表结构更改。)

修改分区表结构

hive元数据中表结构存放在COLUMNS_V2表里，这个表的主键是CD_ID和COLUMN_NAME，CD_ID和TBL_ID是一一对应的，因此只需要把每个分区对应的CD_ID替换成表的CD_ID即可，shell脚本如下：

table=$1
CD_ID=`echo "select CD_ID from SDS where SD_ID=(select SD_ID from TBLS where TBL_NAME='$table')" | mysql |grep -v 'CD_ID'`
echo $CD_ID
echo "update SDS set CD_ID=$CD_ID where SD_ID in (select SD_ID from PARTITIONS where TBL_ID=(select TBL_ID from TBLS where TBL_NAME='$table'))"|mysql

修改分区序列化参数

序列化参数存放在SERDE_PARAMS表里，表主键是SERDE_ID和PARAM_KEY，SERDE_ID和SD_ID是一一对应的，而SD_ID和TBL_ID也是一一对应的，同理只需要把分区的SERDE_ID替换成表的SERDE_ID即可

table=$1
SERDE_ID=`echo "select SERDE_ID from SDS where SD_ID=(select SD_ID from TBLS where TBL_NAME='$table')" | mysql |grep -v 'SERDE_ID'`
echo $SERDE_ID
echo "update SDS set SERDE_ID=$SERDE_ID where SD_ID in (select SD_ID from PARTITIONS where TBL_ID=(select TBL_ID from TBLS where TBL_NAME='$table'))"|mysql

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Hive hive元数据 hive分区表

相关文章推荐

新的分享

章节导航