您的位置:首页 > 其它

hive中的NULL分析

2015-08-12 10:17 323 查看
Hive中有种假NULL,它看起来和NULL一摸一样,但是实际却不是NULL。空值NULL在底层默认是用'\N'来存储的,Hive中'\'是转义字符,需要对'\'进行一次转义,所以变成'\\N'。
如果实际想存储'\N',那么实际查询出来的也是NULL而不是'\N'。
修改默认的NULL表示:
alter table test SET SERDEPROPERTIES('serialization.null.format' = 'a');

hive的使用中不可避免对null、‘’的判断识别。但是hive区别与传统的数据库。下面一一说明
1、数据类型。
int与string的存储。null默认的存储都是\N。 string的数据如果为""。存储才是""。另外往int类型的字段插入数据“”.结果还是\N
[hadoop@nn1 ~]$ hadoop fs -cat /user/hive/warehouse/aaa.db/dual2/*
Warning: $HADOOP_HOME is deprecated.
1aaa
\Nbbb
3\N
3
4
 
2。查询的时候。对于int就是可以使用is NULL。
   对于string类型。is NULL查出来的是\N的数据;对于条件 ='',查询出来的数据是""的。
select b.id,b.name,a.id
from
dual2 b
left outer join 
dual a
on (a.id=b.id)
where b.name ='';
结果:
3               NULL
4               NULL
select b.id,b.name,a.id
from
dual2 b
left outer join 
dual a
on (a.id=b.id)
where b.name is NULL;
结果:
3       NULL    NULL
 
可以看出:判断是根据实际的存储判断所得出。
因此,在开发过程中如果需要对空进行判断,一定得知道存储的是哪种数据。

附判断例子:
select if(t.userid is NULL,k.userid,t.userid) as userid, if(t.vodtime is NULL,0,t.vodtime) as vodtime, if(k.seriestime is NULL,0,k.seriestime) as seriestime from
(select userid, round(sum(allseconds)/3600,3) as vodtime from vodview where num = -1 group by userid ) t FULL JOIN 
(select userid, round(sum(allseconds)/3600,3) as seriestime from vodview where num <> -1 group by userid) k
on t.userid = k.userid
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: