Hive去重复数据
2015-07-10 15:10
148 查看
这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据。
Hive数据去重
Sql代码
insert overwrite table store
select t.p_key,t.sort_word from
( select p_key,
sort_word ,
row_number() over(distribute by p_key sort by sort_word) as rn
from store) t
where t.rn=1;
说明:
p_key为去重所依据的key,sort_word表示多个p_key的排列顺序,这个关键字将决定哪个p_key将留下。
t 为子查询的别名,Hive需要在每个子查询后面加别名
t.rn=1表示重复的数据只保留第一个。
distribute by 关键字指定分发的key,同一个key将分发到同一个reducer
sort by 是单机范围内排序,因此配合distribute by 就可以对某一个关键字排序
Hive数据去重
Sql代码
insert overwrite table store
select t.p_key,t.sort_word from
( select p_key,
sort_word ,
row_number() over(distribute by p_key sort by sort_word) as rn
from store) t
where t.rn=1;
说明:
p_key为去重所依据的key,sort_word表示多个p_key的排列顺序,这个关键字将决定哪个p_key将留下。
t 为子查询的别名,Hive需要在每个子查询后面加别名
t.rn=1表示重复的数据只保留第一个。
distribute by 关键字指定分发的key,同一个key将分发到同一个reducer
sort by 是单机范围内排序,因此配合distribute by 就可以对某一个关键字排序
相关文章推荐
- WCF技术剖析之二十四: ServiceDebugBehavior服务行为是如何实现异常的传播的?
- WCF技术剖析之二十三:服务实例(Service Instance)生命周期如何控制[下篇]
- golang版的crontab
- New Valid Tracking Metric Now Available in Seller Central
- Contains Duplicate
- ASIHTTPRequest-实现断点续传-2
- hdu1004字典树
- 创建自己的dll与lib:dll与lib文件的区别
- 股市 亏钱之道 十有九亏
- 应用服务器tomcat编码引起的JSP中汉字传到后台乱码问题
- 景深和焦距
- android.support.design.widget包下的CoordinatorLayout、AppBarLayout、TextInputLayout、FloatingActionButton、
- 字符串中的数字设置特殊颜色高亮显示
- NYOJ4——ASCII码排序
- 视频会议保险行业解决方案
- MySQL5.7半同步强复制
- Java 播放 .mp3 格式音乐文件
- 悟空学Linux专栏----第18篇
- Android使用Sqlite增删改查小Demo
- 布林线