您的位置：首页 > 其它

Hive去重复数据

2015-07-10 15:10 148 查看

这几天我一直在研究Hive，我们今天看一个新的知识，Hive去重复数据。

Hive数据去重

Sql代码

insert overwrite table store
select t.p_key,t.sort_word from
( select p_key,
sort_word ,
row_number() over(distribute by p_key sort by sort_word) as rn
from store) t
where t.rn=1;

说明：

p_key为去重所依据的key，sort_word表示多个p_key的排列顺序，这个关键字将决定哪个p_key将留下。
t 为子查询的别名，Hive需要在每个子查询后面加别名
t.rn=1表示重复的数据只保留第一个。
distribute by 关键字指定分发的key，同一个key将分发到同一个reducer
sort by 是单机范围内排序，因此配合distribute by 就可以对某一个关键字排序

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

WCF技术剖析之二十四: ServiceDebugBehavior服务行为是如何实现异常的传播的?
WCF技术剖析之二十三：服务实例（Service Instance）生命周期如何控制[下篇]
golang版的crontab
New Valid Tracking Metric Now Available in Seller Central
Contains Duplicate
ASIHTTPRequest-实现断点续传-2
hdu1004字典树
创建自己的dll与lib：dll与lib文件的区别
股市亏钱之道十有九亏
应用服务器tomcat编码引起的JSP中汉字传到后台乱码问题
景深和焦距
android.support.design.widget包下的CoordinatorLayout、AppBarLayout、TextInputLayout、FloatingActionButton、
字符串中的数字设置特殊颜色高亮显示
NYOJ4——ASCII码排序
视频会议保险行业解决方案
MySQL5.7半同步强复制
Java 播放 .mp3 格式音乐文件
悟空学Linux专栏----第18篇
Android使用Sqlite增删改查小Demo
布林线

新的分享

一次教科书级别的Redis高可用架构设计实践 - Redis
曾光：北京这次的毒株不像国内流行类型
从PRD文档到产品上线，有哪些问题需要解决？
vue3自定义指令的使用
Oracle SQL性能优化最常用的40条建议 - ORACLE
程序员翻车常见反应，你中枪了吗？ - 职场生涯
新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
嵌入式软件开发之程序架构设计-任务调度
【Java面试】请简单说一下你对受检异常和非受检异常的理解
奇安信更新招股书：第一季亏损过5亿，齐向东持股38%
艾瑞咨询：2020年中国后智能厨房案例研究报告
艾瑞咨询：2020年中国人工智能+物流发展研究报告

章节导航