您的位置：首页 > 其它

HIVE迁移的点点滴滴（二）--rownum分组

2014-05-23 11:08 204 查看

今天编写的脚本里有个根据某个字段进行rownum分组的需求。在oracle这个用分析函数row_number() over，能很轻松搞定，hive里就麻烦了。模拟的表结构如下：user_id buy_num rownum 1 30 1 1 20 2 1 10 3 2 50 1 2 20 2其中rownum就是我们要生成的。
第一反应肯定是用UDF写一个自定义函数，网上搜了下，解决方案还是蛮多的http://hi.baidu.com/asweknow/item/107f418c794e1fd55e0ec1b4在eclipse里建一个工程，把hive里面的jar包导进去，代码扔进去，打个jar包出来。很简单，具体使用可以参考我之前的博文。
创建表：

数据导入：

导入udf函数

结果出来了，很理想

不过网上说，当多个map运行时就会出问题。这是显然的，因为静态变量rownum木有被多个map共享嘛。现在测试中数据不多，只用了1个map还没出现这种情况。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航