Hadoop实战(9)_Hive进阶及UDF开发
2017-11-16 16:52
591 查看
CDH Hadoop系列目录:
Hadoop实战(3)_虚拟机搭建CDH的全分布模式
Hadoop实战(4)_Hadoop的集群管理和资源分配
Hadoop实战(5)_Hadoop的运维经验
Hadoop实战(8)_CDH添加Hive服务及Hive基础
当cm界面里执行部署客户端配置时,如上两个conf目录都会覆盖。
SecureRT,sz设置下载目录,Options-Xmodem/Zmodem-Download。
HiveServer2端口,10000。
idea设置,Settings-Build, Execution, Deployment-Compiler-Java Compiler,Project bytecode version: 1.7
Default Settings-Editor-File Encodings, Project Encoding: UTF-8。
Project Structure, Project, 设置jdk版本和编译版本,编译版本和Settings一致。Libraries, 把lib目录加进工程。Modules, 设置输出目录,Use module compile output path。
调整配置后,等待索引创建完。
UDAF,聚集函数,多进一出。
UDTF,一进多出。
UDF中的evaluate函数名不可变,可以任意重载。
使用方式:在Hive会话中add自定义函数的jar文件,然后创建function,继而使用函数。
需求:统计每个活动页的流量,获取活动ID。
Java开发
导出jar
使用
sql中通过GetActID直接使用,用起来和内置函数无区别。
IDEA中打包,
Project Structure-Artifacts, 有两类,分别是空的和有依赖包的,Build on make选上。然后Build-Make Project。
hive_udf.jar上传至
A: 开发一个hiveF的功能,用法同hive -f,但支持传参,使用格式:
hiveF aa.sql
hiveF aa.sql -date 2015-01-02
hiveF aa.sql -date 2015-01-02 -date1 2015-01-03
其中,aa.sql里通过${date}的方式对接。
hiveF开发思路,
使用方式,hiveF aa.sql -date 2015-01-02
开发一个Java应用程序读出aa.sql内容存入一个String变量里。
把里面的${date}替换为2015-01-02,并System.out.println出来。
在shell脚本里,用str接收2的输出,执行
难点,把Java程序的输出结果直接放到shell脚本里运行。
Java运行,参数传进来,shell脚本里
打包hiveF.jar, Main Class: com.cloudy.hive.hiveF.Main
执行,
您可能还想看
数据分析/数据挖掘/机器学习
Python数据挖掘与机器学习_通信信用风险评估实战(1)——读数据
Python数据挖掘与机器学习_通信信用风险评估实战(2)——数据预处理
Python数据挖掘与机器学习_通信信用风险评估实战(3)——特征工程
Python数据挖掘与机器学习_通信信用风险评估实战(4)——模型训练与调优
爬虫
Python爬虫实战之爬取链家广州房价_01简单的单页爬虫
Python爬虫实战之爬取链家广州房价_02把小爬虫变大
Python爬虫实战之爬取链家广州房价_03存储
Python爬虫实战之爬取链家广州房价_04链家的模拟登录(记录)
搜狗词库爬虫(1):基础爬虫架构和爬取词库分类
搜狗词库爬虫(2):基础爬虫框架的运行流程
微信公众号「数据分析」,分享数据科学家的自我修养,既然遇见,不如一起成长。
转载请注明:转载自微信公众号「数据分析」
Hadoop实战(3)_虚拟机搭建CDH的全分布模式
Hadoop实战(4)_Hadoop的集群管理和资源分配
Hadoop实战(5)_Hadoop的运维经验
Hadoop实战(8)_CDH添加Hive服务及Hive基础
Hive目录及配置文件
# 配置文件 /etc/hive/conf # 根目录 /opt/cloudera/parcels/CDH/lib/hive
当cm界面里执行部署客户端配置时,如上两个conf目录都会覆盖。
JDBC方式访问Hive
基于HiveServer2服务。SecureRT,sz设置下载目录,Options-Xmodem/Zmodem-Download。
HiveServer2端口,10000。
# user为提交作业的账户 Connection con = DriverManager.getConnection("jdbc:hive2://cdhslave1:10000/default", "root", "123456");
idea设置,Settings-Build, Execution, Deployment-Compiler-Java Compiler,Project bytecode version: 1.7
Default Settings-Editor-File Encodings, Project Encoding: UTF-8。
Project Structure, Project, 设置jdk版本和编译版本,编译版本和Settings一致。Libraries, 把lib目录加进工程。Modules, 设置输出目录,Use module compile output path。
调整配置后,等待索引创建完。
UDF开发
UDF,一进一出。UDAF,聚集函数,多进一出。
UDTF,一进多出。
UDF中的evaluate函数名不可变,可以任意重载。
使用方式:在Hive会话中add自定义函数的jar文件,然后创建function,继而使用函数。
需求:统计每个活动页的流量,获取活动ID。
Java开发
导出jar
使用
add jar /root/project/lib/hive_udf.jar ; create temporary function GetActID as 'com.cloudy.hive.udf.GetActID';
sql中通过GetActID直接使用,用起来和内置函数无区别。
IDEA中打包,
Project Structure-Artifacts, 有两类,分别是空的和有依赖包的,Build on make选上。然后Build-Make Project。
hive_udf.jar上传至
/root/project/lib/
# /root/project/rpt_act_visit_daily touch rpt_act_visit_daily.hql touch rpt_act_visit_daily.sh
hiveF命令封装
Q: hive -f不能传参,hql只能写在shell脚本里,导致shell脚本内容庞大和凌乱。A: 开发一个hiveF的功能,用法同hive -f,但支持传参,使用格式:
hiveF aa.sql
hiveF aa.sql -date 2015-01-02
hiveF aa.sql -date 2015-01-02 -date1 2015-01-03
其中,aa.sql里通过${date}的方式对接。
hiveF开发思路,
使用方式,hiveF aa.sql -date 2015-01-02
开发一个Java应用程序读出aa.sql内容存入一个String变量里。
把里面的${date}替换为2015-01-02,并System.out.println出来。
在shell脚本里,用str接收2的输出,执行
hive -e $str。
# /root/project mkdir bin cd bin touch hiveF
难点,把Java程序的输出结果直接放到shell脚本里运行。
Java运行,参数传进来,shell脚本里
$*接收参数。参数是哪里传的呢?哪里传给hiveF的呢?是shell脚本
rpt_act_visit_daily.sh传过来的,交给java来处理,打印的str由cmd来接收,再用
hive -e执行。
#!/bin/sh . /etc/profile cmd=`java -jar /root/project/lib/HiveF.jar $*` echo $cmd hive -e "$cmd" -i /root/project/bin/init.hql
chmod +x hiveF
vi /etc/profile export PATH=$PATH:/root/project/bin source /etc/profile
打包hiveF.jar, Main Class: com.cloudy.hive.hiveF.Main
执行,
sh ./rpt_act_visit_daily.sh 2015-08-28
您可能还想看
数据分析/数据挖掘/机器学习
Python数据挖掘与机器学习_通信信用风险评估实战(1)——读数据
Python数据挖掘与机器学习_通信信用风险评估实战(2)——数据预处理
Python数据挖掘与机器学习_通信信用风险评估实战(3)——特征工程
Python数据挖掘与机器学习_通信信用风险评估实战(4)——模型训练与调优
爬虫
Python爬虫实战之爬取链家广州房价_01简单的单页爬虫
Python爬虫实战之爬取链家广州房价_02把小爬虫变大
Python爬虫实战之爬取链家广州房价_03存储
Python爬虫实战之爬取链家广州房价_04链家的模拟登录(记录)
搜狗词库爬虫(1):基础爬虫架构和爬取词库分类
搜狗词库爬虫(2):基础爬虫框架的运行流程
微信公众号「数据分析」,分享数据科学家的自我修养,既然遇见,不如一起成长。
转载请注明:转载自微信公众号「数据分析」
相关文章推荐
- 升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
- 深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
- 升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
- 深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
- 【备忘】Hadoop,Hbase,Hive源码解析与开发实战
- [置顶] linux中用eclipse开发Hadoop mapreduce与Hive UDF实例详解及其配置说明
- 【备忘】Hadoop,Hbase,Hive源码解析与开发实战
- [iOS实战进阶]iOS开发完毕,提测时如何发包
- Hadoop基础教程-第12章 Hive:进阶(12.3 HiveServer2)(草稿)
- Hadoop入门进阶课程8--Hive介绍和安装部署
- Hive源码解析与开发实战笔记--讲师贾杰
- 精选在线课程:前端开发入门、进阶与实战(中文系列)
- HBase、Hive、MapReduce、Hadoop、Spark 开发环境搭建后的一些步骤(export导出jar包方式 或 Ant 方式)
- 大数据开发利器:Hadoop(9) HBase进阶第2讲 HBase过滤器
- 【备忘】【No2】2016年最新云计算视频教程hadoop大数据实战开发
- 深入浅出Hadoop实战开发
- hive udf开发超详细手把手教程
- Hive UDF函数开发及企业规范
- 王家林 云计算分布式大数据Hadoop实战高手之路---从零开始 第二讲:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程
- Hive UDF开发(多个参数)