开源BI工具Pentaho 连接hive进行大数据分析
2012-07-26 16:51
996 查看
pentaho是世界上最流行的开源商务智能软件,以工作流为核心的、强调面向解决方案而非工具组件的BI套件,整合了多个开源项目,目标是和商业BI相抗衡。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商务智能的方方面面。
pentaho连接hive进行数据分析的步骤
1. 下载the Kettle Client
The Kettle client package contains the Spoon UI for building, testing and running Kettle Jobs and Transforms
Kettle Client 有windows版本与linux
MAC版本,我用的是windows版本,下载地址为
http://downloads.sourceforge.net/project/pentaho/Data%20Integration/4.3.0-stable/pdi-ce-4.3.0-stable.zip?r=&ts=1343291347&use_mirror=cdnetworks-kr-2
下载后解压缩文件,在运行Spoon之前需要先确认已经安装jdk,然后进行配置
我用的hadoop版本是cloudera cdh3u3所以需要先配置下
(1) 删除$PDI_HOME/libext/bigdata/hadoop-0.20.2-core.jar,然后拷贝 $HADOOP_HOME/hadoop-core-0.20.2-cdh3u3.jar
到 $PDI_HOME/libext/bigdata
(2) 拷贝$HADOOP_HOME/lib/guava-r09-jarjar.jar 到 $PDI_HOME/libext/bigdata
配置好后打开运行文件夹data-integration中的Spoon.bat
打开工具如图
![](http://my.csdn.net/uploads/201207/26/1343292003_7518.png)
然后右击主对象树种的 jobs ,选择新建,然后右击 job 1中的DB连接,选择新建数据库连接向导,在数据库连接名称中填写hiveconn,数据库连接类型选择Hadoop Hive,数据库访问类型Native(JDBC),点击下一步,填写服务器主机名称、TCI/IP端口、数据库名称,(注:需要先运行Hive
thrift server打开端口10000),进入下一步测试数据库连接,如果成功点击完成,失败的话先检测hive thrift server端口是否打开。
设置后,在DB连接中会出现hiveconn,右击hiveconn选择SQL Editor,输入hive sql查询语句select * from default.weblogs limit 10;
然后执行即可看到hive的返回结果。
pentaho连接hive进行数据分析的步骤
1. 下载the Kettle Client
The Kettle client package contains the Spoon UI for building, testing and running Kettle Jobs and Transforms
Kettle Client 有windows版本与linux
MAC版本,我用的是windows版本,下载地址为
http://downloads.sourceforge.net/project/pentaho/Data%20Integration/4.3.0-stable/pdi-ce-4.3.0-stable.zip?r=&ts=1343291347&use_mirror=cdnetworks-kr-2
下载后解压缩文件,在运行Spoon之前需要先确认已经安装jdk,然后进行配置
我用的hadoop版本是cloudera cdh3u3所以需要先配置下
(1) 删除$PDI_HOME/libext/bigdata/hadoop-0.20.2-core.jar,然后拷贝 $HADOOP_HOME/hadoop-core-0.20.2-cdh3u3.jar
到 $PDI_HOME/libext/bigdata
(2) 拷贝$HADOOP_HOME/lib/guava-r09-jarjar.jar 到 $PDI_HOME/libext/bigdata
配置好后打开运行文件夹data-integration中的Spoon.bat
打开工具如图
![](http://my.csdn.net/uploads/201207/26/1343292003_7518.png)
然后右击主对象树种的 jobs ,选择新建,然后右击 job 1中的DB连接,选择新建数据库连接向导,在数据库连接名称中填写hiveconn,数据库连接类型选择Hadoop Hive,数据库访问类型Native(JDBC),点击下一步,填写服务器主机名称、TCI/IP端口、数据库名称,(注:需要先运行Hive
thrift server打开端口10000),进入下一步测试数据库连接,如果成功点击完成,失败的话先检测hive thrift server端口是否打开。
设置后,在DB连接中会出现hiveconn,右击hiveconn选择SQL Editor,输入hive sql查询语句select * from default.weblogs limit 10;
然后执行即可看到hive的返回结果。
![](http://my.csdn.net/uploads/201207/26/1343293252_7334.png)
相关文章推荐
- 利用Hive进行数据分析
- 【转】使用Apache Kylin搭建企业级开源大数据分析平台
- Centos6.5 64位 安装Hadoop2.7.0, MapReduce日志分析, Hive2.1.0, JDBC连接Hive查询 (1)
- 用Apache Spark进行大数据处理 - 第六部分: 用Spark GraphX进行图数据分析
- 利用Hive进行数据分析
- Impala:新一代开源大数据分析引擎
- 4-apache kylin企业级开源大数据分析平台
- 组合pig和hive来进行数据分析
- 常见开源产品epoll网络事件模型分析(附200万QPS实现长连接echo server方案)
- TOP100summit:【分享实录-WalmartLabs】利用开源大数据技术构建WMX广告效益分析平台
- Impala:新一代开源大数据分析引擎
- 电商用户行为分析大数据平台相关系列3-HIVE安装
- 如何进行大数据分析及处理(总结)
- 在Jupyter Notebooks里进行大数据分析,So easy!
- Hive实战:将xml文件处理为txt文件,并用Hive进行微博数据分析
- Centos6.5 64位 安装Hadoop2.7.0, MapReduce日志分析, Hive2.1.0, JDBC连接Hive查询 (3)
- hadoop日志分析系统二 第二部分利用hadoop平台进行数据处理 第三种方式 hive+sqoop+zookeeper方式
- 如何进行大数据分析及处理?
- Impala:新一代开源大数据分析引擎
- VS2015 EF中 Orcale 通信:无法连接到服务器,或者无法对连接字符串进行语法分析