您的位置：首页 > 大数据

开源BI工具Pentaho 连接hive进行大数据分析

2012-07-26 16:51 996 查看

pentaho是世界上最流行的开源商务智能软件，以工作流为核心的、强调面向解决方案而非工具组件的BI套件，整合了多个开源项目，目标是和商业BI相抗衡。它是一个基于java平台的商业智能(Business Intelligence,BI)套件，之所以说是套件是因为它包括一个web server平台和几个工具软件：报表，分析，图表，数据集成，数据挖掘等，可以说包括了商务智能的方方面面。

pentaho连接hive进行数据分析的步骤

1. 下载the Kettle Client

The Kettle client package contains the Spoon UI for building, testing and running Kettle Jobs and Transforms

Kettle Client 有windows版本与linux
MAC版本，我用的是windows版本，下载地址为
http://downloads.sourceforge.net/project/pentaho/Data%20Integration/4.3.0-stable/pdi-ce-4.3.0-stable.zip?r=&ts=1343291347&use_mirror=cdnetworks-kr-2
下载后解压缩文件，在运行Spoon之前需要先确认已经安装jdk，然后进行配置

我用的hadoop版本是cloudera cdh3u3所以需要先配置下

(1) 删除$PDI_HOME/libext/bigdata/hadoop-0.20.2-core.jar，然后拷贝 $HADOOP_HOME/hadoop-core-0.20.2-cdh3u3.jar
到 $PDI_HOME/libext/bigdata

(2) 拷贝$HADOOP_HOME/lib/guava-r09-jarjar.jar 到 $PDI_HOME/libext/bigdata

配置好后打开运行文件夹data-integration中的Spoon.bat

打开工具如图

然后右击主对象树种的 jobs ，选择新建，然后右击 job 1中的DB连接，选择新建数据库连接向导，在数据库连接名称中填写hiveconn,数据库连接类型选择Hadoop Hive,数据库访问类型Native(JDBC),点击下一步，填写服务器主机名称、TCI/IP端口、数据库名称,(注：需要先运行Hive
thrift server打开端口10000)，进入下一步测试数据库连接，如果成功点击完成，失败的话先检测hive thrift server端口是否打开。

设置后，在DB连接中会出现hiveconn，右击hiveconn选择SQL Editor，输入hive sql查询语句select * from default.weblogs limit 10;

然后执行即可看到hive的返回结果。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据分析工具 bi 数据库 hadoop server

相关文章推荐

新的分享

章节导航