Spark(四): Spark-sql 读hbase
2016-12-30 10:32
127 查看
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合
目录:
SparkSql 访问 hbase配置
测试验证
SparkSql 访问 hbase配置:
拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下:
在 ambari 上配置Spark节点的$SPARK_HOME/conf/spark-env.sh,将上面的jar包添加到SPARK_CLASSPATH,如下图:
![](http://images2015.cnblogs.com/blog/1004194/201609/1004194-20160901122922902-856827009.png)
配置项清单如下:注意jar包之间不能有空格或回车符
将hbase-site.xml拷贝至${HADOOP_CONF_DIR},由于spark-env.sh中配置了Hadoop配置文件目录${HADOOP_CONF_DIR},因此会将hbase-site.xml加载,hbase-site.xml中主要是以下几个参数的配置:
ambari 上重启修改配置后影响的组件服务
测试验证:
任一spark client节点验证:
命令: cd /usr/hdp/2.4.2.0-258/spark/bin (spark安装目录)
命令: ./spark-sql
执行: select * from stocksinfo; (stocksinfo 为与hbase关联的hive外部表)
结果如下则OK:
目录:
SparkSql 访问 hbase配置
测试验证
SparkSql 访问 hbase配置:
拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下:
guava-14.0.1.jar htrace-core-3.1.0-incubating.jar hbase-common-1.1.2.2.4.2.0-258.jar hbase-common-1.1.2.2.4.2.0-258-tests.jar hbase-client-1.1.2.2.4.2.0-258.jar hbase-server-1.1.2.2.4.2.0-258.jar hbase-protocol-1.1.2.2.4.2.0-258.jar hive-hbase-handler-1.2.1000.2.4.2.0-258.jar
在 ambari 上配置Spark节点的$SPARK_HOME/conf/spark-env.sh,将上面的jar包添加到SPARK_CLASSPATH,如下图:
![](http://images2015.cnblogs.com/blog/1004194/201609/1004194-20160901122922902-856827009.png)
配置项清单如下:注意jar包之间不能有空格或回车符
export SPARK_CLASSPATH=/usr/hdp/2.4.2.0-258/spark/lib/guava-11.0.2.jar: /usr/hdp/2.4.2.0-258/spark/lib/hbase-client-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hbase-common-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hbase-protocol-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hbase-server-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hive-hbase-handler-1.2.1000.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/htrace-core-3.1.0-incubating.jar: /usr/hdp/2.4.2.0-258/spark/lib/protobuf-java-2.5.0.jar:${SPARK_CLASSPATH}
将hbase-site.xml拷贝至${HADOOP_CONF_DIR},由于spark-env.sh中配置了Hadoop配置文件目录${HADOOP_CONF_DIR},因此会将hbase-site.xml加载,hbase-site.xml中主要是以下几个参数的配置:
<property> <name>hbase.zookeeper.quorum</name> <value>r,hdp2,hdp3</value> <description>HBase使用的zookeeper节点</description> </property> <property> <name>hbase.client.scanner.caching</name> <value>100</value> <description>HBase客户端扫描缓存,对查询性能有很大帮助</description> </property>
ambari 上重启修改配置后影响的组件服务
测试验证:
任一spark client节点验证:
命令: cd /usr/hdp/2.4.2.0-258/spark/bin (spark安装目录)
命令: ./spark-sql
执行: select * from stocksinfo; (stocksinfo 为与hbase关联的hive外部表)
结果如下则OK:
![](http://images2015.cnblogs.com/blog/1004194/201609/1004194-20160901123328246-592273528.png)
相关文章推荐
- 大数据平台安装测试(1)centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 选型分析
- sqoop连接hbase以及spark sql使用
- Astro —— 华为开源的 SparkSQL on HBase
- SparkSQL+Hbase+HDFS实现SQL完全封装(一)
- Spark(四): Spark-sql 读hbase
- spark学习-17-Java版SparkSQL程序读取Hbase表注册成表SQL查询
- spark学习-SparkSQL--11-scala版写的SparkSQL程序读取Hbase表注册成表SQL查询
- Spark-sql 读hbase
- SparkSQL读HBase的数据
- spark sql读hbase
- 基于Hbase的Spark Sql示例 一
- 从HBase数据库表中读取数据动态转为DataFrame格式,方便后续用Spark SQL操作(scala实现)
- SparkSQL读取HBase数据,通过自定义外部数据源(hbase的Hive外关联表)
- 通过自定义SparkSQL外部数据源实现SparkSQL读取HBase
- Spark(四): Spark-sql 读hbase
- spark-sql读取映射hbase数据的hive外部表
- spark-sql读取映射hbase数据的hive外部表
- 开源Astro(SparkSQL On HBase)
- CDH5上安装Hive,HBase,Impala,Spark等服务
- Hbase的SQL接口之Phoenix使用总结(1)