Spark Hbase读取操作的一些总结与测试
2016-06-28 20:54
330 查看
Spark连接HBase实现查询的操作有好多种步骤,其中常用的是直接调用Hbase本身提供的写入和读出的接口。
然而不少人在此基础上进行了各种封装,有的支持spark sql on Hbase,著名如华为开源的astro,但是这个也非常有局限性,其仅支持spark 1.4.0,其中的源码已经远远无法适应1.6.0以上的版本。
另一种思路是实现Hbase作为Spark的一种数据源,如TEXT一样的,对数据源进行封装。这种思路实质上是充分利用spark sql +数据源的方式。
而最后一种思路是实现对rdd的改装,使得RDD本身适应Hbase的数据结构。
然而不少人在此基础上进行了各种封装,有的支持spark sql on Hbase,著名如华为开源的astro,但是这个也非常有局限性,其仅支持spark 1.4.0,其中的源码已经远远无法适应1.6.0以上的版本。
另一种思路是实现Hbase作为Spark的一种数据源,如TEXT一样的,对数据源进行封装。这种思路实质上是充分利用spark sql +数据源的方式。
而最后一种思路是实现对rdd的改装,使得RDD本身适应Hbase的数据结构。
相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Spark随谈——开发指南(译)
- Facebook's New Real-time Messaging System: HBase to Store 135+ Billion Messages a Month
- Spark,一种快速数据分析替代方案
- Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
- 基于HBase Thrift接口的一些使用问题及相关注意事项的详解
- 如何解决struts2日期类型转换
- Eclipse中查看android工程代码出现"android.jar has no source attachment"的解决方案
- 基于Java实现杨辉三角 LeetCode Pascal's Triangle
- hbase shell基础和常用命令详解
- eclipse 开发 spark Streaming wordCount
- Understanding Spark Caching
- ClassNotFoundException:scala.PreDef$
- Windows 下Spark 快速搭建Spark源码阅读环境
- 手把手教你配置Hbase完全分布式环境
- 实战:在Java Web 项目中使用HBase
- HBase RowKey设计的那些事
- Spark中将对象序列化存储到hdfs