您的位置：首页 > 其它

Spark记录

2016-03-25 15:49 399 查看

#Spark三种部署方式

1、Standalone模式

2、YARN模式

3、High Availability

如果Spark的部署方式选择Standalone，一个采用Master/Slaves的典型架构，那么Master是有SPOF（单点故障，Single Point of Failure）。Spark可以选用ZooKeeper来实现HA。

Spark采用的是Zookeeper作为它的active-standby切换的工具，设置也很简单。一个完整的切换需要1-2分钟的时间，这个时候新提交的作业会受到影响，之前提交到作业不会受到影响。
http://www.it165.net/pro/html/201406/16377.html
Spark在standalone模式下是没有任何单点故障问题的，这是借助zookeeper实现的，思想类似于HBase master单点故障解决方案。

#Spark
http://blog.csdn.net/anzhsoft/article/details/38168025
Spark HA
http://blog.csdn.net/anzhsoft/article/details/33740737
HDFS的元数据包含了非常多的数据：

1、目录文件树结构和文件与数据块的对应关系：会持久化到物理存储中，文件名叫做fsimage。

2、DN与数据块的对应关系，即数据块存储在哪些DN中：在DN启动时会上报到NN它所维护的数据块。这个是动态建立的，不会持久化。因此，集群的启动可能需要比较长的时间。

#HBase HA

HBase自身是不存在单点故障（Single Point of Failure – SPOF）的。HBase使用ZooKeerper作为中央控制服务。ZooKeeper用于三台以上的服务器集群之中，只要还有超过半数的服务器在线，ZooKeeper就能够正常提供服务。

HBase将活动主节点、域根节点服务器（root region server）地址以及其它重要的运行数据存放于ZooKeeper。因此，我们就可以在其它机器上开启两个或多个HMaster守护进程，其中第一个启动的HMaster作为HBase机器的活动主节点。

#Spark作业流程
http://book.51cto.com/art/201501/463801.htm http://blog.csdn.net/anzhsoft/article/details/38168025
Spark Action和Transformation
http://my.oschina.net/u/2377453/blog/469121 http://blog.csdn.net/yunlong34574/article/details/38635853
Spark:大数据的“电光石火”
http://www.sxt.cn/u/2669/blog/3929

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航