您的位置:首页 > 其它

Spark记录

2016-03-25 15:49 399 查看
#Spark三种部署方式

1、Standalone模式

2、YARN模式

3、High Availability

如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,Single Point of Failure)。Spark可以选用ZooKeeper来实现HA。

Spark采用的是Zookeeper作为它的active-standby切换的工具,设置也很简单。一个完整的切换需要1-2分钟的时间,这个时候新提交的作业会受到影响,之前提交到作业不会受到影响。
http://www.it165.net/pro/html/201406/16377.html
Spark在standalone模式下是没有任何单点故障问题的,这是借助zookeeper实现的,思想类似于HBase master单点故障解决方案。

#Spark
http://blog.csdn.net/anzhsoft/article/details/38168025
Spark HA
http://blog.csdn.net/anzhsoft/article/details/33740737
HDFS的元数据包含了非常多的数据:

1、目录文件树结构和文件与数据块的对应关系:会持久化到物理存储中,文件名叫做fsimage。

2、DN与数据块的对应关系,即数据块存储在哪些DN中:在DN启动时会上报到NN它所维护的数据块。这个是动态建立的,不会持久化。因此,集群的启动可能需要比较长的时间。

#HBase HA

HBase自身是不存在单点故障(Single Point of Failure – SPOF)的。HBase使用ZooKeerper作为中央控制服务。ZooKeeper用于三台以上的服务器集群之中,只要还有超过半数的服务器在线,ZooKeeper就能够正常提供服务。

HBase将活动主节点、域根节点服务器(root region server)地址以及其它重要的运行数据存放于ZooKeeper。因此,我们就可以在其它机器上开启两个或多个HMaster守护进程,其中第一个启动的HMaster作为HBase机器的活动主节点。

#Spark作业流程
http://book.51cto.com/art/201501/463801.htm http://blog.csdn.net/anzhsoft/article/details/38168025
Spark Action和Transformation
http://my.oschina.net/u/2377453/blog/469121 http://blog.csdn.net/yunlong34574/article/details/38635853
Spark:大数据的“电光石火”
http://www.sxt.cn/u/2669/blog/3929
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: