您的位置:首页 > 运维架构

Spark配置的一点小结

2017-03-31 00:11 120 查看
这两天配置Hadoop和Spark真是死去活来。 网上提供的做法都挺详尽,但是有些细节基本所有人都选择性忽略掉~ 特此捡起来,权当个记录

1. Spark是什么?安装流程是什么样的?

Spark是一个强大的分布式计算引擎。他和Hadoop并不是平行关系:他的基石就是Hadoop MapReduce架构,在此基础上加以改进,并支持Scala来做更为便捷和有美感(Java迷别打我)的编程。

配置分布式系统有4种方案

要么你就弄个不分布式的单点系统
要么你就买几个电脑弄个真正的分布式系统
要么你就骗一骗电脑弄个伪分布式系统

怎么只有3个?伪分布式系统又可以有两种做法:

用虚拟机(e.g: VMWare)实现
用单机实现
由于胖丁已经分区装了个Ubuntu16双系统玩caffe,于是就只能用单机实现伪分布式咯。

网上的流程具体总结如下:

安装系统,Ubuntu和CentOS公说公好婆说婆好~ 大家自行选择
建个专门做hadoop的PID,个人觉得没有必要,不过我还是这么做了(毕竟另一个PID还有个难缠的caffe,最好别撞在一起)
把Java,Scala安装配置好,特别是~/.bashrc,后面hadoop和spark也要分别配置好~
下载Hadoop和Spark,分别解压缩到/usr/local/hadoop和/usr/local/spark里面
配置Hadoop里面的 /usr/local/hadoop/etc/hadoop里面的很多xml和一个env文件(伪分布式不用碰masters和slaves两个文件)
配置/etc/hosts文件
运行hadoop的start-all.sh, 再用jps查看,有jps加上namenode,datanode,nodemanager,resourcemanager,secondarynamenode 你就成功了
配置Spark里面的 /usr/local/spark/conf里面的env文件

运行spark的start-all.sh, 再用jps查看,原基础上多了Master和Worker你就成功了

关于上面的第6点我要重点拿出来说。无论是伪分布式还是真实分布,我们都要在里面设置master/slave和他们对应的地址。小白的我之前都是看到网上写什么我就抠什么ip地址塞进去,直到最后才发现:要根据你的设备的真实IP地址来修改的。

假如是伪分布式地址,则所有master和slave都用同一个IP,就是你主机的IP(用ifconfig可以查看);
假如是真分布的,就用真实的IP地址。

正常说,内网的IP地址都是198.168.xxx.xxx

还有要注意,Hadoop2.x之后就没有JobTracker和TaskTracker这东西了,之前让我一顿好找。网上很多教程都过时了,慎看~
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark hadoop scala ubuntu