Hadoop Spark 集群简便安装总结
2016-01-14 12:38
447 查看
本人实际安装经验,目的是为以后高速安装。仅供自己參考。
一、Hadoop
1、操作系统一如既往:①setup关掉防火墙、②vi /etc/sysconfig/selinux,改SELINUX=disabled 。
(3)安装时自己定义不要JAVA。④系统安装后,直接创建用户hadoop,password同username。
2、ssh。①在master上以hadoop用户运行ssh-keygen。
②ssh-copy-id -i ~/.ssh/id_rsa.pub 主机2。③同2,传到其它主机。
这样,仅仅有master能控制其它主机。
3、上传我制作的包括:hadoop,spark,scala,jdk,以及hosts文件、profile文件的压缩文件。用命令scp sparkok.tar.gz 主机2:/home/hadoop ,并 tar -zxvf到当前文件夹 。
4、设置/etc/profile。这里一下在文件最后设置很多变量,方便等下复制到全部的机器,之后要source /etc/profile使之生效。
5、改动hadoop參数文件。在当中一台用户文件夹下解压hadoop,结果可如:hadoop2.7 。
hadoop会默认很多參数,假设是单机測试,甚至都不用改动參数。但我们是集群,须要改动几个必需的。默认配置能够查找 **default.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,能够參考这些配置的说明和key(网上也有默认:http://hadoop.apache.org/docs)。
以下是尽量少配。
(1)core-site.xml ,2个配置
(2)hdfs-site.xml ,假设server大于3台就不用了
(3)mapred-site.xml
(4)yarn-site.xml
(5)slaves。 每行一个slave主机名。
(6)hadoop-env.sh 和 yarn-env.sh 。其内容尽管看着有JAVA_HOME的配置。但好像不生效。还得再写一遍JAVA_HOME配置。
以上尽管看起来非常多,但实际就是告诉他:数据的存放文件夹(core)。MR要用yarn,yarn的master是谁。如此而已。 把以上文件存起来,以后稍加改动后,就可反复利用了。
5、启动与測试
(1)格式化HDFS:
(2)启动集群:
(3)在master和slaver的sbin下运行jps。
(4)hdfs dfs -mkdir /xxx
hdfs dfs -ls /
6、UI訪问
(1)状态:netstat -nap | grep 54310
(2)http://master-ip:8088
NameNode:http://master-ip:50070
JobTracker:http://master-ip:50030
所以。安装简单来说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile參数、配 数据存放文件夹 / MR要用yarn 及 master是谁 。
我还将上面涉及到的文件打包成文件,可 下载 反复使用。
以上是Hadoop的配置。
二、SPARK 安装
1、下载scala,这个是spark的安装前提条件。解压到每台机器,能够和上面的hadoop一个用户和文件夹。至于profile。上面已经一次性写完了。所以这次都不用写了,好方便吧^_^
2、spark下载并解压,profile也不用重写了。须要改conf文件夹下的配置:
(1)slaves 文件。每行一个IP地址或主机名。
(2)运行 mv spark-env.sh.template spark-env.sh :JAVA_HOME仍然必须填。
3、然后将此文件复制到各个server上即可了。
4、启动和測试:
(1)和hadoop一样: /sbin/start-all.sh
(2)master:8080
SPARK安装就是:配scala,SPARK_MASTER_IP 。HADOOP_CONF_DIR ,slaves 。
就是这么简单,当然不管哪个,都不要忘了写JAVA_HOME到配置文件。
一、Hadoop
1、操作系统一如既往:①setup关掉防火墙、②vi /etc/sysconfig/selinux,改SELINUX=disabled 。
(3)安装时自己定义不要JAVA。④系统安装后,直接创建用户hadoop,password同username。
2、ssh。①在master上以hadoop用户运行ssh-keygen。
②ssh-copy-id -i ~/.ssh/id_rsa.pub 主机2。③同2,传到其它主机。
这样,仅仅有master能控制其它主机。
3、上传我制作的包括:hadoop,spark,scala,jdk,以及hosts文件、profile文件的压缩文件。用命令scp sparkok.tar.gz 主机2:/home/hadoop ,并 tar -zxvf到当前文件夹 。
4、设置/etc/profile。这里一下在文件最后设置很多变量,方便等下复制到全部的机器,之后要source /etc/profile使之生效。
export JAVA_HOME=/opt/jdk export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export HADOOP_HOME=/home/hadoop/hadoop2.7 #export HBASE_HOME=/home/hadoop/hbase #export ZOOKEEPER_HOME=/home/hadoop/zookeeper export SCALA_HOME=/home/hadoop/scala export SPARK_HOME=/home/hadoop/spark #export KAFKA_HOME=/home/hadoop/kafka #export HIVE_HOME=/home/hadoop/hive export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
5、改动hadoop參数文件。在当中一台用户文件夹下解压hadoop,结果可如:hadoop2.7 。
hadoop会默认很多參数,假设是单机測试,甚至都不用改动參数。但我们是集群,须要改动几个必需的。默认配置能够查找 **default.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,能够參考这些配置的说明和key(网上也有默认:http://hadoop.apache.org/docs)。
以下是尽量少配。
(1)core-site.xml ,2个配置
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/tmp</value> <description>配了这个。以后hdfs-site.xml就不用配data和name文件夹了。连建立都不用</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> <description>这个也应该是必须的,并且必须写主机名,连IP都不行</description> </property> </configuration>
(2)hdfs-site.xml ,假设server大于3台就不用了
<configuration> <property> <name>dfs.replication</name> <value>2</value> <description>复制几份?默认3。假设大于3台server。就不用了 </description> </property> </configuration>
(3)mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> <description>The runtime framework for executing MapReduce jobs. Can be one of local, classic or yarn.默认是local。适合单机 </description> </property> </configuration>
(4)yarn-site.xml
<configuration> <property> <description>既然选择了yarn,就得填,这个就是曾经的master配置了</description> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> </configuration>
(5)slaves。 每行一个slave主机名。
(6)hadoop-env.sh 和 yarn-env.sh 。其内容尽管看着有JAVA_HOME的配置。但好像不生效。还得再写一遍JAVA_HOME配置。
以上尽管看起来非常多,但实际就是告诉他:数据的存放文件夹(core)。MR要用yarn,yarn的master是谁。如此而已。 把以上文件存起来,以后稍加改动后,就可反复利用了。
5、启动与測试
(1)格式化HDFS:
$HADOOP_HOME/bin/hdfs namenode -format
(2)启动集群:
$HADOOP_HOME/sbin/start-all.sh
(3)在master和slaver的sbin下运行jps。
(4)hdfs dfs -mkdir /xxx
hdfs dfs -ls /
6、UI訪问
(1)状态:netstat -nap | grep 54310
(2)http://master-ip:8088
NameNode:http://master-ip:50070
JobTracker:http://master-ip:50030
所以。安装简单来说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile參数、配 数据存放文件夹 / MR要用yarn 及 master是谁 。
我还将上面涉及到的文件打包成文件,可 下载 反复使用。
以上是Hadoop的配置。
二、SPARK 安装
1、下载scala,这个是spark的安装前提条件。解压到每台机器,能够和上面的hadoop一个用户和文件夹。至于profile。上面已经一次性写完了。所以这次都不用写了,好方便吧^_^
2、spark下载并解压,profile也不用重写了。须要改conf文件夹下的配置:
(1)slaves 文件。每行一个IP地址或主机名。
(2)运行 mv spark-env.sh.template spark-env.sh :JAVA_HOME仍然必须填。
export JAVA_HOME=/opt/jdk18 export SCALA_HOME=/home/spark/opt/scala-2.11.4 #这行我没写也行 export SPARK_MASTER_IP=192.168.128.131 export SPARK_WORKER_MEMORY=2g export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
3、然后将此文件复制到各个server上即可了。
4、启动和測试:
(1)和hadoop一样: /sbin/start-all.sh
(2)master:8080
SPARK安装就是:配scala,SPARK_MASTER_IP 。HADOOP_CONF_DIR ,slaves 。
就是这么简单,当然不管哪个,都不要忘了写JAVA_HOME到配置文件。
河南省公安厅:党玉龙
相关文章推荐
- linux常用命令—— 系统管理(五)
- Bash shell编程<七>:处理选项、getopt命令
- ssh无密码登录
- ubuntu下搭建tomcat服务器
- Linux 常用命令
- live555在Linux下最简单地实现实时流媒体点播
- eclipse 中启动 Tomcat 报 45秒超时 错误 的解决方法
- apache和nginx负载均衡配置
- LINUX下Live555不能获取ip地址解决方法
- 关于 tomcat 集群中 session 共享的三种方法
- openfire服务端消息回执插件(接收方离线时的情况),判断用户的在线状态
- linux修改文件权限
- Centos下的PHP安装手册
- 脚本安装apache
- hdoj 5489 Removed Interval 【线段树维护LIS or LIS变形】
- 提取网站图片
- 刚学习时自己写的一个linux系统初始化脚本
- 手动安装Intel network I217-LM网卡的Linux驱动
- 解析linux系统根目录结构
- Linux中使用ln命令在文件之间建立连接的用法讲解