spark学习1——配置hadoop 单机模式并运行WordCount实例(ubuntu14.04 & hadoop 2.6.0)
2015-11-19 20:55
1061 查看
1. 安装SSH
hadoop是采用SSH进行通信的 ,此时要设置密码为空,即不需要密码登陆,免去每次登陆时都要输入密码,当集群较大时该步骤显得尤为重要。
$ sudo apt-get install ssh
安装完成后启动服务:
$ /etc/init.d/ssh start
以下命令验证服务是否正常启动:
$ ps -e |grep ssh
设置免密码登陆,生成私钥和公钥:
$ ssh-keygen -t dsa
此时会在~/.ssh中生成两个文件:id_dsa, id_dsa.pub,其中,id_dsa为私钥,id_dsa.pub为公钥,我们将公钥追加到authorized_keys中,因为authorized_keys用于保存所有允许以当前用户身份登陆到ssh客户端用户的公钥内容。
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
登陆ssh:
$ ssh localhost
下图为免密码成功登陆后的结果:
$ exit 退出localhost。
2. 安装rsync
通过以下命令安装或更新rsync:
$ sudo apt-get install rsync
第一,从hadoop官网下载hadoop压缩包,笔者下载的版本为 hadoop-2.6.0.tar.gz,将其解压至/usr/local/下:
$ sudo tar zxvf /home/XXX/Downloads/hadoop-2.6.0.tar.gz -C /usr/local
第二,在hadoop-env.sh配置java安装信息,如下图:
通过gedit 命令修改hadoop-env.sh文件中的JAVA_HOME:
使用source命令使配置生效:(在/usr/local/hadoop-2.6.0/etc/hadoop下)
$ source hadoop-env.sh
为了使我们可以使用hadoop命令,修改 profile文件中的PATH:
$ sudo gedit /etc/profile
如下图:
重启电脑使配置生效。
验证hadoop版本信息:
$ hadoop version
3. 运行hadoop 自带的wordcount实例
$ cd /home/XXX/
$ mkdir hadoop
$ cd hadoop
$ mkdir input
在此目录下创建任意多个文本文件。
$ cd /usr/local/hadoop-2.6.0
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount /home/wuqh/hadoop_wuqh/input /home/wuqh/hadoop_wuqh/output
查看输出结果:
$ cat output/*
至此,单机模式的构建、配置和运行测试彻底成功!
参考文献:《大数据Spark 企业级实战》,电子工业出版社
hadoop是采用SSH进行通信的 ,此时要设置密码为空,即不需要密码登陆,免去每次登陆时都要输入密码,当集群较大时该步骤显得尤为重要。
$ sudo apt-get install ssh
安装完成后启动服务:
$ /etc/init.d/ssh start
以下命令验证服务是否正常启动:
$ ps -e |grep ssh
设置免密码登陆,生成私钥和公钥:
$ ssh-keygen -t dsa
此时会在~/.ssh中生成两个文件:id_dsa, id_dsa.pub,其中,id_dsa为私钥,id_dsa.pub为公钥,我们将公钥追加到authorized_keys中,因为authorized_keys用于保存所有允许以当前用户身份登陆到ssh客户端用户的公钥内容。
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
登陆ssh:
$ ssh localhost
下图为免密码成功登陆后的结果:
$ exit 退出localhost。
2. 安装rsync
通过以下命令安装或更新rsync:
$ sudo apt-get install rsync
第一,从hadoop官网下载hadoop压缩包,笔者下载的版本为 hadoop-2.6.0.tar.gz,将其解压至/usr/local/下:
$ sudo tar zxvf /home/XXX/Downloads/hadoop-2.6.0.tar.gz -C /usr/local
第二,在hadoop-env.sh配置java安装信息,如下图:
通过gedit 命令修改hadoop-env.sh文件中的JAVA_HOME:
使用source命令使配置生效:(在/usr/local/hadoop-2.6.0/etc/hadoop下)
$ source hadoop-env.sh
为了使我们可以使用hadoop命令,修改 profile文件中的PATH:
$ sudo gedit /etc/profile
如下图:
重启电脑使配置生效。
验证hadoop版本信息:
$ hadoop version
3. 运行hadoop 自带的wordcount实例
$ cd /home/XXX/
$ mkdir hadoop
$ cd hadoop
$ mkdir input
在此目录下创建任意多个文本文件。
$ cd /usr/local/hadoop-2.6.0
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount /home/wuqh/hadoop_wuqh/input /home/wuqh/hadoop_wuqh/output
查看输出结果:
$ cat output/*
至此,单机模式的构建、配置和运行测试彻底成功!
参考文献:《大数据Spark 企业级实战》,电子工业出版社
相关文章推荐
- spark学习1——配置hadoop 单机模式并运行WordCount实例(ubuntu14.04 & hadoop 2.6.0)
- Linux 编译安装内核
- linux系统安装详解
- News: Visual Studio Code support debugging Linux Apps
- Shell脚本
- 【04】Opencv读视频和摄像头
- Linux下获取线程TID的方法——gettid() 获取进程 getpid()
- Docker的save和export命令的区别
- 【转】媒体播放器三大底层架构
- 数据库连接配置1 -- Tomcat 中的 JDBC Pool
- Linux kdb命令
- find 与grep命令
- openfire插件编译
- linux shell中find的使用
- Hadoop初探
- 在Fedora 23/22, CentOS/RHEL 7.1 上安装Google Chrome的方法
- Centos7 disable ipv6
- Hbase0.98版本的安装部署配置管理(Hadoop2.3、Hbase0.98、Hive0.13整合)
- 不完全回复-alter database open resetlogs
- spark1.3.0__for_hadoop2.4.1编译、安装与初步测试