您的位置:首页 > 运维架构

spark学习1——配置hadoop 单机模式并运行WordCount实例(ubuntu14.04 & hadoop 2.6.0)

2015-11-19 20:55 1061 查看
1. 安装SSH

 hadoop是采用SSH进行通信的 ,此时要设置密码为空,即不需要密码登陆,免去每次登陆时都要输入密码,当集群较大时该步骤显得尤为重要。

    $ sudo apt-get install ssh

安装完成后启动服务:

    $ /etc/init.d/ssh start

以下命令验证服务是否正常启动:

    $ ps -e |grep ssh



设置免密码登陆,生成私钥和公钥:

    $ ssh-keygen -t dsa

此时会在~/.ssh中生成两个文件:id_dsa, id_dsa.pub,其中,id_dsa为私钥,id_dsa.pub为公钥,我们将公钥追加到authorized_keys中,因为authorized_keys用于保存所有允许以当前用户身份登陆到ssh客户端用户的公钥内容。

    $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

登陆ssh:

    $ ssh localhost

下图为免密码成功登陆后的结果:



 $ exit    退出localhost。



2. 安装rsync

通过以下命令安装或更新rsync:

    $ sudo apt-get install rsync

第一,从hadoop官网下载hadoop压缩包,笔者下载的版本为 hadoop-2.6.0.tar.gz,将其解压至/usr/local/下:

    $ sudo tar zxvf /home/XXX/Downloads/hadoop-2.6.0.tar.gz -C /usr/local

第二,在hadoop-env.sh配置java安装信息,如下图:



通过gedit 命令修改hadoop-env.sh文件中的JAVA_HOME:



使用source命令使配置生效:(在/usr/local/hadoop-2.6.0/etc/hadoop下)

    $ source hadoop-env.sh

为了使我们可以使用hadoop命令,修改 profile文件中的PATH:

    $ sudo gedit /etc/profile

如下图:



重启电脑使配置生效。

验证hadoop版本信息:

    $ hadoop version



3. 运行hadoop 自带的wordcount实例

    $ cd /home/XXX/

    $ mkdir hadoop

    $ cd hadoop

    $ mkdir input

在此目录下创建任意多个文本文件。

    $ cd /usr/local/hadoop-2.6.0

    $ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount /home/wuqh/hadoop_wuqh/input /home/wuqh/hadoop_wuqh/output

查看输出结果:

    $ cat output/*



至此,单机模式的构建、配置和运行测试彻底成功!

参考文献:《大数据Spark 企业级实战》,电子工业出版社
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: