Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境
2017-10-14 20:56
447 查看
环境:阿里云服务器 CentOS 7 x86_64
安装介质:jdk-7u75-linux-i586.tar.gz,hadoop-2.4.1.tar.gz
配置环境变量:
bug解决:64bit的操作系统,无法运行32bit的应用程序,需要安装32bit的glibc库。
配置环境变量:
修改hostname,/etc/hosts下的地址必须使用私有地址。
验证mapreduce
hdfs-site.xml
core-site.xml
mapred-site.xml,
yarn-site.xml
验证HDFS和mapreduce
微信公众号「数据分析」,分享数据科学家的自我修养,既然遇见,不如一起成长。
安装介质:jdk-7u75-linux-i586.tar.gz,hadoop-2.4.1.tar.gz
安装jdk
tar -zxvf jdk-7u75-linux-i586.tar.gz
配置环境变量:
# vi .bash_profile JAVA_HOME=/root/training/jdk1.7.0_75 export JAVA_HOME PATH=$JAVA_HOME/bin:$PATH export PATH # source .bash_profile # which java # java -version
bug解决:64bit的操作系统,无法运行32bit的应用程序,需要安装32bit的glibc库。
-bash: /root/training/jdk1.7.0_75/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory
# yum install glibc*.i686 # locate /lib/ld-linux.so.2 # rpm -qf /lib/ld-linux.so.2
安装Hadoop
tar -zxvf hadoop-2.4.1.tar.gz
配置环境变量:
# vi .bash_profile HADOOP_HOME=/root/training/hadoop-2.4.1 export HADOOP_HOME PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export PATH # source .bash_profile
本地模式的配置
参数文件 | 配置参数 | 参考值 |
---|---|---|
hadoop-env.sh | JAVA_HOME | /root/training/jdk1.7.0_75 |
# vi hadoop-env.sh export JAVA_HOME=/root/training/jdk1.7.0_75
修改hostname,/etc/hosts下的地址必须使用私有地址。
# vi /etc/hosts 192.168.1.107 izwz985sjvpoji48moqz01z
验证mapreduce
# hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount ~/training/data/input/data.txt ~/training/data/output/ # more part-r-00000
伪分布式模式配置
参数文件 | 配置参数 | 参考值 | 备注 |
---|---|---|---|
hadoop-env.sh | JAVA_HOME | /root/training/jdk1.7.0_75 | Java的home目录 |
hdfs-site.xml | dfs.replication | 1 | 数据的冗余度 |
core-site.xml | fs.defaultFS | hdfs://<hostname>:9000 | namenode的IP地址和端口,9000是RPC通信的端口 |
core-site.xml | hadoop.tmp.dir | /root/training/hadoop-2.4.1/tmp | 如不修改默认为/tmp,设置的路径必须事先存在 |
mapred-site.xml | mapreduce.framework.name | yarn | 指定MR运行在yarn上 |
yarn-site.xml | yarn.resourcemanager.hostname | <hostname> | 指定YARN的老大(ResourceManager)的地址 |
yarn-site.xml | yarn.nodemanager.aux-services | mapreduce_shuffle | reducer获取数据的方式 |
<property> <name>dfs.replication</name> <value>1</value> </property>
core-site.xml
<property> <name>fs.defaultFS</name> <value>hdfs://192.168.1.107:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/root/training/hadoop-2.4.1/tmp</value> </property>
mapred-site.xml,
cp mapred-site.xml.template mapred-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
yarn-site.xml
<property> <name>yarn.resourcemanager.hostname</name> <value>192.168.1.107</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
验证HDFS和mapreduce
# cd ~/trainging # ls hadoop-2.4.1/tmp/ # hdfs namenode -format # start-all.sh # jps 5828 NodeManager 6284 Jps 5438 SecondaryNameNode 5288 DataNode 5579 ResourceManager 5172 NameNode # hdfs dfsadmin -report # hdfs dfs -mkdir /input # hdfs dfs -put data/input/data.txt /input/data.txt # hdfs dfs -lsr / # hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /input/data.txt /output # hdfs dfs -cat /output/part-r-00000 # stop-all.sh # jps
配置Hadoop的SSH免密码登录
Server A | Server B |
---|---|
1、生成A的密钥和公钥ssh-keygen -t rsa | - |
2、将A的公钥 –> B,ssh-copy -i –> B | 3、 得到Server A的公钥 |
- | 4、随机产生一个字符串:helloworld |
- | 5、使用A的公钥进行加密:* |
- | 6、将加密后的字符串*发给A |
7、得到B发来的加密字符串 | - |
8、使用私钥进行解密 –> helloworld | - |
9、将解密后的helloworld发给B | 10、得到A发来的解密后的字符串helloworld |
- | 11、对比step4和step10这两个字符串,一样则Server B允许Server A免密码登录到Server B |
# cd ~ # ls .ssh/ hnown_hosts # ssh-keygen -t rsa # ssh-copy-id -i .ssh/id_rsa.pub root@120.78.89.97 # more .ssh/authorized_keys
微信公众号「数据分析」,分享数据科学家的自我修养,既然遇见,不如一起成长。
相关文章推荐
- 王家林 云计算分布式大数据Hadoop实战高手之路---从零开始 第二讲:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程
- 阿里云虚拟机搭建Hadoop伪分布式环境
- 王家林 云计算分布式大数据Hadoop实战高手之路---从零开始 第二讲:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第五讲Hadoop图文训练课程:解决典型Hadoop分布式集群环境搭建问题
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第五讲Hadoop图文训练课程:解决典型Hadoop分布式集群环境搭建问题
- 阿里云 centos hadoop伪分布式环境搭建
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第五讲Hadoop图文训练课程:解决典型Hadoop分布式集群环境搭建问题
- Ubuntu hadoop 伪分布式环境搭建步骤
- Hadoop生态系统搭建(1)——Ubuntu16.04环境搭建 Hadoop 2.7.0 全分布式环境
- 伪分布式集群环境搭建、jdk、hadoop、zk、hbase、hive、mysql
- hadoop2.6.0版本搭建伪分布式环境
- ubuntu从头开始搭建hadoop伪分布式环境
- hadoop学习笔记2:hadoop分布式环境搭建
- Hadoop2.x部署之完全分布式集群环境搭建
- hadoop2.x完全分布式环境搭建 | 适用于hadoop完全分布式集群环境搭建
- hadoop+hive-完全分布式环境搭建
- Hadoop伪分布式环境搭建
- hadoop 分布式环境搭建与hdfs简单实用
- hadoop配置Hadoop 2.0--分布式环境搭建安装配置
- Hadoop学习笔记1:伪分布式环境搭建