我的hadoop大数据之路(一)
2016-01-20 21:43
387 查看
首先说明一下我这里的内容都是最最基础的hadoop内容,高手大大们可以绕路了。
那么这里首先要说一下环境:vmworkstation(虚拟机,版本自己选吧,我用的是12),系统是centos6.5(不是我不想用7,我的电脑带7真的很费劲很费劲)。那么我们开始:
1.安装JDK
由于Hadoop需要JDK的支持,那么首先你的linux系统上得有jdk,建议越高越好。我这里用的是jdk8,大家到oracle官方网站上下载就好。我下载的是*.jar.*类型的。然后在/usr下建立一个文件夹:java,把解压后的文件放入其中。然后对/etc/profile文件进行环境变量的配置:
2.安装HADOOP
首先当然要下载hadoop了,这里是一个连接:hadoop下载地址,大家进去找相应的镜像下载即可,很简单。目前hadoop都出到2.x版本了,但是建议大家下载1.x的版本,听说(仅仅就是听说)1.x的比较稳定。我这里是1.2.1。下载完毕后将文件解压,在/usr/local/下放入解压后文件。然后为hadoop的安装路径添加方便使用的符号链接:$ln
-s /usr/local/hadoop-1.2.1 /opt/hadoop 这样之后进行与jdk相同操作,添加环境变量:
3.开始实践
输入如下命令:ssh-keygen 我们生成一堆openssh密钥对。里面会指向生成的位置,到该位置将新生成的公钥复制到已经授权的秘钥列表:
cp .ssh/id_rsa.pub .ssh/autorized_keys
然后我们尝试连接本机:ssh localhost 会打印一些信息。以后登录此本机就可以直接ssh -localhost了。这是为了以后做准备。
那么现在到了真正hadoop现身的时候了,我们让hadoop计算圆周率:
Hadoop jar hadoop位置/hadoop-examples-1.2.1.jar pi 4 1000
那么就会打印出很多数据,类似于:
这里面其实就是hadoop把工作分成四个任务去完成然后把结果拼起来。
那么这里首先要说一下环境:vmworkstation(虚拟机,版本自己选吧,我用的是12),系统是centos6.5(不是我不想用7,我的电脑带7真的很费劲很费劲)。那么我们开始:
1.安装JDK
由于Hadoop需要JDK的支持,那么首先你的linux系统上得有jdk,建议越高越好。我这里用的是jdk8,大家到oracle官方网站上下载就好。我下载的是*.jar.*类型的。然后在/usr下建立一个文件夹:java,把解压后的文件放入其中。然后对/etc/profile文件进行环境变量的配置:
export JAVA_HOME=/usr/java/jdk1.8.0_65 export JRE_HOME=$JAVA_HOME/jre export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin export CLASSPATH=./:$JAVA_HOME/lib:$JAVA_HOME/jre/lib上面是我的环境变量的配置。这里要注意的是这里面是:号不是;号。这样完毕后,如果大家输入java -version不报错并且输出java的版本号,那么说明大家的jdk安装成功了,恭喜,我们完成了第一部分。
2.安装HADOOP
首先当然要下载hadoop了,这里是一个连接:hadoop下载地址,大家进去找相应的镜像下载即可,很简单。目前hadoop都出到2.x版本了,但是建议大家下载1.x的版本,听说(仅仅就是听说)1.x的比较稳定。我这里是1.2.1。下载完毕后将文件解压,在/usr/local/下放入解压后文件。然后为hadoop的安装路径添加方便使用的符号链接:$ln
-s /usr/local/hadoop-1.2.1 /opt/hadoop 这样之后进行与jdk相同操作,添加环境变量:
export HADOOP_HOME=/usr/local/hadoop-1.2.1 export PATH=$HADOOP_HOME/bin:$PATH这里要注意要把HADOOP_HOME放入到PATH中哦,上面给出了。这之后我们到Hadoop的conf目录下编辑Hadoop-env.sh 文件,搜索JAVA_HOME并取消改行的注释,修改路径指向JDK的安装路径。到这里为止恭喜你,我们完成了第二部分的工作。
3.开始实践
输入如下命令:ssh-keygen 我们生成一堆openssh密钥对。里面会指向生成的位置,到该位置将新生成的公钥复制到已经授权的秘钥列表:
cp .ssh/id_rsa.pub .ssh/autorized_keys
然后我们尝试连接本机:ssh localhost 会打印一些信息。以后登录此本机就可以直接ssh -localhost了。这是为了以后做准备。
那么现在到了真正hadoop现身的时候了,我们让hadoop计算圆周率:
Hadoop jar hadoop位置/hadoop-examples-1.2.1.jar pi 4 1000
那么就会打印出很多数据,类似于:
Number of Maps = 4 Samples per Map = 1000 16/01/20 13:39:03 INFO util.NativeCodeLoader: Loaded the native-hadoop library Wrote input for Map #0 Wrote input for Map #1 Wrote input for Map #2 Wrote input for Map #3 Starting Job 16/01/20 13:39:03 INFO mapred.FileInputFormat: Total input paths to process : 4 16/01/20 13:39:04 INFO mapred.JobClient: Running job: job_local264674731_0001 16/01/20 13:39:04 INFO mapred.LocalJobRunner: Waiting for map tasks 16/01/20 13:39:04 INFO mapred.LocalJobRunner: Starting task: attempt_local264674731_0001_m_000000_0.......
这里面其实就是hadoop把工作分成四个任务去完成然后把结果拼起来。
相关文章推荐
- 详解HDFS Short Circuit Local Reads
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- Ubuntu 安装 JDK 问题
- 单机版搭建Hadoop环境图文教程详解
- 康诺云推出三款智能硬件产品,为健康管理业务搭建数据池
- MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程
- hadoop常见错误以及处理方法详解
- jdk与jre的区别 很形象,很清晰,通俗易懂
- jdk中String类设计成final的原由
- win7下安装 JDK 基本流程
- hadoop 单机安装配置教程
- jdk环境变量配置
- hadoop的hdfs文件操作实现上传文件到hdfs
- win2003 jsp运行环境架设心得(jdk+tomcat)
- windows linux jdk安装配置方法
- hadoop实现grep示例分享
- Java编程之jdk1.4,jdk1.5和jdk1.6的区别分析(经典)
- 简单记录Cent OS服务器配置JDK+Tomcat+MySQL
- Android开发的IDE、ADT、SDK、JDK、NDK等名词解释