Hadoop基本使用(二)HelloWorld之旅
2017-03-16 17:51
239 查看
前言
上一篇文件已经介绍了hadoop的基本配置和安装。本篇文章将介绍hadoop的一个简单实用的小案例。hadoop框架是实现大数据的基础,而大数据存储主要是为了分析数据中对我们有用的信息,比如统计某一个城市中人名包含了某一个字的人数。本片文章也将会以简单的数据统计为基础,写一个简单的HelloWorld。如果还没有安装Hadoop,请先看第一篇文章《hadoop的基本配置和安装》
开发环境
系统:ubuntu linux软件:hadoop 2.7.3
步骤
1.在/home/javen/hadoop-2.7.3/文件夹下创建一个test文件夹。命令如下:2.进入test文件夹:
3.在test文件夹下创建2个文件:
4. 退出test目录:
5. 在hdfs系统中创建一个input文件夹,用来存放test1.txt和test2.txt文件,命令如下:
6.再将test文件夹上传到/user/hadoop/input文件夹下,命令如下:
7.使用hadoop自带的example.jar执行,命令如下:
8.执行完第7步之后,会在output2文件夹下生成一个part-xxx文件,part-xxx文件中存放的就是hadoop的统计结果。
9.然后执行如下命令,查看结果,命令如下:
结果
以上结果统计出每个单词出现的次数。
到此为止一个简单的Helloworld程序就执行完毕。
这只是一个简单的案例。如果要进行比较复杂的数据分析和统计,需要自己先去了解Map和Reduce。
相关文章推荐
- Hadoop基本使用
- 使用ToolRunner运行Hadoop程序基本原理分析 分类: A1_HADOOP 2014-08-22 11:03 3462人阅读 评论(1) 收藏
- pig (高级过程语言,简化 Hadoop 的使用) 基本概念
- Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)
- Hadoop、spark的一些基本使用笔记
- Hadoop学习与使用之基本操作命令
- 【大数据系列】windows环境下搭建hadoop开发环境使用api进行基本操作
- Linux 安装以及基本使用Hadoop 详解
- Hadoop的基本使用(3)——MapReduce的基本操作(实现字符统计)
- hadoop的基本简介及安装、配置、使用(一)
- 使用ToolRunner运行Hadoop程序基本原理分析
- Flask-HelloWorld-01 安装和基本使用
- Tachyon基本使用08-----Running Hadoop MapReduce on Tachyon
- hadoop安转以及基本命令的使用
- 使用ToolRunner运行Hadoop程序基本原理分析
- Ubuntu上使用Hadoop 2.x 四 Multi-node cluster 基本设置
- 使用ToolRunner运行Hadoop程序基本原理分析
- 使用HDFS API实现hadoop HDFS文件系统的基本操作
- Hadoop 基本API 使用 -- 从HDFS文件系统 上读取文件
- hadoop(02)、使用JAVA API对HDFS进行基本操作