MapReduce源码理解
2015-07-14 15:10
225 查看
看了一下源码,还是记录一下。看到后面又忘了,又得回过头来看。先写一点MapReduce的,记录一下。 将hadoop-1.0.4的源码导入到Eclipse中,有一个包是src/mapred,这个包里面包含了以前旧的mapreduce的接口和新的mapreduce抽象类,org.apache.hadoop.mapreduce是新的包,里面包括了Mapper,Reducer,Context,Partitioner,Job,RecordReader,RecordWriter等父类及其相关类。 主要写一下类的继承关系以及大概的使用方法,参考了一些书,讲的是其运行原理,但是功夫尚浅,还没从代码层面理解框架,待日后再写。
Mapper类
先说Mapper类,要实现自己的Mapper类,就必须继承自Mapper类(不是抽象类),它的参数是
private RecordReader<KEYIN,VALUEIN> reader; private InputSplit split; public MapContext(Configuration conf, TaskAttemptID taskid, RecordReader<KEYIN,VALUEIN> reader, RecordWriter<KEYOUT,VALUEOUT> writer, OutputCommitter committer, StatusReporter reporter, InputSplit split) { super(conf, taskid, writer, committer, reporter); this.reader = reader; this.split = split; }
方法有:
public InputSplit getInputSplit(){return split;}
KEYIN getCurrentKey(){return reader.getCurrentKey();}
VALUEIN getCurrentValue() {return reader.getCurrentValue();}
boolean nextKeyValue(){return reader.nextKeyValue();}
从这里可以看出MapContext类是Context类的具体的实现,只由Context的对象调用继承的属性和方法即可得到框架中的东西。从这四个方法可以得到它的分片信息、当前的键、当前的值、以及下一个键值对。这是通过上面属性中RecordRe 1. Reducer类
Reducer类是在Mapper类处理得到结果之后再进行处理的类,它里面的函数和Mapper类差不多,有四个函数和一个Context内部类(该类和Mapper类中的Context类是不同的):
setup(Context context) 在task运行之前调用,调用一次
reduce(KEYIN key, Iterable values, Context context)这个函数是对相同的键进行遍历处理。
cleanup(Context context)在task运行之后调用,调用一次
run(Context context);先调用setup函数,再调用reduce函数,最后调用cleanup函数,可以控制Reduce的运行,高级使用
public class Context extends ReduceContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> { public Context(Configuration conf, TaskAttemptID taskid, RawKeyValueIterator input, Counter inputKeyCounter, Counter inputValueCounter, RecordWriter<KEYOUT,VALUEOUT> output, OutputCommitter committer, StatusReporter reporter, RawComparator<KEYIN> comparator, Class<KEYIN> keyClass, Class<VALUEIN> valueClass ) throws IOException, InterruptedException { super(conf, taskid, input, inputKeyCounter, inputValueCounter, output, committer, reporter, comparator, keyClass, valueClass); } }
从这里可以看出,Context可以获得框架中的东西,Context继承的是ReduceContext,下面介绍一下ReduceContext。
2. ReduceContext
该类也是继承自TaskInputOutputContext,它的构造函数和上面的构造函数是一样的,思想也和MapContext的差不多,里面通过函数获得下一个值,主要的函数有:
boolean nextKey(),
boolean nextKeyValue()
KEYIN getCurrentKey()
VALUEIN getCurrentValue()
也是ReduceContext已经实现好的,Context的对象可以直接调用。
5. Context
Context类有一个专门设计的继承关系,各个层级和框架的不同级别的类在打交道,下面再介绍。
相关文章推荐
- 逻辑回归模型(Logistic Regression, LR)基础
- 仿真算法数据结构与算法 C++实现
- Android中使用WebView加载大图
- 字符串的比较、复制、连接、截子串、判断子串
- agilent 测试中常用符号
- joda-time的使用
- ZFFT 【转载】
- centos重置密码
- OpenLayers开发:调用矢量图层
- android之descendantFocusability用法简析
- 【Java】给定一个有序整数数组,元素各不相同且按照升序排列,编写一个算法,创建一个高度最小的二叉查找树
- NYOJ 1036 非洲小孩
- android asmack 注册 登陆 聊天 多人聊天室 文件传输
- BaseAdapter中重写getview的心得以及发现convertView回收的机制
- Java Spring AOP的两种配置方式
- editplus安装汉化激活
- 为什么要造轮子?
- iOS 自动布局详细介绍
- json转换实体bean、数组list
- Android手机拍照