您的位置:首页 > 其它

MapReduce源码理解

2015-07-14 15:10 225 查看
看了一下源码,还是记录一下。看到后面又忘了,又得回过头来看。先写一点MapReduce的,记录一下。
将hadoop-1.0.4的源码导入到Eclipse中,有一个包是src/mapred,这个包里面包含了以前旧的mapreduce的接口和新的mapreduce抽象类,org.apache.hadoop.mapreduce是新的包,里面包括了Mapper,Reducer,Context,Partitioner,Job,RecordReader,RecordWriter等父类及其相关类。
主要写一下类的继承关系以及大概的使用方法,参考了一些书,讲的是其运行原理,但是功夫尚浅,还没从代码层面理解框架,待日后再写。


Mapper类

先说Mapper类,要实现自己的Mapper类,就必须继承自Mapper类(不是抽象类),它的参数是

private RecordReader<KEYIN,VALUEIN> reader;
private InputSplit split;

public MapContext(Configuration conf, TaskAttemptID taskid,
RecordReader<KEYIN,VALUEIN> reader,
RecordWriter<KEYOUT,VALUEOUT> writer,
OutputCommitter committer,
StatusReporter reporter,
InputSplit split) {
super(conf, taskid, writer, committer, reporter);
this.reader = reader;
this.split = split;
}


方法有:

public InputSplit getInputSplit(){return split;}

KEYIN getCurrentKey(){return reader.getCurrentKey();}

VALUEIN getCurrentValue() {return reader.getCurrentValue();}

boolean nextKeyValue(){return reader.nextKeyValue();}

从这里可以看出MapContext类是Context类的具体的实现,只由Context的对象调用继承的属性和方法即可得到框架中的东西。从这四个方法可以得到它的分片信息、当前的键、当前的值、以及下一个键值对。这是通过上面属性中RecordRe 1. Reducer类

Reducer类是在Mapper类处理得到结果之后再进行处理的类,它里面的函数和Mapper类差不多,有四个函数和一个Context内部类(该类和Mapper类中的Context类是不同的):

setup(Context context) 在task运行之前调用,调用一次

reduce(KEYIN key, Iterable values, Context context)这个函数是对相同的键进行遍历处理。

cleanup(Context context)在task运行之后调用,调用一次

run(Context context);先调用setup函数,再调用reduce函数,最后调用cleanup函数,可以控制Reduce的运行,高级使用

public class Context

extends ReduceContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {

public Context(Configuration conf, TaskAttemptID taskid,

RawKeyValueIterator input,

Counter inputKeyCounter,

Counter inputValueCounter,

RecordWriter<KEYOUT,VALUEOUT> output,

OutputCommitter committer,

StatusReporter reporter,

RawComparator<KEYIN> comparator,

Class<KEYIN> keyClass,

Class<VALUEIN> valueClass

) throws IOException, InterruptedException {

super(conf, taskid, input, inputKeyCounter, inputValueCounter,

output, committer, reporter,

comparator, keyClass, valueClass);

}

}


从这里可以看出,Context可以获得框架中的东西,Context继承的是ReduceContext,下面介绍一下ReduceContext。

2. ReduceContext

该类也是继承自TaskInputOutputContext,它的构造函数和上面的构造函数是一样的,思想也和MapContext的差不多,里面通过函数获得下一个值,主要的函数有:

boolean nextKey(),

boolean nextKeyValue()

KEYIN getCurrentKey()

VALUEIN getCurrentValue()

也是ReduceContext已经实现好的,Context的对象可以直接调用。

5. Context

Context类有一个专门设计的继承关系,各个层级和框架的不同级别的类在打交道,下面再介绍。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: