您的位置:首页 > 大数据 > Hadoop

Reduce统计结果汇总混乱

2016-01-06 09:53 615 查看
在hadoop2.7.1上写了一段MapReduce程序,做一个word cloud统计,程序执行结果中有数据,但是混乱:很多完全相同的关键字没有归并到一起,也有个别的归并到了一起,但汇总值没有超过2的,如下:

中国红 1

中国红 1

中国红 1

摩卡黑 2

摩卡黑 2

百度说,其他同仁遇到的大多是reduce没有输出结果,其原因是Reduce应该用Iterable还是Iterator造成的,而且还是0.19和0.20版本时代的问题。而我有结果输出,只是没有完全执行合计。Reduce代码如下:

static class MyReducer extends
Reducer<Text, LongWritable, Text, LongWritable> {
LongWritable result = new LongWritable();
public void reduce(Text key, Iterable<IntWritable> values,
Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

莫非对Reduce处理中文Key有问题?不太可能。遂将所有Key用URLEncoder转码,结果仍然一样,不能归并。查半天,未果。

一觉醒来,忽然发现程序import中竟然还有IntWritable,我曾经把所有Int改成了LongWritable,这个程序竟然漏了!看上面代码中Class定义中使用了LongWritable,计算的时候却使用的IntWritable,修改,再运行,归并正常。

原来如此!Map和Reduce的数据类型不匹配通常会有ClassCastException,但LongWritable和IntWritable的转换没有报异常,默默的计算错了,竟然!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  mapreduce hadoop 2.7.1