您的位置：首页 > 大数据 > Hadoop

Reduce统计结果汇总混乱

2016-01-06 09:53 615 查看

在hadoop2.7.1上写了一段MapReduce程序，做一个word cloud统计，程序执行结果中有数据，但是混乱：很多完全相同的关键字没有归并到一起，也有个别的归并到了一起，但汇总值没有超过2的，如下：

中国红 1

中国红 1

中国红 1

摩卡黑 2

摩卡黑 2

百度说，其他同仁遇到的大多是reduce没有输出结果，其原因是Reduce应该用Iterable还是Iterator造成的，而且还是0.19和0.20版本时代的问题。而我有结果输出，只是没有完全执行合计。Reduce代码如下：

static class MyReducer extends
Reducer<Text, LongWritable, Text, LongWritable> {
LongWritable result = new LongWritable();
public void reduce(Text key, Iterable<IntWritable> values,
Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

莫非对Reduce处理中文Key有问题？不太可能。遂将所有Key用URLEncoder转码，结果仍然一样，不能归并。查半天，未果。

一觉醒来，忽然发现程序import中竟然还有IntWritable，我曾经把所有Int改成了LongWritable，这个程序竟然漏了！看上面代码中Class定义中使用了LongWritable，计算的时候却使用的IntWritable，修改，再运行，归并正常。

原来如此！Map和Reduce的数据类型不匹配通常会有ClassCastException，但LongWritable和IntWritable的转换没有报异常，默默的计算错了，竟然！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： mapreduce hadoop 2.7.1

相关文章推荐

新的分享

章节导航