MongoDB MapReduce 实战<5>
2015-03-12 15:02
281 查看
开始真正的实战了,表数据约100w条,今天先解决第一个需求,也就是求平均记录产生的时间,直接运行《实战 2》已经编写的MapReduce。
出现异常,
无结果,只要加入{sort},就无结果,查找资料,说必须要建立索引才可加入sort(但是之前数据量小的时候,程序运行良好),建立索引后,在sort处,输入{'CREATE_DATE':-1},出现结果,问题解决
结果中,许多记录的TIMES字段中的日期并没有排序,且呈不规则,比如这次运行完MapReduce是这条记录的Times排序有问题,但是再次运行MapReduce后,这条记录的Times排序又没有问题,怀疑与多线程有关?只能在Finalize中对结果重新进行排序操作
增加Finalize,对日期进行排序
In & Out 也作出相应的修改,去掉没用的排序操作了
好,继续运行第二个求平均值的MapReduce(《实战3》中),继续报异常
NaN,非数字异常,导致这个问题的原因很简单,但是却花了我不少时间,原因为超过了数据类型的最大范围,需要修改MapReduce,不做整体累加后除整个次数,改为两个数一加后,直接就求平均值
修改Map
修改Reduce
由于出现了双精度,所以Finalize也需要稍微修改
最终结果
出现异常,
无结果,只要加入{sort},就无结果,查找资料,说必须要建立索引才可加入sort(但是之前数据量小的时候,程序运行良好),建立索引后,在sort处,输入{'CREATE_DATE':-1},出现结果,问题解决
结果中,许多记录的TIMES字段中的日期并没有排序,且呈不规则,比如这次运行完MapReduce是这条记录的Times排序有问题,但是再次运行MapReduce后,这条记录的Times排序又没有问题,怀疑与多线程有关?只能在Finalize中对结果重新进行排序操作
增加Finalize,对日期进行排序
function Finalize(key, reduced) { if(reduced.times){ reduced.times.sort(function(x, y){ return x < y ? 1 : -1; }); } return reduced; }
In & Out 也作出相应的修改,去掉没用的排序操作了
好,继续运行第二个求平均值的MapReduce(《实战3》中),继续报异常
NaN,非数字异常,导致这个问题的原因很简单,但是却花了我不少时间,原因为超过了数据类型的最大范围,需要修改MapReduce,不做整体累加后除整个次数,改为两个数一加后,直接就求平均值
修改Map
function Map() { var temp = 0.0; var times = this.value.times; if(times){ if(times.length > 1){ for(var i = 0;i < times.length;i++){ if(i != times.length - 1){ temp += times[i] - times[i+1]; temp = temp / 2 } } } emit( 'Result', temp ); } }
修改Reduce
function Reduce(key, values) { var ret = {msg:key}; var temp = 0.0; for(var i = 0;i < values.length;i++){ if(i > 0){ temp += values[i]; temp = temp / 2 } } ret.arv_time = temp; return ret; }
由于出现了双精度,所以Finalize也需要稍微修改
function Finalize(key, reduced) { // 转成秒 var second = parseInt(reduced.arv_time / 1000.00); // 转分钟 var minute = parseInt(second / 60); // 剩余秒 var s = second % 60; // 转小时 var hour = parseInt(minute / 60); // 剩余分 var m = minute % 60; // 转天 var day = parseInt(hour / 24); // 剩余小时 var h = hour % 24; return day + " 天 " + h + " 小时 " + m + " 分钟 " + s + " 秒 "; }
最终结果
相关文章推荐
- FlexAir 开源版-多人视频聊天室,网络远程多人视频会议系统((Flex,Fms3联合开发))<视频聊天,会议开发实战>
- 指尖上的代码[C语言版]-<5>
- MongoDB MapReduce 实战<6>
- MongoDB MapReduce 实战<2>
- MongoDB MapReduce 实战<4>
- 现代的Dojo(相对于1.6版本)<5>
- Servlet<5>
- Struts2<5>Struts2 标签
- maven实战(3)-- dependency <classifier>的使用
- HTML 5 <input> disabled 属性
- HTML 5 <hgroup> 标签
- HTML 5 <button> 标签
- HTML 5 <input> required 属性
- 友善官方<<Mini2440 Linux移植开发实战指南>>问题勘误录
- Java笔记7 Java基础加强<5>ClassLoader
- C++文件操作<5>
- [技术][JavaScript] <<JQuery 实战(Jquery in Action)>> -- Bear Bibeault & Yehuda Katz(美)
- <2> unity3d 分包与上google play 之具体实战
- MongoDB MapReduce 实战<3>
- LINUX块设备驱动<5>