海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10。
2012-09-25 14:43
267 查看
海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10。
在每台电脑上求出TOP10,可以采用包含10个元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我们首先取前10个元素调整成最小堆,如果发现,然后扫描后面的数据,并与堆顶元素比较,如果比堆顶元素大,那么用该元素替换堆顶,然后再调整为最小堆。最后堆中的元素就是TOP10大。
求出每台电脑上的TOP10后,然后把这100台电脑上的TOP10组合起来,共1000个数据,再利用上面类似的方法求出TOP10就可以了。
在每台电脑上求出TOP10,可以采用包含10个元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我们首先取前10个元素调整成最小堆,如果发现,然后扫描后面的数据,并与堆顶元素比较,如果比堆顶元素大,那么用该元素替换堆顶,然后再调整为最小堆。最后堆中的元素就是TOP10大。
求出每台电脑上的TOP10后,然后把这100台电脑上的TOP10组合起来,共1000个数据,再利用上面类似的方法求出TOP10就可以了。
相关文章推荐
- 海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10
- 高效统计Oracle数据表条数
- 大数据之使用hadoop对海量数据进行统计并排序
- mysql按日期分组(group by)查询统计的时候,没有数据补0的解决办法。
- mysql按日期分组(group by)查询统计的时候,没有数据补0的解决办法
- 海量数据中重复数据的SQLSERVER插入失败的寻找办法
- mysql按日期分组(group by)查询统计的时候,没有数据补0的解决办法
- 一种从JSON数据创建Java类的高效办法
- 6.2.5 数据分布和统计
- HIVE 统计商品访问的top10 数据不能插入的问题
- 一种从JSON数据创建Java类的高效办法
- 批量读取文件夹下的DR8光谱数据,并完成显示保存图片以及统计Z和Obj的分布情况
- 一种从JSON数据创建Java类的高效办法
- 在R中统计数据的频数或者密度分布并图形化
- 大数据量分页(海量数据分页)的高效实现
- 一种从JSON数据创建Java类的高效办法
- mysql按日期分组(group by)查询统计的时候,没有数据补0的解决办法。
- 组装电脑磁盘被格式化了的数据找回办法
- 二分逼近&二分查找 高效解析800万大数据之区域分布
- hist函数 进行 数据 分布 统计