您的位置：首页 > 运维架构

海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。

2012-09-25 14:43 267 查看

海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。

在每台电脑上求出TOP10，可以采用包含10个元素的堆完成（TOP10小，用最大堆，TOP10大，用最小堆）。比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。最后堆中的元素就是TOP10大。
求出每台电脑上的TOP10后，然后把这100台电脑上的TOP10组合起来，共1000个数据，再利用上面类似的方法求出TOP10就可以了。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10
高效统计Oracle数据表条数
大数据之使用hadoop对海量数据进行统计并排序
mysql按日期分组（group by）查询统计的时候，没有数据补0的解决办法。
mysql按日期分组（group by）查询统计的时候，没有数据补0的解决办法
海量数据中重复数据的SQLSERVER插入失败的寻找办法
mysql按日期分组（group by）查询统计的时候，没有数据补0的解决办法
一种从JSON数据创建Java类的高效办法
6.2.5 数据分布和统计
HIVE 统计商品访问的top10 数据不能插入的问题
一种从JSON数据创建Java类的高效办法
批量读取文件夹下的DR8光谱数据，并完成显示保存图片以及统计Z和Obj的分布情况
一种从JSON数据创建Java类的高效办法
在R中统计数据的频数或者密度分布并图形化
大数据量分页（海量数据分页）的高效实现
一种从JSON数据创建Java类的高效办法
mysql按日期分组（group by）查询统计的时候，没有数据补0的解决办法。
组装电脑磁盘被格式化了的数据找回办法
二分逼近&二分查找高效解析800万大数据之区域分布
hist函数进行数据分布统计

新的分享

新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
民生银行日接入量15T的ELK日志平台（Apollo+ES源码改造） - 运维
邱盛昌：OPPO商业化数据体系建设实战
一篇吃透监控系统：常用组合方案和主流工具选型 - 运维
DevOps落地成不成，关键不在持续集成？ - 运维
mlops的一些记录
用Prometheus监控K8S，目前最实用的部署方式都说全了（有彩蛋） - 运维
asio 使用 openssl 示例
Netty源码研究笔记（4）——EventLoop系列
许北林：我为什么加入OpenHarmony生态？又为什么要做“启航KP”开发套件？
【直播回顾】OpenHarmony知识赋能五期第五课——多媒体子系统之视频解读
【直播回顾】如何成为一名优秀的OpenHamrony贡献者？

章节导航