上千万或亿条数据量,如何统计出重复记录最多的前N条
2011-05-26 22:39
423 查看
上千万或亿条数据量,如何统计出重复记录最多的前N条:
对于这个问题,我个人觉得可以通过统计的方法来完成:去重+统计,具体的做法是:
(1)初始化一个空的集合A(具体的就不去说了,建议用hashtable)。
(2)顺序读入这些数据,如果当前读入的数据不在该集合A中,则将其插入到A中,并将其出现次数标记为0。如果在当前的集合中出现了,则将其当前的出现次数++。
(3)再从统计好的集合中找出重复记录最多的前N条。
对于这个问题,我个人觉得可以通过统计的方法来完成:去重+统计,具体的做法是:
(1)初始化一个空的集合A(具体的就不去说了,建议用hashtable)。
(2)顺序读入这些数据,如果当前读入的数据不在该集合A中,则将其插入到A中,并将其出现次数标记为0。如果在当前的集合中出现了,则将其当前的出现次数++。
(3)再从统计好的集合中找出重复记录最多的前N条。
相关文章推荐
- 上千万或上亿数据(有重复),统计其中出现次数最多的N个数据. C++实现
- Excel 中如何找出两列数据中不重复的记录
- sqlserver 连接查询的问题,a表无重复记录,与b表中的记录为1对N关系,如何在查得a表信息时统计b表记录数
- 如何删除数据表中重复的记录
- 统计重复数据的总数且只显示重复数据的一条记录
- SQL语句-统计全部数据,过滤掉其中两个字段同时重复的记录
- SQL 删除重复记录,同时统计重复记录某一列的数据 以及 SET XACT_ABORT
- SQL语句-统计全部数据,过滤掉其中两个字段同时重复的记录
- 按某一字段分组取最大(小)值所在行的数据,如何按字段删除重复记录
- MySQL Help 答朋友问:5000W记录的Innodb表如何快速的去重复数据
- 如何避免mysql 主从同步中由于数据记录找不到和主键重复错误导致的同步异常问题
- 使用SQL语句对重复记录查询、统计重复次数、删除重复数据
- MySql-如何查询删除数据表重复记录
- mysql查询时去除重复数据以及 FOUND_ROWS 统计记录函数
- MySQL如何按天统计数据,没有记录的天自动补充0
- 使用SQL语句对重复记录查询、统计重复次数、删除重复数据
- MySql-如何查询删除数据表重复记录
- 如何对EXCEL一列的数据中快速提取不重复的记录
- 一道面试题,内存受限的情况,如何在海量的数据中找到重复最多的
- 如何在有限的内存的情况下,找到大量数据中重复查询次数最多的语句