您的位置:首页 > 其它

上千万或亿条数据量,如何统计出重复记录最多的前N条

2011-05-26 22:39 423 查看
上千万或亿条数据量,如何统计出重复记录最多的前N条:

对于这个问题,我个人觉得可以通过统计的方法来完成:去重+统计,具体的做法是:

(1)初始化一个空的集合A(具体的就不去说了,建议用hashtable)。

(2)顺序读入这些数据,如果当前读入的数据不在该集合A中,则将其插入到A中,并将其出现次数标记为0。如果在当前的集合中出现了,则将其当前的出现次数++。

(3)再从统计好的集合中找出重复记录最多的前N条。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐