您的位置：首页 > 其它

只用2GB内存在20亿个整数中找到出现次数最多的数

2015-09-30 13:45 351 查看

只用2GB内存在20亿个整数中找到出现次数最多的数
【题目】
　　有一个包含20亿个全是32位整数的大文件，在其中找出出现次数最多的数。
【要求】
　　内存限制为2GB
【解答】
　　想要在很多整数中找出出现次数最多的数，通常的做法是使用哈希表对出现的每一个数做词频统计，哈希表的key是某一个数，value是这个数出现的次数。一个32位的整数需要4个字节，对于本题来说，key和value一共需要8B，20亿个整数就是160个字节，大概需要16GB的内存，如果在最坏情况下20亿个数都不相同，那么内存是明显不够用的。
　　解决的办法就是将20亿个数的大文件用哈希函数分成16个小文件，根据哈希函数的性质，同一种数不可能被哈希到不同的小文件上，同时每个小文件中不同的数一定不会大于2亿种，假设哈希函数足够好。然后对每一个小文件用哈希表来统计其中每种数出现的次数，这样就得到16个小文件中各自出现次数最多的数，还有各自的次数统计。接下来只要选出这16个小文件各自的第一名中谁出现的次数最多问题就解决了。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航