只用2GB内存在20亿个整数中找到出现次数最多的数
2015-09-30 13:45
351 查看
只用2GB内存在20亿个整数中找到出现次数最多的数
【题目】
有一个包含20亿个全是32位整数的大文件,在其中找出出现次数最多的数。
【要求】
内存限制为2GB
【解答】
想要在很多整数中找出出现次数最多的数,通常的做法是使用哈希表对出现的每一个数做词频统计,哈希表的key是某一个数,value是这个数出现的次数。一个32位的整数需要4个字节,对于本题来说,key和value一共需要8B,20亿个整数就是160个字节,大概需要16GB的内存,如果在最坏情况下20亿个数都不相同,那么内存是明显不够用的。
解决的办法就是将20亿个数的大文件用哈希函数分成16个小文件,根据哈希函数的性质,同一种数不可能被哈希到不同的小文件上,同时每个小文件中不同的数一定不会大于2亿种,假设哈希函数足够好。然后对每一个小文件用哈希表来统计其中每种数出现的次数,这样就得到16个小文件中各自出现次数最多的数,还有各自的次数统计。接下来只要选出这16个小文件各自的第一名中谁出现的次数最多问题就解决了。
【题目】
有一个包含20亿个全是32位整数的大文件,在其中找出出现次数最多的数。
【要求】
内存限制为2GB
【解答】
想要在很多整数中找出出现次数最多的数,通常的做法是使用哈希表对出现的每一个数做词频统计,哈希表的key是某一个数,value是这个数出现的次数。一个32位的整数需要4个字节,对于本题来说,key和value一共需要8B,20亿个整数就是160个字节,大概需要16GB的内存,如果在最坏情况下20亿个数都不相同,那么内存是明显不够用的。
解决的办法就是将20亿个数的大文件用哈希函数分成16个小文件,根据哈希函数的性质,同一种数不可能被哈希到不同的小文件上,同时每个小文件中不同的数一定不会大于2亿种,假设哈希函数足够好。然后对每一个小文件用哈希表来统计其中每种数出现的次数,这样就得到16个小文件中各自出现次数最多的数,还有各自的次数统计。接下来只要选出这16个小文件各自的第一名中谁出现的次数最多问题就解决了。
相关文章推荐
- P22 (*) Create a list containing all integers within a given range
- 简单排序方法——冒泡排序
- java中main方法启动的是一个进程还是一个线程
- ActiveMQ初体验
- LintCode "Binary Tree Serialization"
- LINUX文件管理
- zigbee学习之串口通信
- LAMP编译(一)
- redis 配置说明
- 密钥管理思路
- JSP中System.out.println()与out.println()区别
- HTML5 本地裁剪图片并上传至服务器
- Murano Weekly Meeting 2015.09.29
- usaco Drainage Ditches
- React Native真机调试
- 微信刀下多亡魂,这些封杀你都知道吗?
- memcache原理
- linux函数用法
- Linux 命令 - service: 系统服务管理
- 《疯狂的程序员》读后感