海量日志数据,提取出某日访问百度次数最多的那个IP。
2016-12-17 17:48
861 查看
题目:
海量日志数据,提取出某日访问百度次数最多的那个IP。
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;
3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash_map,同时记录当前出现次数最多的那个ip地址;
4.可以得到1024个小文件中的出现次数最多的ip,再依据常规的排序算法得到总体上出现次数最多的ip;
海量日志数据,提取出某日访问百度次数最多的那个IP。
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;
3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash_map,同时记录当前出现次数最多的那个ip地址;
4.可以得到1024个小文件中的出现次数最多的ip,再依据常规的排序算法得到总体上出现次数最多的ip;
相关文章推荐
- 海量日志数据提取某日访问百度次数最多的那个IP的Java实现
- 海量日志数据提取某日访问百度次数最多的那个IP的Java实现
- 海量日志数据,提取出某日访问百度次数最多的那个IP。
- 海量日志数据,提取出某日访问百度次数最多的那个IP
- 海量日志数据,提取出某日访问百度次数最多的那个IP。
- 海量日志数据,提取出某日访问百度次数最多的那个IP。
- 海量日志数据提取某日访问百度次数最多的那个IP的Java实现
- 海量日志数据,提取出某日访问百度次数最多的那个IP的C++实现源代码
- 算法:海量日志数据,提取出某日访问百度次数最多的那个IP
- 算法:海量日志数据,提取出某日访问百度次数最多的那个IP
- 海量日志数据,提取出某日访问百度次数最多的那个IP。
- 海量日志数据__怎么在海量数据中找出重复次数最多的一个;提取出某日访问网站次数最多的那个IP;提取出某日访问网站次数最多的前n个IP
- 海量日志数据提取出访问次数最多的那个IP python实现 总结
- 海量日志数据提取出访问次数最多的那个IP python实现 总结
- 百度面试题:从海量日志中提取访问百度次数最多的IP
- 提取出某日访问百度次数最多的那个IP
- 从海量日志中提取访问百度次数最多的IP
- 提取出某日访问百度次数最多的那个IP
- 从海量日志中提取访问百度次数最多的IP
- 第十四章:提取出某日访问百度次数最多的那个IP