您的位置:首页 > 其它

海量日志数据,提取出某日访问百度次数最多的那个IP。

2016-12-17 17:48 861 查看
题目:

海量日志数据,提取出某日访问百度次数最多的那个IP。

算法思想:分而治之+Hash

1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;

2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;

3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash_map,同时记录当前出现次数最多的那个ip地址;

4.可以得到1024个小文件中的出现次数最多的ip,再依据常规的排序算法得到总体上出现次数最多的ip;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐