积累(五-大数据处理)
2014-10-13 16:03
176 查看
问:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url。
答:单个文件的大小达到5G*64=320G,所以要拆成小的部分。
1.遍历文件a,对每一个url计算key=hash(url)%1000。相同key的url存放在一个文件里。这样我们得到了1000个文件(a0、a1、...、a999)。
2.对b采用同样的方法。得到(b0、b1、...、b999)。
3.在每对(ai,bi)中找共同的url。注意这样处理不会有遗漏。
下面再解决小文件中找共同url的方法。
可使用STL中的set<string> m_set,将第一个文件中每个url都放进去。再针对第二个文件的每个url作 m_set.find(url)!=m_set.end()的判断。
问:N个降序有序队列,找到最大的K个数。(百度2015秋招真题)
答:解决方法堆排序:
1. 选取每个队列中第一个元素建立大根堆,堆中元素个数为队列的个数N;
2. 删除最大堆堆顶,保存到所求的集合中,然后向最大堆插入/刚才删除元素所在队列的/下一元素。
3. 重复第1,2个步骤,直到求得最大的K个数。
相关文章推荐
- 数据序列化处理之经验积累(1)-BinaryFormatter
- 数据序列化处理之经验积累(3) -- ObjectStateFormatter
- 数据序列化处理之经验积累(1)-BinaryFormatter
- 数据序列化处理之经验积累(1)-BinaryFormatter
- JQuery 常用积累(一)前后台数据交互和处理
- 算法积累之处理数组数据
- 数据序列化处理之经验积累(2) -- Datacontract formatter
- java处理数据文本时间小函数积累
- 【项目积累】对JSON数据的处理
- 处理数据 命令积累
- 数据序列化处理之经验积累(3) -- ObjectStateFormatter
- 数据序列化处理之经验积累(3) -- ObjectStateFormatter
- java处理数据文本时间小函数积累
- 【项目积累】对JSON数据的处理
- 自己写的能处理多类型数据的双向链表
- PEAR::HTML_QuickForm入门[3]--处理表单数据
- 丢失全部数据文件,控制文件,redo log file(9201)——处理方法四
- 转载IBM dw——Faces Portlet 开发框架中数据的组织与处理
- 游戏逻辑独立. 处理数据的判断和执行.[小糊涂的灵感]
- 处理Foxmail垃圾邮件数据文件被杀毒软件删除问题