数据结构,硬伤
2013-04-17 17:10
106 查看
NoSql - SNS
大数据处理。
去蚁坊面试,笔试还简单,不过面试被数据结构和算法给难到了。
作为非计算机专业出生的我,对数据结构没什么概念,应用就更少了。
Hash算法弄不明白。
请考虑这样一个问题:
假设现在有上亿个long类型的数据,在没有足够内存的情况下(假设只有512M的内存),如何去重复值?
解:我们可以考虑用BitMap来做这些事,对这些数据进行hash算法,映射到BitMap上。
首先,使用hash值能大大减少数据量,减少内存消耗,其次,对于同样值的数据能映射到BitMap上同一位置来。
考虑到hash算法可能会有重复冲突,应该对数据多做几次hash算法,以减少错误的机率。
也不知道描述的对不对,这也不是我自己的想法,有错误的地方还望斧正。
大数据处理。
去蚁坊面试,笔试还简单,不过面试被数据结构和算法给难到了。
作为非计算机专业出生的我,对数据结构没什么概念,应用就更少了。
Hash算法弄不明白。
请考虑这样一个问题:
假设现在有上亿个long类型的数据,在没有足够内存的情况下(假设只有512M的内存),如何去重复值?
解:我们可以考虑用BitMap来做这些事,对这些数据进行hash算法,映射到BitMap上。
首先,使用hash值能大大减少数据量,减少内存消耗,其次,对于同样值的数据能映射到BitMap上同一位置来。
考虑到hash算法可能会有重复冲突,应该对数据多做几次hash算法,以减少错误的机率。
也不知道描述的对不对,这也不是我自己的想法,有错误的地方还望斧正。
相关文章推荐
- ORM之硬伤
- [综合面试] 牛人整理分享的面试知识:操作系统、计算机网络、设计模式、Linux编程,数据结构总结
- Java的数据结构——排序
- 旭说数据结构之栈的小题目
- java--数据结构--二叉树根节点到指定节点的路径
- 数据结构---顺序表
- bzoj2006 NOI2010 数据结构+堆维护区间和最大
- 数据结构和算法设计(迷宫求解问题的栈和队列的实现)
- 数据结构-线性表-链式存储结构完整可执行代码
- 数据结构:散列表
- 【算法设计与数据结构】URAL 1167. Bicolored Horses(动态规划求解)
- 数据结构——17 二叉树(递归)
- 数据结构 第四章 串、数组和广义表
- python入门第二天——数据结构
- 我思故我在系列—数据结构题(题目搜集整理者july,非常感谢!)
- 牛人整理分享的面试知识:操作系统、计算机网络、设计模式、Linux编程,数据结构总结
- 《coredump问题原理探究》Linux x86版5.9节C风格数据结构内存布局之联合体
- 旭说数据结构之队列
- 【数据结构】堆、堆排序笔记
- 【数据结构】--几道栈和队列面试题