利用位图查找大数据
2016-11-08 14:33
274 查看
转载地址: http://blog.csdn.net/lf_2016/article/details/53081447
1K=1024byte
1M=1024K=1024*1024byte(约100万个字节)
1G=1024M=1024*1024K=1024*1024*1024byte(约10亿个字节)
假设现在有40亿个不重复且无序的无符号整数,现在给你一个整数让你快速判断它是否在这40亿个数里面???(假设现在只有4G的内存)
这道题的解决办法很简单,就是用这个数到这40个数中去找就行了,如果找到就是存在,找不到就是不存在。那么问题来了,40亿个无符号整形共有160亿个byte,也就是至少需要16G才能放得下,我么应该怎么才能将这40亿个整数加载到内存中呢?
方法一:分割文件
对于这种大数据问题,通用的方法就是对大文件切分,切分成若干个小文件,再对小文件应用数据结构求解。
方法二:bitmap(位图)
对于这种问题,我们通常还有一种更好的方法,那就是位图,位图也是hash的一种应用。
对于这些无符号整数我们完全没有必要用4个字节来表示,因为现在我们只需要找这个数存在还是不存在,只有两种状态,所以我们可以用一个bit位来表示一个数存在还是不存在,0表示不存在,1表示存在。所以现在40亿个无符号整数只需要500M就可以表示了。要找这个数存在还是不存在,只需要计算这个数在bitmap中的位置,再看这一位是0还是1就可以了。
[cpp]
view plain
copy
#pragma once
#include<vector>
using namespace std;
class BitMap
{
public:
BitMap(size_t range) //给定位图所能表示的范围
{
_bitmap.resize(range/32+1); //设置大小
}
void Set(size_t num) //置1
{
size_t index = num / 32; //计算所在下标
size_t bit = num % 32; //得位所在位置
_bitmap[index] |= (1 << bit);
}
void ReSet(size_t num) //置零
{
size_t index = num / 32; //计算所在下标
size_t bit = num % 32; //得位所在位置
_bitmap[index] &= (~(1 << bit));
}
bool Test(size_t num)
{
size_t index = num / 32; //计算所在下标
size_t bit = num % 32; //得位所在位置
return (_bitmap[index]>>num)&1;
}
private:
vector<size_t> _bitmap;
};
扩展:
假设现在有100亿个无符号整数,现在要你找出只出现1次的数。(无符号整数所能表示的范围就是42亿9千万左右)
解析:
这里一个数不止出现一次,所以我们用一个bit位是不能解决这个问题的。因为一个数出现的状态有三种即:出现0次,出现1次,出现多次。要表示三种状态我们至少需要两个bit位才可以。假设现在用:00表示没出现,01表示出现1次,11(或10)表示出现多次。这样算下来也只需要1G左右的内存。
1K=1024byte
1M=1024K=1024*1024byte(约100万个字节)
1G=1024M=1024*1024K=1024*1024*1024byte(约10亿个字节)
假设现在有40亿个不重复且无序的无符号整数,现在给你一个整数让你快速判断它是否在这40亿个数里面???(假设现在只有4G的内存)
这道题的解决办法很简单,就是用这个数到这40个数中去找就行了,如果找到就是存在,找不到就是不存在。那么问题来了,40亿个无符号整形共有160亿个byte,也就是至少需要16G才能放得下,我么应该怎么才能将这40亿个整数加载到内存中呢?
方法一:分割文件
对于这种大数据问题,通用的方法就是对大文件切分,切分成若干个小文件,再对小文件应用数据结构求解。
方法二:bitmap(位图)
对于这种问题,我们通常还有一种更好的方法,那就是位图,位图也是hash的一种应用。
对于这些无符号整数我们完全没有必要用4个字节来表示,因为现在我们只需要找这个数存在还是不存在,只有两种状态,所以我们可以用一个bit位来表示一个数存在还是不存在,0表示不存在,1表示存在。所以现在40亿个无符号整数只需要500M就可以表示了。要找这个数存在还是不存在,只需要计算这个数在bitmap中的位置,再看这一位是0还是1就可以了。
[cpp]
view plain
copy
#pragma once
#include<vector>
using namespace std;
class BitMap
{
public:
BitMap(size_t range) //给定位图所能表示的范围
{
_bitmap.resize(range/32+1); //设置大小
}
void Set(size_t num) //置1
{
size_t index = num / 32; //计算所在下标
size_t bit = num % 32; //得位所在位置
_bitmap[index] |= (1 << bit);
}
void ReSet(size_t num) //置零
{
size_t index = num / 32; //计算所在下标
size_t bit = num % 32; //得位所在位置
_bitmap[index] &= (~(1 << bit));
}
bool Test(size_t num)
{
size_t index = num / 32; //计算所在下标
size_t bit = num % 32; //得位所在位置
return (_bitmap[index]>>num)&1;
}
private:
vector<size_t> _bitmap;
};
扩展:
假设现在有100亿个无符号整数,现在要你找出只出现1次的数。(无符号整数所能表示的范围就是42亿9千万左右)
解析:
这里一个数不止出现一次,所以我们用一个bit位是不能解决这个问题的。因为一个数出现的状态有三种即:出现0次,出现1次,出现多次。要表示三种状态我们至少需要两个bit位才可以。假设现在用:00表示没出现,01表示出现1次,11(或10)表示出现多次。这样算下来也只需要1G左右的内存。
相关文章推荐
- 【位图】--利用位图储存大数据,节省空间,快速查找
- 为DataTable设置主键及利用主键查找行数据
- 利用快速排序从大量数据中查找最大的若干个数据
- 位图 查找重复 排序 存数据
- 利用二分法查找数据中的字串JAVA
- 利用图片中的exif元数据批量查找图片中所包含的GPS信息
- 为DataTable设置主键及利用主键查找行数据
- [数据结构]利用位图排序
- 利用函数查找数据
- C++利用std::forward_list查找插入数据方法示例
- 利用递归查找链表中与数据成员值与形参n相同的结点
- 查找与排序:利用基数排序对0~100范围内数据实现排序
- 为DataTable设置主键及利用主键查找行数据
- 利用toolStripTextBox查找数据在datagridview中显示
- 利用图片中的exif元数据批量查找图片中所包含的GPS信息
- 插值搜索——本质和二分无异,是利用数据分布的规律来定查找点,其基本假设是数据分布均匀
- 二分法查找和快速排序 二分法是分治算法的一种特殊形式,利用分治策略求解时,所需时间取决于分解后子问题的个数、子问题的规模大小等因素,而二分法,由于其划分的简单和均匀的特点,是查找数据时经常采用的一种有
- [并发编程]并发编程第一篇:利用并发编程,实现查找大量数据中的素数
- 利用数组进行数据查找
- [数据结构]利用位图排序