您的位置:首页 > 其它

Bitmap在海量无重复整数排序时的应用

2017-11-23 22:44 197 查看

前言

bitmap

bitmap就是用一个bit位来标记某个元素对应的value的存在,而key即是这个元素。由于采用bit为单位来存储数据,因此在可以大大的节省空间开销

这里的海量数据以整数为例,整数为4字节,也就是32bit,假设数据量N(N为最大值)=100000000,由于bitmap是用一个bit来标识元素的存在,那么我们只需⌈N/8⌉个字节就可以把数据表示出来也就是12500000字节,约为13MB,比原先的N*8的存储方式少到不知道哪里去了。

对于bitmap中存储的数据进行排序:其实在存储的过程中已经完成了排序

正文

(为了方便,下文将存储bitmap的整数成为bitmap整数)

海量数据的存储

假设该数字为num,则它所对应的bit索引为:第 ⌊num/32⌋ 个bitmap整数中的第 num%32 位

排序

通过每个数字的映射,我们可以得到所需要的bitmap整数个数,我们只需对每个bitmap整数的每一位遍历,当某位为1时,就证明该位所对应的整数存在与原始数据中(其实在存储的过程中,我们通过不断插入数字标识,已经完成了排序),当我们从最低位向最高位遍历时,通过整数与bit索引的逆过程就可以的到原整数,将其一个个输出,我们就能得到原始数据的从小到大排序后的结果,具体实现可以看伪代码

//排序及还原伪代码
//max为bitmap整数个数
for(int i=0;i<max;i++){
for(int j=0;j<32;j++){
if(1&bitmap[i]>>j){
print i*32+j;
}
}
}


注意

① 限于每位只有0,1两个状态,我们无法对有重复数字的海量整数如此排序

② 此种方法适用于数字之间差值比较小的情况(无限趋近于连续数据),若数字之间差值比较大(举个极端的例子:每个bitmap整数中只有一个位为1,其余全为0的情况)时,博主暂时没有想到可行解法……
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  位图 海量数据
相关文章推荐