利用bitmap进行海量数据排序
2013-03-29 17:16
323 查看
每一个排序算法都有优劣性,主要在于数据的构成。比如,有些排序算法对某类数据的排序效率很高,对某类数据的排序效率很低,而有些算法对数据构成却无关紧要。
bitmap对不重复且都为正数的海量数据进行排序真是不二选择,效率大大的高,根据我的代码测算,1亿条数据大概也就30秒左右,占用内存12M左右。而在用快排测试时,用时比这长很多,等了好几分钟就停止执行了,也不知到底会化多长时间。不过,bitmap的确比快排快很多很多。
bitmap的原理如下:
0100 0000 0000 0000 0000 0000 0000 0000 //1
0110 0000 0000 0000 0000 0000 0000 0000 //1 2
0110 0010 0000 0000 0000 0000 0000 0000 //1 2 6
0110 1010 0000 0000 0000 0000 0000 0000 //1 2 4 6
0111 1010 0000 0000 0000 0000 0000 0000 //1 2 3 4 6
0111 1110 0000 0000 0000 0000 0000 0000 //1 2 3 4 5 6
0111 1110 0100 0000 0000 0000 0000 0000 //1 2 3 4 5 6 9
0111 1110 1100 0000 0000 0000 0000 0000 //1 2 3 4 5 6 8 9
1111 1110 1100 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 8 9
1111 1110 1110 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 8 9 10
1111 1111 1110 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 7 8 9 10
不知你看出规律了么?
这种思想便是位向量的思想,标示一个数据仅用二进制的一位。而我们熟知的C 、C++ 中没有对应一个二进制位的数据类型,因此,要实现位向量,需要借助于位操作。这里,我们采用整型数组模拟定义1000万个位的数组。问题的纠结处即是如何用整型数组模拟定义1000万个位的数组。其实上面的简化例子已将问题描述的相当清楚,如A[0](32位中的每位)可表示0-31的整数,A[1]表示32-63……
好了,原理就是这样,上代码:
关于测试数据的生成,读者可以参考我上一篇博文:如何生成100万个无序不重复随机值,谢谢大家!本人菜鸟,不足之处,还请多多指教。
bitmap对不重复且都为正数的海量数据进行排序真是不二选择,效率大大的高,根据我的代码测算,1亿条数据大概也就30秒左右,占用内存12M左右。而在用快排测试时,用时比这长很多,等了好几分钟就停止执行了,也不知到底会化多长时间。不过,bitmap的确比快排快很多很多。
bitmap的原理如下:
0100 0000 0000 0000 0000 0000 0000 0000 //1
0110 0000 0000 0000 0000 0000 0000 0000 //1 2
0110 0010 0000 0000 0000 0000 0000 0000 //1 2 6
0110 1010 0000 0000 0000 0000 0000 0000 //1 2 4 6
0111 1010 0000 0000 0000 0000 0000 0000 //1 2 3 4 6
0111 1110 0000 0000 0000 0000 0000 0000 //1 2 3 4 5 6
0111 1110 0100 0000 0000 0000 0000 0000 //1 2 3 4 5 6 9
0111 1110 1100 0000 0000 0000 0000 0000 //1 2 3 4 5 6 8 9
1111 1110 1100 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 8 9
1111 1110 1110 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 8 9 10
1111 1111 1110 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 7 8 9 10
不知你看出规律了么?
这种思想便是位向量的思想,标示一个数据仅用二进制的一位。而我们熟知的C 、C++ 中没有对应一个二进制位的数据类型,因此,要实现位向量,需要借助于位操作。这里,我们采用整型数组模拟定义1000万个位的数组。问题的纠结处即是如何用整型数组模拟定义1000万个位的数组。其实上面的简化例子已将问题描述的相当清楚,如A[0](32位中的每位)可表示0-31的整数,A[1]表示32-63……
好了,原理就是这样,上代码:
#include <stdio.h> #include <time.h> #define MAXNUM 11000000 #define NUMCOUNT MAXNUM void setbit(unsigned int *num,unsigned int bit); unsigned getbit(unsigned int num,unsigned int bit); int main(void) { FILE *srcfp = NULL; unsigned i = 0; unsigned j = 0; unsigned num = 0,tnum = 0; unsigned int *arr = NULL; unsigned iflag = 0,jflag = 0; clock_t start,finish; if (NULL == (srcfp = fopen("d:\\b.txt","rb+"))) { printf("ERROR!\n"); getch(); exit(1); } arr = (unsigned int *)malloc(sizeof(unsigned)*(MAXNUM/32 + 1)); memset(arr,0,sizeof(unsigned)*(MAXNUM/32 + 1)); //读取每一个值 start = clock(); printf("开始执行……\n"); fseek(srcfp,0,SEEK_SET); for (i = 0;i < NUMCOUNT;i ++) { fread(&num,sizeof(unsigned),1,srcfp); iflag = num/32; jflag = num%32; setbit(arr + iflag,31 - jflag); } fseek(srcfp,0,SEEK_SET); for (i = 0;i < MAXNUM/32 + 1;i ++) { tnum = *(arr + i); for (j = 0;j < 32;j ++) { if (getbit(tnum,31 - j)) { num = i*32 + j; fwrite(&num,sizeof(unsigned),1,srcfp); } } } fclose(srcfp); finish = clock(); printf("\n排序完成:%dms\n",finish - start); free(arr); getch(); return 0; } void setbit(unsigned int *num,unsigned int bit) { *num |= 0x1<<bit; //0 - 31 } unsigned getbit(unsigned int num,unsigned int bit) { return (num>>bit)&0x1;//0 - 31 }
关于测试数据的生成,读者可以参考我上一篇博文:如何生成100万个无序不重复随机值,谢谢大家!本人菜鸟,不足之处,还请多多指教。
相关文章推荐
- 利用BitMap进行大数据排序去重
- 利用Linux命令行进行文本按行去重并按重复次数排序
- (AS3)利用BitmapData.draw对位图进行翻转缩放操作
- perl利用字符串中的数字进行排序
- 利用CS_BOM_EXPL_MAT_V2 展单BOM,根据排序字符串进行组件分配
- 如何利用C++ vector的sort算法对元素是自定义类型进行排序
- Android 利用cursor来进行排序
- LinkedList中将对象按照某一属性排序,利用 collection.sort(); 来进行调用!
- 利用数组名作为函数参数传递排序和用指针进行排序
- 利用集合进行数组的排序
- 通过BitMap进行排序
- Java之——利用Comparator接口对多个排序条件进行处理
- 【LeetCode】two num 利用comparable接口 对对象进行排序
- 利用ArrayList对Hashtable其进行排序
- Mapreduce算法三、利用cleanup对reduce结果进行排序
- bitmap位图方案解决海量数据文件排序的问题
- 利用随机函数获取20个1-100的整数并打印,然后进行排序后重新打印。
- 在SQL2005中利用DENSE_RANK()排名函数对现有数据进行排序改造
- 如何利用php array_multisort函数 对数据库结果进行复杂排序
- 利用标准库中sort函数进行排序