您的位置:首页 > 其它

解析哈希表中数组的容量为什么是质数

2015-01-23 14:37 267 查看
HASH函数需要把原始数据均匀地分布到HASH数组里,比如大部分是偶数,这时候如果HASH数组容量是偶数,容易使原始数据HASH后不会均匀分布:

2 4 6 8 10 12这6个数,如果对 6 取余 得到 2 4 0 2 4 0 只会得到3种HASH值,冲突会很多。如果对 7 取余 得到 2 4 6 1 3 5 得到6种HASH值,没有冲突。

同样地,如果数据都是3的倍数,而HASH数组容量是3的倍数,HASH后也容易有冲突,用一个质数则会减少冲突的概率,更分散。

以下是求质数的代码:

private int getPrime(int min) {
for (int j = min;; j++) {
if (isPrime(j)) {
return j;
}
}
}

private boolean isPrime(int num) {
for (int j = 2; j * j <= num; j++) {
if (num % j == 0) {
return false;
}
}
return true;
}


再哈希法要求表的容量是一个质数。为什么会有这个限制,假设表的容量不是质数,表长是15(坐标 0 - 14),有一个特别关键字映射到0,步长为5,探测序列为0、5、10、0、5……,一直循环下去,算法只会尝试这三个单元,不可能找到其它空白单元,算法崩溃。

如果数组容量是13,即一个质数,那么探测序列会访问到所有单元。即0、5、10、2、7、12、4、9、1、6、11、3,一直下去,只要表中有一个空位,就可以探测到它。用质数作为数组容量使得任何数想整除它是不可能的,因此探测序列最终会检查到所有单元。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: