您的位置:首页 > 编程语言

Bloom Filter概念,原理,代码。。

2012-03-29 17:20 375 查看
1. BloomFilter概念与原理:http://blog.csdn.net/jiaomeng/article/details/1495500 (从数学上分析了错误率,最优hash函数,位数组大小的选择)

BloomFilter介绍:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

2. BloomFilter的实现:

这里BloomFilter主要提供两个方法,一个是加入字符串,一个是判断是否已包含相应字符串。

java实现代码

BitSet介绍:http://songyishan.iteye.com/blog/1064863BitSet

实际是由“二进制位”构成的一个Vector。如果希望高效率地保存大量“开-关”信息,就应使用BitSet。它只有从尺寸的角度看才有意义;如果希望的高效率的访问,那么它的速度会比使用一些固有类型的数组慢一些。此外,BitSet的最小长度是一个长整数(Long)的长度:64位。

import java.util.BitSet;

public class BloomFilter
{
/*  BitSet初始分配2^24个bit  */
private static final int DEFAULT_SIZE = 1 << 25;
/* 不同哈希函数的种子,一般应取质数 */
private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 };
private BitSet bits = new BitSet(DEFAULT_SIZE);
/* 哈希函数对象 */
private SimpleHash[] func = new SimpleHash[seeds.length];

public BloomFilter()
{
for (int i = 0; i < seeds.length; i++)
{
func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
}
}

// 将字符串标记到bits中
public void add(String value)
{
for (SimpleHash f : func)
{
bits.set(f.hash(value), true);
}
}

//判断字符串是否已经被bits标记
public boolean contains(String value)
{
if (value == null)
{
return false;
}
boolean ret = true;
for (SimpleHash f : func)
{
ret = ret && bits.get(f.hash(value));
}
return ret;
}

/* 哈希函数类 */
public static class SimpleHash
{
private int cap;
private int seed;

public SimpleHash(int cap, int seed)
{
this.cap = cap;
this.seed = seed;
}

//hash函数,采用简单的加权和hash
public int hash(String value)
{
int result = 0;
int len = value.length();
for (int i = 0; i < len; i++)
{
result = seed * result + value.charAt(i);
}
return (cap - 1) & result;
}
}
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: