Hash魔法:哈希表的原理与实现
2012-01-09 00:00
441 查看
一列键值对数据,存储在一个table中,如何通过数据的关键字快速查找相应值呢?不要告诉我一个个拿出来比较key啊,呵呵。
大家都知道,在所有的线性数据结构中,数组的定位速度最快,因为它可通过数组下标直接定位到相应的数组空间,就不需要一个个查找。而哈希表就是利用数组这个能够快速定位数据的结构解决以上的问题的。
具体如何做呢?大家是否有注意到前面说的话:“数组可以通过下标直接定位到相应的空间”,对就是这句,哈希表的做法其实很简单,就是把Key通过一个固定的算法函数,既所谓的哈希函数转换成一个整型数字,然后就将该数字对数组长度进行取余,取余结果就当作数组的下标,将value存储在以该数字为下标的数组空间里,而当使用哈希表进行查询的时候,就是再次使用哈希函数将key转换为对应的数组下标,并定位到该空间获取value,如此一来,就可以充分利用到数组的定位性能进行数据定位。
不知道说到这里,一些不了解的朋友是否大概了解了哈希表的原理,其实就是通过空间换取时间的做法。到这里,可能有的朋友就会问,哈希函数对key进行转换,取余的值一定是唯一的吗?这个当然不能保证,主要是由于hashcode会对数组长度进行取余,因此其结果由于数组长度的限制必然会出现重复,所以就会有“冲突”这一问题,至于解决冲突的办法其实有很多种,比如重复散列的方式,大概就是定位的空间已经存在value且key不同的话就重新进行哈希加一并求模数组元素个数,既 (h(k)+i) mod S , i=1,2,3…… ,直到找到空间为止。还有其他的方式大家如果有兴趣的话可以自己找找资料看看。
Hash表这种数据结构在java中是原生的一个集合对象,在实际中用途极广,主要有这么几个特点:
访问速度快
大小不受限制
按键进行索引,没有重复对象
用字符串(id:string)检索对象(object)
今天整理以前写的一些算法,翻出来一个hash表的实现,就贴出来,自己也温习温习。先看看头文件,也就是数据结构的定义,相当于java中的接口的概念:
然后是具体实现:
很简单,只有两个外部接口,
install(key, value),用来插入一个新的节点
lookup(key),根据一个键来进行搜索,并返回节点
代码很简单,主要用到的hash算法跟java中的String的hashcode()方法中用到的算法一样,使用:
这里的31并非随意,乃是一个经验值,选取它的目的在于减少冲突,当然,hash冲突这个问题是不能根本避免的。这里只是一个人们在测试中发现的可以相对减少hash冲突的一个数字,可能以后会发现更好的数值来。
Hash魔法:哈希表的原理与实现
Hash魔法:一致性 hash 算法
Hash魔法:分布式哈希算法
Hash魔法:哈希表的工作原理与常用操作
大家都知道,在所有的线性数据结构中,数组的定位速度最快,因为它可通过数组下标直接定位到相应的数组空间,就不需要一个个查找。而哈希表就是利用数组这个能够快速定位数据的结构解决以上的问题的。
具体如何做呢?大家是否有注意到前面说的话:“数组可以通过下标直接定位到相应的空间”,对就是这句,哈希表的做法其实很简单,就是把Key通过一个固定的算法函数,既所谓的哈希函数转换成一个整型数字,然后就将该数字对数组长度进行取余,取余结果就当作数组的下标,将value存储在以该数字为下标的数组空间里,而当使用哈希表进行查询的时候,就是再次使用哈希函数将key转换为对应的数组下标,并定位到该空间获取value,如此一来,就可以充分利用到数组的定位性能进行数据定位。
不知道说到这里,一些不了解的朋友是否大概了解了哈希表的原理,其实就是通过空间换取时间的做法。到这里,可能有的朋友就会问,哈希函数对key进行转换,取余的值一定是唯一的吗?这个当然不能保证,主要是由于hashcode会对数组长度进行取余,因此其结果由于数组长度的限制必然会出现重复,所以就会有“冲突”这一问题,至于解决冲突的办法其实有很多种,比如重复散列的方式,大概就是定位的空间已经存在value且key不同的话就重新进行哈希加一并求模数组元素个数,既 (h(k)+i) mod S , i=1,2,3…… ,直到找到空间为止。还有其他的方式大家如果有兴趣的话可以自己找找资料看看。
Hash表这种数据结构在java中是原生的一个集合对象,在实际中用途极广,主要有这么几个特点:
访问速度快
大小不受限制
按键进行索引,没有重复对象
用字符串(id:string)检索对象(object)
今天整理以前写的一些算法,翻出来一个hash表的实现,就贴出来,自己也温习温习。先看看头文件,也就是数据结构的定义,相当于java中的接口的概念:
#include <stdio.h> #define HASHSIZE 256 //定义hash表中的节点的类型 struct nlist{ struct nlist *next; char *name; char *defn; }; //定义接口中的函数,也就是对外来说,这个程序可以做什么 unsigned hash(char *s);//计算一个串的hash值 struct nlist *lookup(char *s);//查找一个value,根据key struct nlist *install(char *name,char *defn);//插入一个key=value的对象
然后是具体实现:
#include <string.h> #include "list.h" static struct nlist *hashtab[HASHSIZE]; unsigned hash(char *s) //取得hash值 { unsigned hashval; for(hashval = 0; *s != '\0';s++) hashval = *s + 31 * hashval; return hashval % HASHSIZE; } struct nlist *lookup(char *s) { struct nlist *np; for(np = hashtab[hash(s)]; np != NULL; np = np->next) if(strcmp(s,np->name) == 0) return np; return NULL; } struct nlist *install(char *name,char *defn) { struct nlist *np; unsigned hashval; if((np = lookup(name)) == NULL){ np = (struct nlist *)malloc(sizeof(struct nlist)); if(np == NULL || (np->name = strdup(name)) == NULL) return NULL; hashval = hash(name); np->next= hashtab[hashval]; hashtab[hashval] = np; }else free((void *)np->defn); if((np->defn = strdup(defn)) == NULL) return NULL; return np; }
很简单,只有两个外部接口,
install(key, value),用来插入一个新的节点
lookup(key),根据一个键来进行搜索,并返回节点
代码很简单,主要用到的hash算法跟java中的String的hashcode()方法中用到的算法一样,使用:
unsigned hash(char *s) { unsigned hashval; for(hashval = 0; *s != '\0';s++) hashval = *s + 31 * hashval; return hashval % HASHSIZE; }
这里的31并非随意,乃是一个经验值,选取它的目的在于减少冲突,当然,hash冲突这个问题是不能根本避免的。这里只是一个人们在测试中发现的可以相对减少hash冲突的一个数字,可能以后会发现更好的数值来。
延伸阅读
此文章所在专题列表如下:Hash魔法:哈希表的原理与实现
Hash魔法:一致性 hash 算法
Hash魔法:分布式哈希算法
Hash魔法:哈希表的工作原理与常用操作
相关文章推荐
- Bootstrap3.0 栅格系统背后的精妙魔法(Bootstrap3.0的栅格布局系统实现原理)
- Bootstrap3.0 栅格系统背后的精妙魔法(Bootstrap3.0的栅格布局系统实现原理)
- 双端链表实现hash(哈希)
- GeoHash核心原理解析及java代码实现(转)
- 【算法】(查找你附近的人) GeoHash核心原理解析及代码实现
- hash table implementation 哈希列表的代码实现
- redis:字典实现及rehash原理
- QQ魔法表情实现原理源代码下载
- Hash哈希(二)一致性Hash(C++实现)
- Bootstrap3.0 栅格系统背后的精妙魔法(Bootstrap3.0的栅格布局系统实现原理)
- LinkedHashSet的实现原理
- 相似图片搜索原理一(ahash—c++实现)
- 2014阿里实习生面试题——哈希的原理和java中hashmap如何实现的
- hash溢出表的实现原理
- 感知哈希原理及实现
- Hash魔法:哈希表的工作原理与常用操作
- 一致性hash 原理与实现 (Consistent hashing implemented)
- hash学习–哈希的原理和代价
- PHP内核探索 —— 哈希碰撞攻击是什么:攻击的原理及实现
- Redis源码剖析和注释(十一)--- 哈希键命令的实现(t_hash)