您的位置：首页 > 理论基础 > 数据结构算法

例说数据结构&STL（十）——hash_set/unordered_set

2017-07-30 18:14 435 查看

1 白话hash_set/unordered_set

　　这一章节，我们来了解两个新的结构体hash_set和unorderd_set。我将这两者放在一个博文中介绍是因为它们都属于基于哈希表(hash table)构建的数据结构，并且是关键字与键值相等的关联容器。后面我们还会介绍到hash_map与unordered_map两种数据结构，这就好比是set与map的区别了，后面我们再说。

　　说到这那到底hash_set与unordered_set哪个更好呢？实际上unordered_set在C++11的时候被引入标准库了，而hash_set并没有，所以建议还是使用unordered_set比较好，这就好比一个是官方认证的，一个是民间流传的。在编译器中，Visual Studio（当然需要支持C++11的版本）库中两个数据结构都有定义，而在gcc/g++中并不支持hash_set。总之，如果想使用这种基于哈希表的关联容器，那么就使用unordered_set就好了。下面我们也将会围绕无序集合容器(unordered_set)讲解，hash_set有对应的公共接口不再细说。

　　此外我们来看看unordered_set/hash_set与set有什么区别。首先从内部构建来看，虽然都属于关键字与键值相等的关联容器，但是内部结构大大的不同。set的内部结构是基于红黑树来实现的，所以保证了一个稳定的动态操作时间，查询、插入、删除都是O（logN），最坏和平均都是。而unordered_map如前所述，是哈希表。顺便提一下，哈希表的查询时间虽然是O（1），但是并不是unordered_map查询时间一定比map短，因为实际情况中还要考虑到数据量，而且unordered_map的hash函数的构造速度也没那么快，所以不能一概而论，应该具体情况具体分析。

　　第二点从存储方式来看，unordered_set也是一个存储唯一(unique，即无重复）的关联容器（Associative container），但是容器中的元素无特别的秩序关系，该容器允许基于值的快速元素检索，同时也支持正向迭代。在一个unordered_set内部，元素不会按任何顺序排序，而是通过元素值的hash值将元素分组放置到各个桶中，这样就能通过元素值快速访问各个对应的元素（均摊耗时为O（1））。

2 小谈哈希表

　　hash_set/unordered_set是哈希表构建的，所以我们在介绍其方法接口前还是有进一步了解一下哈希表的原理。

　　哈希表是根据关键码值而进行直接访问的数据结构，通过相应的哈希函数(也称散列函数)处理关键字得到相应的关键码值，关键码值对应着一个特定位置，用该位置来存取相应的信息，这样就能以较快的速度获取关键字的信息。

　　比如：现有公司员工的个人信息（包括年龄），需要查询某个年龄的员工个数。由于人的年龄范围大约在[0，200]，所以可以开一个200大小的数组，然后通过哈希函数得到key对应的key-value，这样就能完成统计某个年龄的员工个数。而在这个例子中，也存在这样一个问题，两个员工的年龄相同，但其他信息（如：名字、身份证）不同，通过前面说的哈希函数，会发现其都位于数组的相同位置，这里，就涉及到“冲突”。准确来说，冲突是不可避免的，而解决冲突的方法常见的有：开发地址法、再散列法、链地址法(也称拉链法)。而unordered_set内部解决冲突采用的是链地址法，当用冲突发生时把具有同一关键码的数据组成一个链表。下图展示了链地址法的使用:

3 unordered_set实战

　3.1 头文件

#include<unordered_set> // hash_set则是#iunclude<hash_set>

using namespace std;

　3.2 其他操作

　　由于其常用方法接口和set几乎一样，我不在过多描述，下面只贴出程序样例，一些说明请阅读博文例说数据结构&STL（八）——set.

unordered_set<int> set_fir; // 默认构造对象

unordered_set<int> set_sed = { 2, 3, 10, 5, 9 }; //初始化构造

set_sed.insert(7);          // 插入7，放置在set中位置跟hash构建有关，并不是在尾部

unordered_set<int>::iterator iter1 = set_sed.lower_bound(2); //返回set中>=2的索引(迭代器)，切记非小于2

unordered_set<int>::iterator iter2 = set_sed.upper_bound(2); //返回set中>2的索引

set_sed.erase(2); //删除set中元素2

set_sed.erase(set_sed.begin(), set_sed.end()); //清空整个set

if (set_sed.find(5) != set_sed.end()) // 查找键值为5的元素
cout << "exsit" << endl;

// 正向访问
unordered_set<int>::iterator iter4;
for (iter4 = set_sed.begin(); iter4 != set_sed.end(); iter4++)
cout << *iter4 << endl;

unordered_set<int>::reverse_iterator iter5; //对应反向迭代器对象
// 反向访问
for (iter5 = set_sed.rbegin(); iter5 != set_sed.rend(); iter5++)
cout << *iter5 << endl;

set_sed.count(12);     // 返回set中元素的个数，由于set的特殊性，所以结果只有0或者1

set_sed.swap(set_fir); // 交换所有数据，需要确保set中元素类型相同

set_sed.clear();       // 清空集合set_sed

set_sed.size();        // 统计set_sed中元素个数

set_sed.empty();       // 判断set中是否为空，空则返回1

4 小结

　　上面介绍了无序集合容器数据结构特点以及公用的接口。由于集合是基于哈希表构建的数据结构，所以其查询的时间复杂度只有O（1），n为集合中元素的个数。

　　以上是个人学习记录，由于能力和时间有限，如果有错误望读者纠正，谢谢！

　　转载请注明出处：http://blog.csdn.net/FX677588/article/details/76400389

　　参考文献:

　　http://www.cnblogs.com/davidgu/p/4998083.html

　　http://blog.csdn.net/vevenlcf/article/details/51743058

　　http://blog.csdn.net/sdnu111111111/article/details/38658929

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航