目录
- unordered系列关联式容器
- unordered_map
- 哈希
- 哈希概念
- 哈希函数
- 直接定址法:
- 除留余数法:
- 哈希冲突
- 解决哈希冲突
- 闭散列:
- 开散列:
unordered系列关联式容器
之前讲解在C++98中STL提供了底层为红黑树结构的一系列关联式容器,在查询时效率可达到 l o g 2 N log_2N log2N,即最差情况下需要比较红黑树的高度次,当树中的节点非常多时,查询效率也不理想。最好的查询是,进行很少的比较次数就能够将元素找到,因此在C++11中,STL又提供了4个unordered系列的关联式容器,这四个容器与红黑树结构的关联式容器使用方式基本类似,只是其底层结构不同使用哈希结构。unordered_map、unordered_set、unordered_multimap和unordered_multiset
unordered_map
- unordered_map是存储<key, value>键值对的关联式容器,其允许通过keys快速的索引到与其对应的value。
- 在unordered_map中,键值通常用于惟一地标识元素,而映射值是一个对象,其内容与此键关联。键和映射值的类型可能不同。
- 在内部,unordered_map没有对<kye, value>按照任何特定的顺序排序, 为了能在常数范围内找到key所对应的value,unordered_map将相同哈希值的键值对放在相同的桶中。
- unordered_map容器通过key访问单个元素要比map快,但它通常在遍历元素子集的范围迭代方面效率较低。
- unordered_maps实现了直接访问操作符(operator[]),它允许使用key作为参数直接访问value。
- 它的迭代器只有前向迭代器。
第三方
- 使用方式和map一样
但操作性能相比map更高:O(1)的复杂度
//使用方式和map一样unordered_map<int, int> m;//操作性能相比map更高:O(1)的复杂度m.insert(make_pair(1, 1));m[2] = 2;
- 不同在于map遍历出来的值是有序的而unordered_map遍历出的值是无序的
unordered_map只有正向迭代器,没有反向迭代器。
for (int i = 3; i < 100; ++i){m[i] = i;}//相对于map/set,unordered_map/set只有正向迭代器//迭代器遍历,不是有序的unordered_map<int, int>::iterator it = m.begin();while (it != m.end()){cout << it->first << " ";}cout << endl;
- equal_range:左闭右开的区间,查询key
由于是map,不允许Key重复,因此只输出了一个值3;如果是multimap可以有多个key值则会输出更多。
//equal_range:auto range = m.equal_range(3);it = range.first;while (it != range.second){cout << it->first << " ";++it;}cout << endl;
哈希
unordered系列的关联式容器之所以效率比较高,是因为其底层使用了哈希结构。
哈希概念
顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O( l o g 2 N log_2 N log2N),搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。
如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。
当向该结构中:
- 插入元素
根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放
- 搜索元素
对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功
该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)
哈希函数
直接定址法:
kx+b :适用于小范围数据的位置计算。如果数据范围过大会造成空间浪费。
除留余数法:
x%空间大小:通用
例如:数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
哈希冲突
对于两个数据元素的关键字 k i k_i ki和 k j k_j kj(i != j),有 k i k_i ki != k j k_j kj,但有:Hash( k i k_i ki) ==Hash( k j k_j kj),即:不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。如上图4和14的哈希地址相同。
把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。
解决哈希冲突
闭散列:
- 线性探测
从计算的哈希位置开始,找第一个空闲的位置,存放数据。
//记录位置状态(哈希表内的数据删除相当于伪删除,因为查询数据如果查找到空余位就会停止查找,比如5,15,25,把15删掉后,查询25时走到15位置发现空余,会停止查找,因此在删除15时不能直接删除)
enum STATE
{EXIST, //存在DELETE, //删除EMPTY //空
};template <class K, class V>
struct hashNode
{pair<k, V> _kv;STATE _state = EMPTY;
};//顺序表实现hash
template <class K, class V>
class HashTable
{
public:typedef HashNode<K, V> Node;HashTable(size_t n = 10):_hTable(n), _size(0){}bool insert(const pair<K, V>& kv){//0.检查容量checkCapacity();//1.计算哈希位置int idx = kv.first % _hTable.size();//2.判断key是否存在while (_hTable[idx]._state != EMPTY){//如果当前位置数据有效,且key相同,插入失败if (_hTable[idx]._state == EXIST && kv.first == _hTable[idx]._kv.first){return false;}//继续搜索++idx;if (idx == _hTable.size())idx = 0;}//插入_hTable[idx] = kv;_hTable[idx]._state = EXIST;++_size;return true;}void checkCapacity(){//负载因子:<1 有效元素个数/容量大小//负载因子越小可存储的元素就越多,可也浪费的越多,因此权衡取:0.7if (_hTable.size() == 0 || _size * 10 / _hTable.size() >= 7){//开新表int newC = _hTable.size() == 0 ? 10 : 2 * _hTable.size();HashTable<K, V> newHt(newC);for (int i = 0; i < _hTable.size(); ++i){//插入状态为exist的数据if (_hTable[i]._state == EXIST){newHt.insert(_hTable[i]._kv);}}Swap(newHt);}}void Swap(HashTable<K, V>& Ht){swap(_hTable, Ht._hTable);swap(_size, Ht._size);}Node* find(const K& key){//计算位置int idx = key % _hTable.size();while (_hTable[idx]._state != EMPTY){if (_hTable[idx]._state == EXIST && key == _hTable[idx]._kv.first){return &_hTable[idx];}++idx;if (idx == _hTable.size()){idx = 0;}}return nullptr;}bool erase(const K& key){Node* node = find(key);if (node){//假删除--_size;node->_state = DELETE;return true;}return false;}private:vector<Node> _hTable;size_t _size; //有效元素的个数
};void test()
{HashTable<int, int> ht;ht.insert(make_pair(1, 1));ht.insert(make_pair(14, 14));ht.insert(make_pair(16, 16));ht.insert(make_pair(11, 11));cout << ht.erase(11) << endl;cout << ht.erase(100) << endl;
}
- 二次探测
开散列:
持续更新~~