目录
1. 并查集原理
问题背景
名称与编号映射
数据结构设计
2. 并查集基本操作
(1) 初始化
(2) 查询根节点 (FindRoot)
(3) 合并集合 (Union)
(4) 集合操作总结
并查集优化
(1) 路径压缩
(2) 按秩合并
3. 并查集的应用
(1) 统计省份数量
(2) 判断等式方程是否成立
并查集是一种用于处理 元素分组和集合操作 的数据结构,主要功能是支持以下两种操作:
- 合并:将两个集合合并成一个集合。
- 查询:判断某个元素属于哪个集合。
并查集实际上是由多棵 互不相交的树 组成的森林,以下是详细的整理内容。
1. 并查集原理
问题背景
在一些问题中,需要将 n 个不同的元素划分为若干个互不相交的集合,并支持以下操作:
- 查询某个元素所属的集合。
- 合并两个集合。
例如,某公司校招的 10 名学生,分别来自不同地区,起初各自独立。根据他们的交流情况,可以将其分为几个小团体。通过并查集,可以很好地表示这些分组关系,并实现高效的集合操作。
- 首先先给这些学生进行编号:{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}; 给以下数组用来存储该小集体,数组中的数字代表:该小集体中具有成员的个数。(负号下文解释)
继续往下看,如何描述他们之间的关系呢?
西安学生小分队s1={0,6,7,8},成都学生小分队s2={1,4,9},武汉学生小分队s3={2,3,5}就相互认识了,10个人形成了三个小团体。假设右三个群主0,1,2担任队长,负责大家的出行。如何表示这三个集合呢?
很简单,把他们建立三颗树形结构。一个数据结构有多颗树不就是之前所说的森林了。如何建树呢?一个集体随便选取一个节点作根,剩下节点取做它的孩子。
那我们如何来表示这里的集合结构呢?
并查集是森林,森林是由多个树组成,这里用两层来表示这里的关系。
- 像堆类似,用数组下标表示关系
- 双亲表示法(存储双亲的下标)
仔细观察数组中内融化,可以得出以下结论:
- 数组的下标对应集合中元素的编号
- 数组中如果为负数,负号代表根,数字绝对值 代表该集合中元素个数
- 数组中如果为非负数,代表该元素双亲在数组中的下标
合并过程:
继续往下看,如何将已经有的集合合并呢? 刚才都是独立的集合直接合并,现在是已经有集合怎么合并呢?
比如说在公司工作一段时间后,西安小分队中8号同学与成都小分队4号同学奇迹般的走到了一起,两个小圈子的学生相互介绍,最后成为了一个小圈子:怎么合并呢?
- 不能直接合并,而是找到两个数的根,让根合并。
找根很简单,看自己位置保存的是不是负数,如果是负数自己就是根了,如果不是负数保存的就是双亲的下标了,就去看看双亲下标保存的是不是负数,不是负数还跳,直到找到双亲下标保存的值是负数,这个下标也就是根了。
把1下标的值加道0下标,然后1下标位置保存0下标。
通过以上例子可知,并查集一般可以解决一下问题:
- 查找元素属于哪个集合
沿着数组表示树形关系以上一直找到根(即:树中中元素为负数的位置) - 查看两个元素 是否属于同一个集合
沿着数组表示的树形关系往上一直找到树的根,如果根相同表明在同一个集合,否则不在 - 将两个集 合归并成一个集合
将两个集合中的元素合并
将一个集合名称改成另一个集合的名称 - 集合的个数
遍历数组,数组中元素 为负数的个数即为集合的个数。
下面就实现一下并查集~
名称与编号映射
- 可能会有这样的问题,内部给他们编号,万一外面给的是10个人给的是名字,我怎么知道谁是那个编号呢?怎么解决?
借助vector,map建立对应映射关系!
vector
:存储名称列表,通过下标快速找到名字。map
:建立名字到编号的映射关系。
代码示例:
template<class T>
class UnionFindSet
{
public:
UnionFindSet(const T* a, size_t sz)
{for (int i = 0; i < sz; ++i){_a.push_back(a[i]);//将数组中元素添加到vector中_IndexMap[a[i]] = i;//将人映射到hash中}
}private:
vector<T> _a; //编号找人
map<T, int> _IndexMap; //人找编号
};int main()
{string arr[] = { "张三","李四","王五","赵六" };UnionFindSet<string> ufs(arr, 4);return 0;
}
_a.push_back(a[i]);
:这一行代码将数组a
的第i
个元素添加到成员变量_a
向量的末尾。这里a
是构造函数参数中的一个指针,指向传入的数组,而a[i]
则是该数组中第i
个位置的元素。_IndexMap[a[i]] = i;
:此行代码则是在建立一个映射关系。它使用成员变量_IndexMap
,这是一个从类型T
映射到整数类型的关联容器(map)。这里它将数组a
的第i
个元素作为键,i
作为值插入到_IndexMap
中。因此,以后当我们知道某个人的名字时,可以通过_IndexMap
快速查找这个人在原始数组中的索引位置。
这样不管是给下标还是给名字都可以解决这里的问题。
数据结构设计
并查集通过一个数组表示关系:
- 数组下标 表示集合中的元素编号。
- 数组值 用于表示该元素的父节点或根节点的信息。
-
- 负数:表示集合的根,绝对值为该集合中元素的个数。
- 非负数:表示其父节点在数组中的下标。
双亲表示法:每个节点存储其父节点的位置,通过不断向上查找父节点,最终可以找到集合的根节点。
2. 并查集基本操作
(1) 初始化
- 初始时,每个元素自成一个集合,数组值均为 -1,表示每个集合的大小为 1。
UnionFindSet(int sz): _ufs(sz, -1) {} // 初始化,大小为 sz,每个位置存储 -1
(2) 查询根节点 (FindRoot)
- 找到某个元素所在集合的根节点。
- 如果当前节点的父节点为负数,则该节点是根节点。
- 路径压缩:为了提高查询效率,将查询路径上的所有节点直接连接到根节点。
int FindRoot(int x) {int root = x;// 向上查找根节点while (_ufs[root] >= 0) {root = _ufs[root];//利用上述讲到的特性原则,实现向上查找}// 路径压缩while (_ufs[x] >= 0) {int parent = _ufs[x];_ufs[x] = root;x = parent;}return root;
}
这里在补充说一点,并查集 路径压缩 的问题。比如集合是下面这个样子,要从9找到根需要跳很多层。影响找根的效率,能不能想到什么办法把路径压缩一下呢?
其实也很简单 ,反正都是在同一个集合,是不是直接可以考虑把下面的直接压到根的下面做根的孩子。这样就变成了一层。如果数据量很多层数很高压缩路径后这样很不错。
- 一般在查找根的时候去压缩。
- 查找谁就把它这一条路径压缩。
- 找到根之后判断一下,如果它的父亲就是根就不用压缩,如果不是说明中间有间隔层,然后就可以把这条路径压缩。
比如是这个4,首先先把4变成2的孩子,然后将4的父亲1也去变成2的孩子,这条路径都可以变成2的孩子。
(3) 合并集合 (Union)
- 并查集 除了路径压缩,还有一种提高效率的方式,比如两个集合 合并的时候
-
- 小集合向大集合合并,以减少树的深度。
- 实现步骤:
-
- 找到两个集合的根节点。
- 如果根节点相同,说明两个元素已在同一个集合中,无需合并。
- 否则,将小集合的根指向大集合的根,并更新集合大小。
bool Union(int x1, int x2) {int root1 = FindRoot(x1);int root2 = FindRoot(x2);if (root1 == root2) return false;// 控制小集合向大集合合并if (abs(_ufs[root1]) < abs(_ufs[root2])) {swap(root1, root2);}_ufs[root1] += _ufs[root2];_ufs[root2] = root1;return true;
}
(4) 集合操作总结
- 查找元素所属集合:找到其根节点。
- 判断两个元素是否属于同一集合:检查它们的根节点是否相同。
- 统计集合数量:统计数组中负数的个数,即为集合的数量。
并查集优化
(1) 路径压缩
- 在查询根节点时,将路径上的节点直接连接到根节点,减少树的高度。
- 优化后的查找复杂度接近 O(1) 。
(2) 按秩合并
- 优先将元素较少的集合合并到元素较多的集合,进一步减少树的高度。
- 实现方法:比较根节点的绝对值,选择小集合向大集合合并。
完整代码:
#pragma once#include<iostream>
#include<vector>
#include<map>using namespace std;//template<class T>
//class UnionFindSet
//{
//public:
// UnionFindSet(const T* a, size_t sz)
// {
// for (int i = 0; i < sz; ++i)
// {
// _a.push_back(a[i]);
// _IndexMap[a[i]] = i;
// }
// }
//
//
//private:
// vector<T> _a; //编号找人
// map<T, int> _IndexMap; //人找编号
//};class UnionFindSet
{
public:UnionFindSet(int sz):_ufs(sz,-1)// 初始时,将数组中元素全部设置为1{}bool Union(int x1, int x2){int root1 = FindRoot(x1);int root2 = FindRoot(x2);// x1已经与x2在同一个集合if (root1 == root2)return false;//控制数据量小的往大的集合合并if (abs(_ufs[root1]) < abs(_ufs[root2])){swap(root1, root2);}// 将两个集合中元素合并_ufs[root1] += _ufs[root2];// 将其中一个集合名称改变成另外一个_ufs[root2] = root1;return true;}// 给一个元素的编号,找到该元素所在集合的名称int FindRoot(int x){int root = x;while (_ufs[root] >= 0)// 如果数组中存储的是负数,找到,否则一直继续{root = _ufs[root];}//路径压缩while (_ufs[x] >= 0){int parent = _ufs[x];_ufs[x] = root;x = parent;}return root;}bool IsSet(int x1, int x2){return FindRoot(x1) == FindRoot(x2);}// 数组中负数的个数,即为集合的个数size_t SetSize(){size_t count = 0;for (auto e : _ufs){if (e < 0) ++count;}return count;}private:vector<int> _ufs;
};
3. 并查集的应用
(1) 统计省份数量
题目链接:[LCR 116. 省份数量]
- 思路:
-
- 使用并查集,将直接连接的城市合并到同一个集合。
- 遍历矩阵,统计并查集中集合的数量。
代码实现:
int findCircleNum(vector<vector<int>>& isConnected) {int n = isConnected.size();vector<int> ufs(n, -1);auto Findroot = [&](int x) {while (ufs[x] >= 0) {x = ufs[x];}return x;};for (int i = 0; i < n; ++i) {for (int j = i + 1; j < n; ++j) {if (isConnected[i][j] == 1) {int root1 = Findroot(i);int root2 = Findroot(j);if (root1 != root2) {ufs[root1] += ufs[root2];ufs[root2] = root1;}}}}return count_if(ufs.begin(), ufs.end(), [](int x) { return x < 0; });
}
(2) 判断等式方程是否成立
题目链接:[990. 等式方程的可满足性]
- 思路:
-
- 将所有“相等”的变量合并到同一个集合。
- 遍历“不等”关系,若两个变量属于同一个集合,则矛盾。
代码实现:
bool equationsPossible(vector<string>& equations) {vector<int> ufs(26, -1);auto Findroot = [&](int x) {while (ufs[x] >= 0) {x = ufs[x];}return x;};// 合并“相等”关系for (auto& eq : equations) {if (eq[1] == '=') {int root1 = Findroot(eq[0] - 'a');int root2 = Findroot(eq[3] - 'a');if (root1 != root2) {ufs[root1] += ufs[root2];ufs[root2] = root1;}}}// 检查“不等”关系for (auto& eq : equations) {if (eq[1] == '!') {int root1 = Findroot(eq[0] - 'a');int root2 = Findroot(eq[3] - 'a');if (root1 == root2) return false;}}return true;
}
并查集 使用场景:两极性的集合划分
连接或不连接,相等或不相等 的判断
并查集是一种高效的数据结构,支持快速的 合并 和 查询 操作,并在路径压缩和按秩合并优化下性能接近常数时间。