并查集
写该篇博客的初衷是由于在做天池大数据比赛中用到了并查集的相关概念,因此,想要巩固下这个知识点。
在计算机科学中,并查集是一种树型的数据结构,用于处理一些不相交集合(Disjoint Sets)的合并及查询问题。有一个联合-查找算法(union-find algorithm)定义了两个用于此数据结构的操作:
- Find:确定元素属于哪一个子集。它可以被用来确定两个元素是否属于同一子集。
- Union:将两个子集合并成同一个集合。
由于支持这两种操作,一个不相交集也常被称为联合-查找数据结构(union-find data structure)或合并-查找集合(merge-find set)。
并查集用途
- 维护无向图的连通性,支持判断两个点是否在同一个连通块内,和判断增加一条边是否会产生环
- 用在求解最小生成树的Kruskal算法里
为了更加准确的定义这些方法,需要首先定义集合。一种常用的策略是为每个集合选定一个固定的元素,称为代表,以表示整个集合。接着,Find(x)返回x所属集合的代表,而Union使用两个集合的代表作为参数。
代表元
用集合中的某个元素来代表这个集合,该元素称为集合的代表元。
- 一个集合内的所有元素组织成以代表元为根的树形结构
- 对于每一个元素,
parent[x]
指向在树形结构上的父亲节点。如果x是根节点,则令parent[x] = x
- 对于查找操作,假设需要确定x所在的集合,也就是确定集合的代表元,可以沿着
parent[x]
不断在树形结构中向上移动,直到到达根节点。
判断两个元素是否属于同一个集合,只需要看他们的代表元是否相同即可
并查集森林
并查集森林是一种将每一个集合以树表示的数据结构,其中每一个节点保存着它的父节点的引用,在并查集森林中,每个集合的代表即是集合的根节点。“查找”根据其父节点的引用向根行进直到树根。“联合”将两棵树合并到一起,这通过将一棵树的根连接到另一棵树的根。实现该操作的代码如下:
|
|
这是并查集森林的最基础的表示方法,这个方法并不好,因为创建的树可能会严重不平衡;可以用两种方法优化:
- 按秩合并
即总是将更小的树连接至更大的树上。因为影响运行时间的是树的深度,更小的树添加到更深的树的根上将不会增加秩除非他们的秩相同。在这个算法中,术语“秩”替代了“深度”,因为同时应用了路径压缩时秩将不会与高度相同,单元素的树的秩定义为0,当两棵秩同为r
的树联合时,他们的秩为r+1
。只使用这个方法将使最坏的运行时间提高至每个MakeSet、Union或Find操作O(logn)
。 - 路径压缩
是一种在执行“查找”时扁平化树结构的方法。关键在于在路径上的每个节点都可以直接连接到根上;他们都有同样的表示方法。为了达到这样的效果,Find
递归地经过树,改变每一个节点的引用到根节点,得到的树将更加扁平,为以后直接或者间接引用节点的操作加速。
这两种方法的优势互补,同时使用二者的程序每个操作的平均时间仅为O(a(n))
。因为a(n)在n十分巨大时还是小于5,因此,平均运行时间是一个极小的常数。
并查集应用
1. LintCode 178 判断图是否为树(Java实现)
给出 n 个节点,标号分别从 0 到 n - 1 并且给出一个 无向 边的列表 (给出每条边的两个顶点), 写一个函数去判断这张`无向`图是否是一棵树
注意事项
你可以假设我们不会给出重复的边在边的列表当中. 无向边 [0, 1] 和 [1, 0] 是同一条边, 因此他们不会同时出现在我们给你的边的列表当中。样例
给出n = 5 并且 edges = [[0, 1], [0, 2], [0, 3], [1, 4]], 返回true
给出n = 5 并且 edges = [[0, 1], [1, 2], [2, 3], [1, 3], [1, 4]], 返回false
.
代码如下:
2. 天池比赛中用于图之间任意两个节点是否有连接(Python实现)
|
|