Update avl_tree.md

This commit is contained in:
Yudong Jin 2022-12-04 03:27:13 +08:00 committed by GitHub
parent d7516da1a7
commit 312843cde4
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

View File

@ -1,132 +1,145 @@
# 平衡二叉搜索树
在[二叉搜索树](binary_tree.md)中提到,如果二叉搜索树在进行多次插入、删除操作后,二叉搜索树可能会退化为链表。此时所有操作的
时间复杂度都会由$O(\log n)$降至$O(n)$。
例如将该二叉搜索树树中值为4的点删除后二叉搜索树就会退化为链表。
# AVL 树
<div align="center" markdown>
![binary search tree1](avl_tree.assets/binary_search_tree1.png)
![binary search tree2](avl_tree.assets/binary_search_tree2.png)
</div>
## AVL 树的起源
为了解决这一问题G. M. Adelson-Velsky和E. M. Landis在其1962年发表的论文《An algorithm for the organization of info
rmation》中提出了「**AVL树**」也就是「**平衡二叉搜索树**」这一数据结构。
在「二叉搜索树」章节中提到,如进行多次插入与删除操作后,二叉搜索树可能会退化为链表。此时所有操作的时间复杂度都会由 $O(\log n)$ 劣化至 $O(n)$ 。例如,删除结点 4 后,该二叉搜索树就会退化为链表。
## 平衡二叉搜索树的性质
顾名思义,平衡二叉搜索树也是一棵二叉搜索树,所以它满足二叉搜索树的所有性质。**另外,平衡二叉搜索树规定,
树中任意结点左右子树的高度差的绝对值不能超过1。**
=== "删除前"
![binary search tree1](avl_tree.assets/binary_search_tree1.png)
=== "删除后"
![binary search tree2](avl_tree.assets/binary_search_tree2.png)
平衡二叉搜索树的平衡因子有很多种定义方式,本文中规定:
1. **平衡二叉搜索树的平衡因子(balance_factor)定义为左子树的高度减右子树的高度。**
2. **空树的高度定义为0叶子结点的高度定义为1。**
为了解决这一问题G. M. Adelson-Velsky 和 E. M. Landis 在其 1962 年发表的论文 "An algorithm for the organization of info
rmation" 中提出了「平衡二叉搜索树」也以两位作者命名常被称为「AVL 树」。
根据平衡二叉搜索树的性质可知,一棵合法的平衡二叉搜索树,其任意结点的平衡因子$f$满足$-1 \le f \le 1$。
## AVL 树的性质
平衡二叉搜索树对其平衡因子的限制保证了平衡二叉搜索树不会发生类似于二叉搜索树的退化行为,也就保证了其各种操作的时间复杂度均能保持在
$O(\log n)$这一级别。
「AVL 树」既是「二叉搜索树」又是「平衡二叉树」,同时满足这两种二叉树的所有性质。「平衡二叉树」规定树中任意结点左右子树的高度差的绝对值不能超过 1 。本文定义:
- 「平衡因子 Balance Factor」为 **左子树的高度减右子树的高度**
- 空树的高度定义为 0 ,叶结点的高度定义为 1 。
!!! tip
设「平衡因子」为 $f$ ,则一棵 AVL 树的任意结点的平衡因子满足 $-1 \le f \le 1$
## AVL 树的优势
提出 AVL 树的两位大佬的厉害之处在于,他们设计了一系列操作,使得 AVL 树在不断添加与删除结点后,仍然不会发生退化,进而使得各种操作的时间复杂度均能保持在 $O(\log n)$ 级别。
## AVL 树的操作
## 平衡二叉搜索树的操作
### 查找结点
平衡二叉搜索树查找结点的操作与二叉搜索树一致,在此不再赘述。
「 AVL 树」的结点查找操作与「二叉搜索树」一致,在此不再赘述。
### 插入结点
由于平衡二叉树需要保证其任意结点的平衡因子满足限制,所以在插入结点后可能会造成平衡二叉搜索树的失衡。例如,在插入结点前平衡二叉树如下
(括号内表示当前结点的平衡因子)
<div align="center" markdown>![avl tree 1](avl_tree.assets/avl_tree1.png)</div>
由于平衡二叉树需要保证其任意结点的平衡因子满足限制,所以在插入结点后可能会造成 AVL 树的失衡。例如,平衡二叉树在插入结点 0 前 / 后如下图所示(括号内表示当前结点的平衡因子):
此时在树中插入值为0的结点插入后二叉搜索树如下
=== "插入前"
![avl tree 1](avl_tree.assets/avl_tree1.png)
=== "插入后"
![avl tree 2](avl_tree.assets/avl_tree2.png)
<div align="center" markdown>![avl tree 2](avl_tree.assets/avl_tree2.png)</div>
观察发现,插入后结点 2 和 结点 3 已经不满足平衡二叉树的性质,我们将这一现象称为 **失衡** 。为了解决该问题,首先需要分析哪些结点会出现失衡,经过观察可得两条规律:
很明显值为2和3的结点已经不满足平衡二叉树的性质这一现象称为 **失衡**
- 出现失衡的结点都必然出现在新插入结点与根结点的路径上;
- 在这条路径上,该插入结点的父结点一定不会失衡,即首先失衡的结点必然是父节点之上的结点;
为了解决这一现象,首先需要观察哪些结点会出现失衡。不难发现的是,**出现失衡的结点都必然出现在新插入结点与根节点的路径上**。
并且,**从新结点出发直到根结点的这一方向上,首先出现的失衡点的高度必然不低于新插入结点的祖父**。
!!! tip "证明"
!!! note
可以利用反证法来证明这一结论。
由于新插入结点必然是叶结点,因此其父结点之前只有 0 个或 1 个孩子结点,
假设新插入结点为x插入x后x的父亲p发生失衡。
- 当父结点有 0 个孩子结点,那么插入结点后,父结点的平衡因子等于 -1 或 1
- 当父结点有 1 个孩子结点,那么由于插入之前满足 AVL 树性质,那么这个孩子结点形成子树高度等于 $1$ ,插入结点后,父结点的平衡因子等于 $0$
因此父结点一定不会失衡,证毕。
首先,二叉搜索树中新插入的结点必然是叶子结点,即
x的高度为1。由于p发生失衡所以p的另一孩子高度h必然大于2。因此在x插入之前p的平衡因子$-h \le -2$不满足平衡二叉树的性质。
故发生失衡的结点必然不低于新插入结点的祖父。
现在考虑如何将一个失衡点恢复为平衡点。
现在考虑如何将一个失衡的点重新调整为平衡点。
首先对于一棵二叉搜索树,其中序遍历序列一定是严格升序的。因此,可以考虑 **在不影响整棵二叉树的中序遍历序列的情况下,
通过一定的操作尽可能地降低失衡点左右子树的高度差。**
根据论文中对这一问题的描述,可以定义一种称为「**旋转**」的操作,其可以在不影响二叉树中序遍历序列的情况下,降低失衡点左右子树的高度差。
我们知道对于二叉搜索树的中序遍历序列一定是严格升序的。在论文中,作者定义了一种被称为「旋转 Rotation」的操作其可 **在不影响二叉树中序遍历序列的情况下,降低失衡点左右子树的高度差**
#### 右旋
以上文中提到的发生失衡的平衡二叉搜索树为例:
1. 首先可以找到第一个发生失衡的点是值为2的结点。
以上文中提到的发生失衡的 AVL 树为例,「右旋」的具体操作为:
1. 首先可以找到第一个发生失衡的点是结点 2 。
2. 以该点为轴顺时针旋转,使该点左孩子的右子树指向该点,该点的左子树指向其左孩子的右子树。
3. 将原本的左孩子连接至该点的父节点。具体操作如下:
3. 将原本的左孩子连接至该点的父结点。
<div align="center" markdown>
![avl tree3](avl_tree.assets/avl_tree2.png)
![rotate right1](avl_tree.assets/rotate_right1.png)
![rotate right2](avl_tree.assets/rotate_right2.png)
</div>
观察得知,经过右旋后,整棵二叉树已经恢复平衡,并且中序遍历序列也保持不变。
可以看出,经过旋转后整棵平衡二叉树已经重新平衡,并且中序遍历序列并未发生改变。
这种以某一结点为轴,顺时针旋转的操作称之为「**右旋**」。
=== "Step 1"
![avl tree3](avl_tree.assets/avl_tree2.png)
=== "Step 2"
![rotate right1](avl_tree.assets/rotate_right1.png)
=== "Step 3"
![rotate right2](avl_tree.assets/rotate_right2.png)
#### 左旋
上文中提到了右旋操作,下面来看与之对应的「**左旋**」。需要使用左旋的情况与右旋相似,下面以例子来说明左旋的过程:
<div align="center" markdown>
![rotate left1](avl_tree.assets/rotate_left1.png)
![rotate left2](avl_tree.assets/rotate_left2.png)
![rotate left3](avl_tree.assets/rotate_left3.png)
</div>
下面来看与之对应的「左旋」,需要使用左旋的情况与右旋相似,下面以例子来说明左旋的过程:
- Todo
与右旋相同,左旋也可以让失衡的结点恢复平衡,同时不会改变中序遍历序列。
#### 双旋(先左后右/先右后左)
以先左后右为例,下图中失衡的二叉树如果直接对失衡点进行右旋,会发现并不能使失衡点恢复平衡:
<div align="center" markdown>
![rotate left right1](avl_tree.assets/rotate_left_right1.png)
![rotate left right2](avl_tree.assets/rotate_left_right2.png)
</div>
=== "Step 1"
![rotate left1](avl_tree.assets/rotate_left1.png)
=== "Step 2"
![rotate left2](avl_tree.assets/rotate_left2.png)
=== "Step 3"
![rotate left3](avl_tree.assets/rotate_left3.png)
这种情况的解决办法为:
1. 将失衡点的左孩子进行左旋。
2. 对失衡点进行右旋。也就是「先左后右」。
#### 双旋
<div align="center" markdown>
![rotate left right3](avl_tree.assets/rotate_left_right1.png)
![rotate left right4](avl_tree.assets/rotate_left_right3.png)
![rotate left right5](avl_tree.assets/rotate_left_right4.png)
</div>
「双旋」分为两种,一种是「先左旋后右旋」,另一种是「先右旋后左旋」。
同理,「先右后左」是先将失衡点的左孩子进行右旋,然后对失衡点进行左旋
以先左后右为例,如果直接对下图二叉树的失衡点执行右旋,会发现并不能使失衡点恢复平衡。
#### 各类旋转对应的使用条件
上文提到的四种旋转方式涵盖了所有失衡的情形,那么该如何选择旋转方法呢?
=== "Step 1"
![rotate left right1](avl_tree.assets/rotate_left_right1.png)
=== "Step 2"
![rotate left right2](avl_tree.assets/rotate_left_right2.png)
旋转方法的选择是由失衡点的平衡因子以及其较高一侧子树的平衡因子决定的,具体可分为以下四种情形:
* 失衡点平衡因子大于0且左子树平衡因子大于0时使用右旋。
* 失衡点平衡因子大于0且左子树平衡因子小于0时使用先左后右双旋。
* 失衡点平衡因子小于0且右子树平衡因子小于0时使用左旋。
* 失衡点平衡因子小于0且右子树平衡因子大于0时使用先右后左双旋。
为了解决该问题,需要「先左旋后右旋」,即分为两步:
为了方便起见,将平衡二叉搜索树修复失衡点封装为一个函数,具体实现如下:
1. 将失衡点的左孩子执行左旋。
2. 对失衡点执行右旋。
=== "c++"
=== "Step 1"
![rotate left right3](avl_tree.assets/rotate_left_right1.png)
=== "Step 2"
![rotate left right4](avl_tree.assets/rotate_left_right3.png)
=== "Step 3"
![rotate left right5](avl_tree.assets/rotate_left_right4.png)
同理,「先左旋后右旋」是先将失衡点的左孩子执行右旋,然后对失衡点执行左旋。
#### 旋转选择
下面我们来看看,如何根据失衡的情形来选择对应的旋转方法。旋转方法的选择是由失衡点的平衡因子以及其较高一侧子树的平衡因子决定的,分为以下四种情形:
| 失衡结点的平衡因子 | 结点的较高子树 | 较高子树的平衡因子 | 应采用的旋转方法 |
| ------------------ | -------------- | ------------------ | ---------------- |
| $>0$ | 左子树 | $>0$ | 右旋 |
| $>0$ | 左子树 | $<0$ | 双旋先左后右 |
| $<0$ | 右子树 | $<0$ | 左旋 |
| $<0$ | 右子树 | $>0$ | 双旋(先右后左) |
为了方便起见,将 AVL 树修复失衡点封装为一个函数,具体实现如下:
=== "C++"
```cpp title="fix_balance.cpp"
// Comments are required
TreeNode *&fromParentTo(TreeNode *node) {
if (isLeftChild(node)) { return node->parent->left; }
else { return node->parent->right; }
}
void fixBalance(TreeNode *p) {
auto rotate_left = [&](TreeNode *node) -> TreeNode * {
TreeNode *temp = node->right;
@ -175,13 +188,14 @@ $O(\log n)$这一级别。
}
}
}
```
有了上文中修复失衡点的函数,平衡二叉树的插入代码也就不难写出了。
=== "c++"
=== "C++"
```cpp title="avl_tree_insert.cpp"
// Comments are required
bool AvlTree::insert(int val) {
TreeNode *p = root;
if (p == nullptr) {
@ -219,12 +233,13 @@ $O(\log n)$这一级别。
```
#### 高度复原
插入结点后,从该节点至根节点这条路径上的结点的高度有可能发生变化,
所以我们需要在从新插入结点向上搜寻失衡点的过程中不断更新该路径上结点的高度。
=== "c++"
插入结点后,从该结点至根结点的路径上的结点的高度有可能发生变化。因此在向上搜寻失衡点的过程中,需要不断地更新路径上结点的高度。
=== "C++"
```cpp title="updateHeight.cpp"
// Comments are required
void updateHeight(TreeNode *p) {
if (p->left == nullptr && p->right == nullptr) { p->height = 1; }
else if (p->left == nullptr) { p->height = p->right->height + 1; }
@ -233,38 +248,22 @@ $O(\log n)$这一级别。
}
```
但可以证明的是,插入操作所造成的结点高度变化最多只会影响到第一个失衡点以下的部分。
但可以证明的是,插入操作所造成的结点高度变化最多只会影响到第一个失衡点以下的部分。这也正是上述插入操作的代码中修复第一个失衡点后直接跳出循环的原因。
!!! tips
!!! tip "证明"
以第一个失衡结点为根,设非新插入结点所在子树的高度为$h$,通过插入前后子树高度的变化可以得出,
将第一个失衡结点的平衡因子修复后,该点的高度与插入前相比不发生变化。因此,
高度变化只会传播到第一个失衡点下方的结点。
这也就是插入操作中
=== "c++"
以第一个失衡结点为根,设非新插入结点所在子树的高度为 $h$ 。
```cpp
for (; p != nullptr; p = p->parent) {
if (!isBalance(p)) {
fixBalance(p);
break;
} else {
updateHeight(p);
}
}
```
通过插入前后子树高度的变化可以得出,将第一个失衡结点的平衡因子修复后,该结点的高度与插入前相等。因此,高度变化只会传播到第一个失衡点下方的结点。
修复第一个失衡点后直接跳出循环的原因。
### 删除结点
### 删除节点
删除结点与二叉搜索树删除结点的操作基本相同。不同的是,在删除节点后需要自删除结点的父节点开始进行失衡点修复以及高度复原,
直到到达树的根节点。
「AVL 树」删除结点操作与「二叉搜索树」删除结点操作总体相同。在此基础上「AVL树」在删除结点后需要从删除结点的父结点开始进行失衡点修复与高度复原直到树的根节点。
=== "cpp"
=== "C++"
```cpp title="avl_tree_remove.cpp"
// Comments are required
bool AvlTree::remove(int val) {
TreeNode *p = root;
if (p == nullptr) { return false; }
@ -306,4 +305,4 @@ $O(\log n)$这一级别。
}
return false;
}
```
```