diff --git a/codes/cpp/chapter_tree/avl_tree.cpp b/codes/cpp/chapter_tree/avl_tree.cpp index da7b583..b816f97 100644 --- a/codes/cpp/chapter_tree/avl_tree.cpp +++ b/codes/cpp/chapter_tree/avl_tree.cpp @@ -34,14 +34,14 @@ bool AvlTree::isBalance(const TreeNode *p) { // 获取当前结点的平衡因子 int AvlTree::getBalanceFactor(const TreeNode *p) { if (p->left == nullptr && p->right == nullptr) { return 0; } - else if (p->left == nullptr) { return (-p->right->height); } - else if (p->right == nullptr) { return p->left->height; } + else if (p->left == nullptr) { return (-1 - p->right->height); } + else if (p->right == nullptr) { return p->left->height + 1; } else { return p->left->height - p->right->height; } } // 更新结点高度 void AvlTree::updateHeight(TreeNode *p) { - if (p->left == nullptr && p->right == nullptr) { p->height = 1; } + if (p->left == nullptr && p->right == nullptr) { p->height = 0; } else if (p->left == nullptr) { p->height = p->right->height + 1; } else if (p->right == nullptr) { p->height = p->left->height + 1; } else { p->height = std::max(p->left->height, p->right->height) + 1; } diff --git a/codes/cpp/include/TreeNode.hpp b/codes/cpp/include/TreeNode.hpp index 18bb894..b3b27a6 100644 --- a/codes/cpp/include/TreeNode.hpp +++ b/codes/cpp/include/TreeNode.hpp @@ -12,7 +12,7 @@ */ struct TreeNode { int val{}; - int height = 1; + int height = 0; TreeNode *parent{}; TreeNode *left{}; TreeNode *right{}; diff --git a/docs/chapter_tree/avl_tree.md b/docs/chapter_tree/avl_tree.md index 8a46f11..8d4cd42 100644 --- a/docs/chapter_tree/avl_tree.md +++ b/docs/chapter_tree/avl_tree.md @@ -1,164 +1,183 @@ -# 平衡二叉搜索树 -在[二叉搜索树](binary_tree.md)中提到,如果二叉搜索树在进行多次插入、删除操作后,二叉搜索树可能会退化为链表。此时所有操作的 -时间复杂度都会由$O(\log n)$降至$O(n)$。 -例如,将该二叉搜索树树中值为4的点删除后,二叉搜索树就会退化为链表。 +# AVL 树 -
+## AVL 树的起源 + +在「二叉搜索树」章节中提到,如进行多次插入与删除操作后,二叉搜索树可能会退化为链表。此时所有操作的时间复杂度都会由 $O(\log n)$ 劣化至 $O(n)$ 。例如,删除结点 4 后,该二叉搜索树就会退化为链表。 + +=== "删除前" ![binary search tree1](avl_tree.assets/binary_search_tree1.png) +=== "删除后" ![binary search tree2](avl_tree.assets/binary_search_tree2.png) -
-为了解决这一问题,G. M. Adelson-Velsky和E. M. Landis在其1962年发表的论文《An algorithm for the organization of info -rmation》中提出了「**AVL树**」也就是「**平衡二叉搜索树**」这一数据结构。 +为了解决这一问题,G. M. Adelson-Velsky 和 E. M. Landis 在其 1962 年发表的论文 "An algorithm for the organization of info +rmation" 中提出了「平衡二叉搜索树」,也以两位作者命名,常被称为「AVL 树」。 -## 平衡二叉搜索树的性质 -顾名思义,平衡二叉搜索树也是一棵二叉搜索树,所以它满足二叉搜索树的所有性质。**另外,平衡二叉搜索树规定, -树中任意结点左右子树的高度差的绝对值不能超过1。** +## AVL 树的性质 -平衡二叉搜索树的平衡因子有很多种定义方式,本文中规定: -1. **平衡二叉搜索树的平衡因子(balance_factor)定义为左子树的高度减右子树的高度。** -2. **空树的高度定义为0,叶子结点的高度定义为1。** +「AVL 树」既是「二叉搜索树」又是「平衡二叉树」,同时满足这两种二叉树的所有性质。「平衡二叉树」规定树中任意结点左右子树的高度差的绝对值不能超过 1 。本文定义: -根据平衡二叉搜索树的性质可知,一棵合法的平衡二叉搜索树,其任意结点的平衡因子$f$满足$-1 \le f \le 1$。 +- 「平衡因子 Balance Factor」为 **左子树的高度减右子树的高度** 。 +- 空树的高度定义为 -1 ,叶结点的高度定义为 0 。 -平衡二叉搜索树对其平衡因子的限制保证了平衡二叉搜索树不会发生类似于二叉搜索树的退化行为,也就保证了其各种操作的时间复杂度均能保持在 -$O(\log n)$这一级别。 +!!! tip + + 设「平衡因子」为 $f$ ,则一棵 AVL 树的任意结点的平衡因子满足 $-1 \le f \le 1$ + +## AVL 树的优势 + +提出 AVL 树的两位大佬的厉害之处在于,他们设计了一系列操作,使得 AVL 树在不断添加与删除结点后,仍然不会发生退化,进而使得各种操作的时间复杂度均能保持在 $O(\log n)$ 级别。 + +## AVL 树的操作 -## 平衡二叉搜索树的操作 ### 查找结点 -平衡二叉搜索树查找结点的操作与二叉搜索树一致,在此不再赘述。 + +「 AVL 树」的结点查找操作与「二叉搜索树」一致,在此不再赘述。 + ### 插入结点 -由于平衡二叉树需要保证其任意结点的平衡因子满足限制,所以在插入结点后可能会造成平衡二叉搜索树的失衡。例如,在插入结点前平衡二叉树如下 -(括号内表示当前结点的平衡因子): -
![avl tree 1](avl_tree.assets/avl_tree1.png)
+由于平衡二叉树需要保证其任意结点的平衡因子满足限制,所以在插入结点后可能会造成 AVL 树的失衡。例如,平衡二叉树在插入结点 0 前 / 后如下图所示(括号内表示当前结点的平衡因子): -此时在树中插入值为0的结点,插入后二叉搜索树如下: +=== "插入前" +![avl tree 1](avl_tree.assets/avl_tree1.png) +=== "插入后" +![avl tree 2](avl_tree.assets/avl_tree2.png) -
![avl tree 2](avl_tree.assets/avl_tree2.png)
+观察发现,插入后结点 2 和 结点 3 已经不满足平衡二叉树的性质,我们将这一现象称为 **失衡** 。为了解决该问题,首先需要分析哪些结点会出现失衡,经过观察可得两条规律: -很明显,值为2和3的结点已经不满足平衡二叉树的性质,这一现象称为 **失衡**。 +- 出现失衡的结点都必然出现在新插入结点与根结点的路径上; +- 在这条路径上,该插入结点的父结点一定不会失衡,即首先失衡的结点必然是父节点之上的结点; -为了解决这一现象,首先需要观察哪些结点会出现失衡。不难发现的是,**出现失衡的结点都必然出现在新插入结点与根节点的路径上**。 -并且,**从新结点出发直到根结点的这一方向上,首先出现的失衡点的高度必然不低于新插入结点的祖父**。 +!!! tip "证明" -!!! note - - 可以利用反证法来证明这一结论。 + 由于新插入结点必然是叶结点,因此其父结点之前只有 0 个或 1 个孩子结点, - 假设新插入结点为x,插入x后x的父亲p发生失衡。 + - 当父结点有 0 个孩子结点,那么插入结点后,父结点的平衡因子等于 -1 或 1; + - 当父结点有 1 个孩子结点,那么由于插入之前满足 AVL 树性质,那么这个孩子结点形成子树高度等于 $1$ ,插入结点后,父结点的平衡因子等于 $0$ ; + + 因此父结点一定不会失衡,证毕。 - 首先,二叉搜索树中新插入的结点必然是叶子结点,即 - x的高度为1。由于p发生失衡,所以p的另一孩子高度h必然大于2。因此在x插入之前,p的平衡因子$-h \le -2$不满足平衡二叉树的性质。 - 故发生失衡的结点必然不低于新插入结点的祖父。 +现在考虑如何将一个失衡点恢复为平衡点。 -现在考虑如何将一个失衡的点重新调整为平衡点。 - -首先对于一棵二叉搜索树,其中序遍历序列一定是严格升序的。因此,可以考虑 **在不影响整棵二叉树的中序遍历序列的情况下, -通过一定的操作尽可能地降低失衡点左右子树的高度差。** - -根据论文中对这一问题的描述,可以定义一种称为「**旋转**」的操作,其可以在不影响二叉树中序遍历序列的情况下,降低失衡点左右子树的高度差。 +我们知道对于二叉搜索树的中序遍历序列一定是严格升序的。在论文中,作者定义了一种被称为「旋转 Rotation」的操作,其可 **在不影响二叉树中序遍历序列的情况下,降低失衡点左右子树的高度差** 。 #### 右旋 -以上文中提到的发生失衡的平衡二叉搜索树为例: -1. 首先可以找到第一个发生失衡的点是值为2的结点。 +以上文中提到的发生失衡的 AVL 树为例,「右旋」的具体操作为: + +1. 首先可以找到第一个发生失衡的点是结点 2 。 2. 以该点为轴顺时针旋转,使该点左孩子的右子树指向该点,该点的左子树指向其左孩子的右子树。 -3. 将原本的左孩子连接至该点的父节点。具体操作如下: +3. 将原本的左孩子连接至该点的父结点。 -
+观察得知,经过右旋后,整棵二叉树已经恢复平衡,并且中序遍历序列也保持不变。 + +=== "Step 1" ![avl tree3](avl_tree.assets/avl_tree2.png) +=== "Step 2" ![rotate right1](avl_tree.assets/rotate_right1.png) +=== "Step 3" ![rotate right2](avl_tree.assets/rotate_right2.png) -
- -可以看出,经过旋转后整棵平衡二叉树已经重新平衡,并且中序遍历序列并未发生改变。 - -这种以某一结点为轴,顺时针旋转的操作称之为「**右旋**」。 #### 左旋 -上文中提到了右旋操作,下面来看与之对应的「**左旋**」。需要使用左旋的情况与右旋相似,下面以例子来说明左旋的过程: -
-![rotate left1](avl_tree.assets/rotate_left1.png) -![rotate left2](avl_tree.assets/rotate_left2.png) -![rotate left3](avl_tree.assets/rotate_left3.png) -
+下面来看与之对应的「左旋」,需要使用左旋的情况与右旋相似,下面以例子来说明左旋的过程: + +1. 首先可以找到第一个发生失衡的点是结点 3 。 +2. 以该点为轴逆时针旋转,使该点右孩子的左子树指向该点,该点的右子树指向其右孩子的左子树。 +3. 将原本的右孩子连接至该点的父结点。 与右旋相同,左旋也可以让失衡的结点恢复平衡,同时不会改变中序遍历序列。 -#### 双旋(先左后右/先右后左) -以先左后右为例,下图中失衡的二叉树如果直接对失衡点进行右旋,会发现并不能使失衡点恢复平衡: -
+=== "Step 1" +![rotate left1](avl_tree.assets/rotate_left1.png) +=== "Step 2" +![rotate left2](avl_tree.assets/rotate_left2.png) +=== "Step 3" +![rotate left3](avl_tree.assets/rotate_left3.png) + +#### 双旋 + +「双旋」分为两种,一种是「先左旋后右旋」,另一种是「先右旋后左旋」。 + +以先左后右为例,如果直接对下图二叉树的失衡点执行右旋,会发现并不能使失衡点恢复平衡。 + +=== "Step 1" ![rotate left right1](avl_tree.assets/rotate_left_right1.png) +=== "Step 2" ![rotate left right2](avl_tree.assets/rotate_left_right2.png) -
-这种情况的解决办法为: -1. 将失衡点的左孩子进行左旋。 -2. 对失衡点进行右旋。也就是「先左后右」。 -
+为了解决该问题,需要「先左旋后右旋」,即分为两步: + +1. 将失衡点的左孩子执行左旋。 +2. 对失衡点执行右旋。 + +=== "Step 1" ![rotate left right3](avl_tree.assets/rotate_left_right1.png) +=== "Step 2" ![rotate left right4](avl_tree.assets/rotate_left_right3.png) +=== "Step 3" ![rotate left right5](avl_tree.assets/rotate_left_right4.png) -
-同理,「先右后左」是先将失衡点的左孩子进行右旋,然后对失衡点进行左旋。 +同理,「先左旋后右旋」是先将失衡点的左孩子执行右旋,然后对失衡点执行左旋。 -#### 各类旋转对应的使用条件 -上文提到的四种旋转方式涵盖了所有失衡的情形,那么该如何选择旋转方法呢? +#### 旋转选择 -旋转方法的选择是由失衡点的平衡因子以及其较高一侧子树的平衡因子决定的,具体可分为以下四种情形: +下面我们来看看,如何根据失衡的情形来选择对应的旋转方法。旋转方法的选择是由失衡点的平衡因子以及其较高一侧子树的平衡因子决定的,分为以下四种情形: -* 失衡点平衡因子大于0,且左子树平衡因子大于0时,使用右旋。 -* 失衡点平衡因子大于0,且左子树平衡因子小于0时,使用先左后右双旋。 -* 失衡点平衡因子小于0,且右子树平衡因子小于0时,使用左旋。 -* 失衡点平衡因子小于0,且右子树平衡因子大于0时,使用先右后左双旋。 +| 失衡结点的平衡因子 | 结点的较高子树 | 较高子树的平衡因子 | 应采用的旋转方法 | +| ------------------ | -------------- | ------------------ | ---------------- | +| $>0$ | 左子树 | $>0$ | 右旋 | +| $>0$ | 左子树 | $<0$ | 双旋(先左后右) | +| $<0$ | 右子树 | $<0$ | 左旋 | +| $<0$ | 右子树 | $>0$ | 双旋(先右后左) | -为了方便起见,将平衡二叉搜索树修复失衡点封装为一个函数,具体实现如下: +为了方便起见,将 AVL 树修复失衡点封装为一个函数,具体实现如下: -=== "c++" +=== "C++" ```cpp title="fix_balance.cpp" - + // 用于返回结点node的父结点指向该结点的引用 TreeNode *&fromParentTo(TreeNode *node) { - if (isLeftChild(node)) { return node->parent->left; } - else { return node->parent->right; } + if (isLeftChild(node)) { return node->parent->left; } // 若node为其父结点的左孩子,返回父结点的左指针 + else { return node->parent->right; } // 否则,返回父结点的右指针 } - + + // 修复失衡结点p void fixBalance(TreeNode *p) { + // 左旋函数,采用lambda形式 auto rotate_left = [&](TreeNode *node) -> TreeNode * { - TreeNode *temp = node->right; - temp->parent = p->parent; - node->right = temp->left; - if (temp->left != nullptr) { + TreeNode *temp = node->right; // 获取失衡点的右孩子 + temp->parent = p->parent; // 将右孩子的父指针指向失衡点的父亲 + node->right = temp->left; // 失衡点的右指针指向其右孩子的左子树 + if (temp->left != nullptr) { // 如果失衡点右孩子的左子树非空,将失衡点设置为该左子树的父亲 temp->left->parent = node; } - temp->left = node; - node->parent = temp; - updateHeight(node); - updateHeight(temp); - return temp; + temp->left = node; // 将失衡点右孩子的左子树指向失衡点 + node->parent = temp; // 失衡点的父亲指向其右孩子 + updateHeight(node); // 更新失衡点高度 + updateHeight(temp); // 更新原失衡点右孩子高度(顺序不可颠倒,因为在旋转后原本的失衡点实质上已经成为了其右孩子的子树) + return temp; // 返回旋转后该子树的根结点,以便原父结点与其连接 }; + // 右旋函数,采用lambda形式 auto rotate_right = [&](TreeNode *node) -> TreeNode * { - TreeNode *temp = node->left; - temp->parent = p->parent; - node->left = temp->right; - if (temp->right != nullptr) { + TreeNode *temp = node->left; // 获取失衡点的左孩子 + temp->parent = p->parent; // 将左孩子的父指针指向失衡点的父亲 + node->left = temp->right; // 失衡点的左指针指向其左孩子的右子树 + if (temp->right != nullptr) { // 如果失衡点左孩子的右子树非空,将失衡点设置为该右子树的父亲 temp->right->parent = node; } - temp->right = node; - node->parent = temp; - updateHeight(node); - updateHeight(temp); + temp->right = node; // 将失衡点左孩子的右子树指向失衡点 + node->parent = temp; // 失衡点的父亲指向其左孩子 + updateHeight(node); // 更新失衡点高度 + updateHeight(temp); / 更新原失衡点左孩子高度(顺序不可颠倒,因为在旋转后原本的失衡点实质上已经成为了其左孩子的子树) return temp; }; + // 根据四种情形选择对应的旋转方式 if (getBalanceFactor(p) > 1) { if (getBalanceFactor(p->left) > 0) { - if (p->parent == nullptr) { root = rotate_right(p); } - else { fromParentTo(p) = rotate_right(p); } + if (p->parent == nullptr) { root = rotate_right(p); } // 失衡点为根结点时,其没有父亲,故直接将根节点重置为旋转后的根结点 + else { fromParentTo(p) = rotate_right(p); } // 否则,将失衡点的父亲指向旋转后的根结点 } else { p->left = rotate_left(p->left); if (p->parent == nullptr) { root = rotate_right(p); } @@ -175,19 +194,22 @@ $O(\log n)$这一级别。 } } } - ``` 有了上文中修复失衡点的函数,平衡二叉树的插入代码也就不难写出了。 -=== "c++" - + +=== "C++" + ```cpp title="avl_tree_insert.cpp" + bool AvlTree::insert(int val) { TreeNode *p = root; + // 若根结点为空,直接插入到根结点 if (p == nullptr) { root = new TreeNode(val); return true; } + // 寻找插入位置并插入,与二叉搜索树的插入相同 for (;;) { if (p->val == val) { return false; } else if (p->val > val) { @@ -206,12 +228,13 @@ $O(\log n)$这一级别。 } } } + // 自下向上寻找第一个失衡点并修复 for (; p != nullptr; p = p->parent) { if (!isBalance(p)) { fixBalance(p); break; } else { - updateHeight(p); + updateHeight(p); // 对路径上的未失衡点进行高度复原 } } return true; @@ -219,79 +242,74 @@ $O(\log n)$这一级别。 ``` #### 高度复原 -插入结点后,从该节点至根节点这条路径上的结点的高度有可能发生变化, -所以我们需要在从新插入结点向上搜寻失衡点的过程中不断更新该路径上结点的高度。 -=== "c++" - +插入结点后,从该结点至根结点的路径上的结点的高度有可能发生变化。因此在向上搜寻失衡点的过程中,需要不断地更新路径上结点的高度。 + +=== "C++" + ```cpp title="updateHeight.cpp" + // 对结点进行高度复原 void updateHeight(TreeNode *p) { - if (p->left == nullptr && p->right == nullptr) { p->height = 1; } + // 若左右子树都为空,则该点为叶子结点,高度为0 + if (p->left == nullptr && p->right == nullptr) { p->height = 0; } + // 若左子树为空,则该点高度为右子树高度加一 else if (p->left == nullptr) { p->height = p->right->height + 1; } + // 若右子树为空,则该点高度为左子树加一 else if (p->right == nullptr) { p->height = p->left->height + 1; } + // 左右子树都不为空,该点高度为左右子树中较高者的高度加一 else { p->height = std::max(p->left->height, p->right->height) + 1; } } ``` -但可以证明的是,插入操作所造成的结点高度变化最多只会影响到第一个失衡点以下的部分。 +但可以证明的是,插入操作所造成的结点高度变化最多只会影响到第一个失衡点以下的部分。这也正是上述插入操作的代码中修复第一个失衡点后直接跳出循环的原因。 -!!! tips +!!! tip "证明" - 以第一个失衡结点为根,设非新插入结点所在子树的高度为$h$,通过插入前后子树高度的变化可以得出, - 将第一个失衡结点的平衡因子修复后,该点的高度与插入前相比不发生变化。因此, - 高度变化只会传播到第一个失衡点下方的结点。 - -这也就是插入操作中 - -=== "c++" + 以第一个失衡结点为根,设非新插入结点所在子树的高度为 $h$ 。 - ```cpp - for (; p != nullptr; p = p->parent) { - if (!isBalance(p)) { - fixBalance(p); - break; - } else { - updateHeight(p); - } - } - ``` + 通过插入前后子树高度的变化可以得出,将第一个失衡结点的平衡因子修复后,该结点的高度与插入前相等。因此,高度变化只会传播到第一个失衡点下方的结点。 -修复第一个失衡点后直接跳出循环的原因。 +### 删除结点 -### 删除节点 -删除结点与二叉搜索树删除结点的操作基本相同。不同的是,在删除节点后需要自删除结点的父节点开始进行失衡点修复以及高度复原, -直到到达树的根节点。 +「AVL 树」删除结点操作与「二叉搜索树」删除结点操作总体相同。在此基础上,「AVL树」在删除结点后,需要从删除结点的父结点开始进行失衡点修复与高度复原,直到树的根节点。 -=== "cpp" +=== "C++" ```cpp title="avl_tree_remove.cpp" bool AvlTree::remove(int val) { + // 若根结点为空,则直接返回 TreeNode *p = root; if (p == nullptr) { return false; } + // 删除结点,与二叉搜索树的删除操作相同 while (p != nullptr) { if (p->val == val) { TreeNode *real_delete_node = p; TreeNode *next_node; + // 被删除结点左子树为空时,直接将被删除结点的父结点指向被删除结点的右子树 if (p->left == nullptr) { next_node = p->right; if (p->parent == nullptr) { root = next_node; } else { fromParentTo(p) = next_node; } - } else if (p->right == nullptr) { + } else if (p->right == nullptr) { // 被删除结点右子树为空时,直接将被删除结点的父结点指向被删除结点的左子树 next_node = p->left; if (p->parent == nullptr) { root = next_node; } else { fromParentTo(p) = next_node; } } else { + // 用直接后继代替该点 while (real_delete_node->left != nullptr) { real_delete_node = real_delete_node->left; } std::swap(p->val, real_delete_node->val); next_node = real_delete_node->right; + // 根据实际被删除点与删除点的关系,确定删除结点后重新连接的方式 if (real_delete_node->parent == p) { p->right = next_node; } else { real_delete_node->parent->left = next_node; } } + // 如果实际被删除点的后继非空,则将其指向实际被删除点的父亲 if (next_node != nullptr) { next_node->parent = real_delete_node->parent; } + // 自下向上寻找失衡点,并进行高度复原 for (p = real_delete_node; p != nullptr; p = p->parent) { if (!isBalance(p)) { fixBalance(p); } updateHeight(p);