您的位置：首页 > 其它

堆排序

2018-01-22 18:46 645 查看

堆排序

堆排序(Heapsort)是指利用堆积树（堆）这种数据结构所设计的一种排序算法，它是选择排序的一种。可以利用数组的特点快速定位指定索引的元素。堆分为大根堆和小根堆，是完全二叉树。大根堆的要求是每个节点的值都不大于其父节点的值，即A[PARENT[i]] >= A[i]。在数组的非降序排序中，需要使用的就是大根堆，因为根据大根堆的要求可知，最大的值一定在堆顶。1991年的计算机先驱奖获得者、斯坦福大学计算机科学系教授罗伯特·弗洛伊德(Robert W．Floyd）和威廉姆斯(J．Williams）在1964年共同发明了著名的堆排序算法（ Heap Sort )

堆排序演示

分析

在分析之前我们先介绍下二叉树和堆得一些性质（特点）。

二叉树

性质1：一棵非空二叉树的第i层上最多有2(i−1)个结点，（i>=1）。

性质2：一棵深度为k的二叉树中，最多具有2k−1个结点，最少有k个结点。

性质3：对于一棵非空的二叉树，度为0的结点（即叶子结点）总比度为1的结点多一个，即叶子结点数为n0，度为2的结点数为n2，则有n0=n2+1。

性质4：具有n个结点的完全二叉树深度为(log2(n))+1。

性质5：对具有n个结点的完全二叉树，如果按照从上至下和从左至右的顺序对二叉树的所有结点从1开始编号，则对于任意的序号为i的结点有：

如果i>1，那么序号为i的结点的双亲结点序号为i/2；

如果i=1，那么序号为i的结点为根节点，无双亲结点；

如果2i<=n，那么序号为i的结点的左孩子结点序号为2i；

如果2i>n，那么序号为i的结点无左孩子；

如果2i+1<=n，那么序号为i的结点右孩子序号为2i+1；

如果2i+1>n，那么序号为i的结点无右孩子。

堆

n个关键字序列Kl，K2，…，Kn称为（Heap），当且仅当该序列满足如下性质（简称为堆性质）：

ki<=k(2i）且ki<=k(2i+1)(1≤i≤ n/2），当然，这是小根堆，大根堆则换成>=号。k(i）相当于二叉树的非叶子结点，K(2i）则是左子节点，k(2i+1）是右子节点

若将此序列所存储的向量R[1..n]看做是一棵完全二叉树的存储结构，则堆实质上是满足如下性质的完全二叉树：

树中任一非叶子结点的关键字均不大于（或不小于）其左右孩子（若存在）结点的关键字。

大根堆和小根堆：根结点（亦称为堆顶）的关键字是堆里所有结点关键字中最小者的堆称为小根堆，又称最小堆。根结点（亦称为堆顶）的关键字是堆里所有结点关键字中最大者，称为大根堆，又称最大堆。

注意：

堆中任一子树亦是堆。

以上讨论的堆实际上是二叉堆（Binary Heap），类似地可定义k叉堆。

详解

堆排序利用了大根堆（或小根堆）堆顶记录的关键字最大（或最小）这一特征，使得在当前无序区中选取最大（或最小）关键字的记录变得简单。

（1）用大根堆排序的基本思想

先将初始文件R[1..n]建成一个大根堆，此堆为初始的无序区

再将关键字最大的记录R[1]（即堆顶）和无序区的最后一个记录R[n]交换，由此得到新的无序区R[1..n−1]和有序区R[n]，且满足R[1..n−1].keys≤R[n].key

由于交换后新的根R[1]可能违反堆性质，故应将当前无序区R[1..n−1]调整为堆。然后再次将R[1..n−1]中关键字最大的记录R[1]和该区间的最后一个记录R[n−1]交换，由此得到新的无序区R[1..n−2]和有序区R[n−1..n]，且仍满足关系R[1..n−2].keys≤R[n−1..n].keys，同样要将R[1..n−2]调整为堆。

……

直到无序区只有一个元素为止。

（2）大根堆排序算法的基本操作

建堆，建堆是不断调整堆的过程，从len/2处开始调整，一直到第一个节点，此处len是堆中元素的个数。建堆的过程是线性的过程，从len/2到0处一直调用调整堆的过程，相当于o(h1)+o(h2)…+o(hlen/2) 其中h表示节点的深度，len/2表示节点的个数，这是一个求和的过程，结果是线性的O(n)。

调整堆：调整堆在构建堆的过程中会用到，而且在堆排序过程中也会用到。利用的思想是比较节点i和它的孩子节点left(i),right(i)，选出三者最大(或者最小)者，如果最大（小）值不是节点i而是它的一个孩子节点，那边交互节点i和该节点，然后再调用调整堆过程，这是一个递归的过程。调整堆的过程时间复杂度与堆的深度有关系，是lgn的操作，因为是沿着深度方向进行调整的。

堆排序：堆排序是利用上面的两个过程来进行的。首先是根据元素构建堆。然后将堆的根节点取出(一般是与最后一个节点进行交换)，将前面len-1个节点继续进行堆调整的过程，然后再将根节点取出，这样一直到所有节点都取出。堆排序过程的时间复杂度是O(nlgn)。因为建堆的时间复杂度是O(n)（调用一次）；调整堆的时间复杂度是lgn，调用了n-1次，所以堆排序的时间复杂度是O(nlgn)

过程分析

一般用数组来表示堆，若根结点存在序号0处， i结点的父结点下标就为(i-1)/2。i结点的左右子结点下标分别为2*i+1和2*i+2。

　　（注：如果根结点是从1开始，则左右孩子结点分别是2i和2i+1。）

　　如第0个结点左右子结点下标分别为1和2。

左图为其存储结构，右图为其逻辑结构。

构造初始堆

　　初始化堆的时候是对所有的非叶子结点进行筛选。

　　假设有n个元素的堆，那么最后一个非叶子元素的下标是[n/2]-1（向下取整），所以筛选只需要从第[n/2]-1个元素开始，从后往前进行调整。

　　比如，给定一个数组，首先根据该数组元素构造一个完全二叉树。

　　然后从最后一个非叶子结点开始，每次都是从父结点、左孩子、右孩子中进行比较交换，交换可能会引起孩子结点不满足堆的性质，所以每次交换之后需要重新对被交换的孩子结点进行调整。

经过不断调整最后为大根堆

进行堆排序

　　有了初始堆之后就可以进行排序了。

　　堆排序是一种选择排序。建立的初始堆为初始的无序区。

　　排序开始，首先输出堆顶元素（因为它是最值），将堆顶元素和最后一个元素交换，这样，第n-1个位置（即最后一个位置）作为有序区，前n-2个位置仍是无序区，对无序区进行调整，得到堆之后，再交换堆顶和最后一个元素，这样有序区长度变为2。。。

　　不断进行此操作，将剩下的元素重新调整为堆，然后输出堆顶元素到有序区。每次交换都导致无序区-1，有序区+1。不断重复此过程直到有序区长度增长为n-1，排序完成。

首先，建立初始的堆结构如上图：

然后，交换堆顶的元素和最后一个元素，此时最后一个位置作为有序区（有序区显示为橘黄色），然后进行其他无序区的堆调整，重新得到大顶堆后，交换堆顶和倒数第二个元素的位置……

重复此过程：

……

最后，有序区拓展完成，即排序完成：

由排序过程可见，若想得到升序，则建立大顶堆，若想得到降序，则建立小顶堆。

堆排序的实现

Java版

package sort;

public class HeapSort {

private static void buildMaxHeapify(int[] data) {
// 没有子节点的才需要创建最大堆，从最后一个的父节点开始
int startIndex = getParentIndex(data.length - 1);
// 从尾端开始创建最大堆，每次都是正确的堆
for (int i = startIndex; i >= 0; i--) {
maxHeapify(data, data.length, i);
}
}

/**
* 创建最大堆
*
* @paramdata
* @paramheapSize需要创建最大堆的大小，一般在sort的时候用到，因为最多值放在末尾，末尾就不再归入最大堆了
* @paramindex当前需要创建最大堆的位置
*/
private static void maxHeapify(int[] data, int heapSize, int index) {
// 当前点与左右子节点比较
int left = getChildLeftIndex(index);// 5
int right = getChildRightIndex(index);

int largest = index;
if (left < heapSize && data[index] < data[left]) {
largest = left;
}
if (right < heapSize && data[largest] < data[right]) {
largest = right;
}
// 得到最大值后可能需要交换，如果交换了，其子节点可能就不是最大堆了，需要重新调整
if (largest != index) {
int temp = data[index];
data[index] = data[largest];
data[largest] = temp;
maxHeapify(data, heapSize, largest);
}
}

/**
* 排序，最大值放在末尾，data虽然是最大堆，在排序后就成了递增的
*
* @paramdata
*/
private static void heapSort(int[] data) {
// 末尾与头交换，交换后调整最大堆
for (int i = data.length - 1; i > 0; i--) {
int temp = data[0];
data[0] = data[i];
data[i] = temp;
maxHeapify(data, i, 0);
}
}

/**
* 父节点位置
*
* @paramcurrent
* @return
*/
private static int getParentIndex(int current) {
System.out.println(current);
return (current - 1) >> 1;
}

/**
* 左子节点position注意括号，加法优先级更高
*
* @paramcurrent
* @return
*/
private static int getChildLeftIndex(int current) {
return (current << 1) + 1;
}

/**
* 右子节点position
*
* @paramcurrent
* @return
*/
private static int getChildRightIndex(int current) {
return (current << 1) + 2;
}

private static void print(int[] data) {
int pre = -2;
for (int i = 0; i < data.length; i++) {
if (pre < (int) getLog(i + 1)) {
pre = (int) getLog(i + 1);
System.out.println();
}
System.out.print(data[i] + "|");
}
}

/**
* 以2为底的对数
*
* @paramparam
* @return
*/
private static double getLog(double param) {
return Math.log(param) / Math.log(2);
}

private static int[] sort = new int[] { 7, 6, 2, 4, 3, 8, 9 };

public static void main(String[] args) {
buildMaxHeapify(sort);
heapSort(sort);
print(sort);
}

}

Python版

'''
Created on 2018年1月20日

@author: ylg
'''

# 调整堆
def adjust_heap(lists, i, size):
lchild = 2 * i + 1
rchild = 2 * i + 2
max = i
if i < size / 2:
if lchild < size and lists[lchild] > lists[max]:
max = lchild
if rchild < size and lists[rchild] > lists[max]:
max = rchild
if max != i:
lists[max], lists[i] = lists[i], lists[max]
adjust_heap(lists, max, size)

# 创建堆

def build_heap(lists, size):
for i in range(0, (int(size / 2)))[::-1]:
adjust_heap(lists, i, size)

# 堆排序

def heap_sort(lists):
size = len(lists)
build_heap(lists, size)
for i in range(0, size)[::-1]:
lists[0], lists[i] = lists[i], lists[0]
adjust_heap(lists, 0, i)
return lists

a = [7, 6, 2, 4, 3, 8, 9]
print("排序之前：%s" % a)

b = heap_sort(a)

print("排序之后：%s" % b)

时间复杂度

最优时间复杂度：O(nlogn)

最坏时间复杂度：O(nlogn)

稳定性：不稳定

堆排序的时间，主要由建立初始堆和反复重建堆这两部分的时间开销构成

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航