分类: C/C++
2010-06-14 00:36:31
程序员可以使用的基本排序算法有5种:
·插入排序(insertionsort.)
·交换排序(exchangesort)
·选择排序(selectionsort)
·归并排序(mergesort)
·分布排序(distributionsort)
为了形象地解释每种排序算法是怎样工作的,让我们来看一看怎样用这些方法对桌上一付乱序的牌进行排序。牌既要按花色排序(依次为梅花、方块、红桃和黑心),还要按点数排序(从2到A)。
插入排序的过程为:从一堆牌的上面开始拿牌,每次拿一张牌,按排序原则把牌放到手中正确的位置。桌上的牌拿完后,手中的牌也就排好序了。
交换排序的过程为:
(1)先拿两张牌放到手中。如果左边的牌要排在右边的牌的后面,就交换这两张牌的位置。
(2)然后拿下一张牌,并比较最右边两张牌,如果有必要就交换这两张牌的位置。
(3)重复第(2)步,直到把所有的牌都拿到手中。
(4)如果不再需要交换手中任何两张牌的位置,就说明牌已经排好序了;否则,把手中的牌放到桌上,重复(1)至(4)步,直到手中的牌排好序。
选择排序的过程为:在桌上的牌中找出最小的一张牌,拿在手中;重复这种操作,直到把所有牌都拿在手中。
归并排序的过程为:把桌上的牌分为52堆,每堆为一张牌。因为每堆牌都是有序的(记住,此时每堆中只有一张牌),所以如果把相邻的两堆牌合并为一堆,并对每堆牌进行排序,就可以得到26堆已排好序的牌,此时每一堆中有两张牌。重复这种合并操作,就可以依次得到13堆牌(每一堆中有4张牌),7堆牌(有6堆是8张牌,还有一堆是4张牌),最后将得到52张的一堆牌。
分布排序(也被称作radix sort,即基数排序)的过程为:先将牌按点数分成13堆,然后将这13堆牌按点数顺序叠在一起;再将牌按花色分成4堆,然后将这4堆牌按花色顺序叠在一起,牌就排好序了。
在选用排序算法时,你还需要了解以下几个术语:
(1)自然的(natural)
如果某种排序算法对有序的数据排序速度较快(工作量变小),对无序的数据排序速度却较慢(工作变量大),我们就称这种排序算法是自然的。如果数据已接近有序,就需要考虑选用自然的排序算法。
(2)稳定的(stable)
如果某种排序算法能保持它认为相等的数据的前后顺序,我们就称这种排序算法是稳定的。
例如,现有以下名单:
Mary Jones
Mary Smith
Tom Jones
Susie Queue
如果用稳定的排序算法按姓对上述名单进行排序,那么在排好序后"Mary Jones”和"Tom Jones”将保持原来的Jr顺序,因为它们的姓是相同的。
稳定的排序算法可按主、次关键字对数据进行排序,例如按姓和名排序(换句话说,主要按姓排序,但对姓相同的数据还要按名排序)。在具体实现时,就是先按次关键字排序,再按主关键字排序。
(3)内部排序(internal sort)和外部排序(external sort)
待排数据全部在内存中的排序方法被称为内部排序,待排数据在磁盘、磁带和其它外存中的排序方法被称为外部排序。
和排序算法一样,查找(searching)算法也是计算机科学中研究得最多的问题之一。查找算法和排序算法是有联系的,因为许多查找算法依赖于要查找的数据集的有序程度。基本的查找算法有以下4种:
·顺序查找(sequential searching)。
·比较查找(comparison searching)
·基数查找(radix searching)
·哈希查找(hashing)
下面仍然以一付乱序的牌为例来描述这些算法的工作过程。
顺序查找的过程为:从第一张开始查看每一张牌,直到找到要找的牌。
比较查找(也被称作binarysearching,即折半查找)要求牌已经排好序,其过程为:任意抽一张牌,如果这张牌正是要找的牌,则查找过程结束。如果抽出的这张牌比要找的牌大,则在它前面的牌中重复查找操作;反之,则在它后面的牌中重复查找操作,直到找到要找的牌。
基数查找的过程为:先将牌按点数分成13堆,或者按花色分成4堆。然后找出与要找的牌的点数或花色相同的那一堆牌,再在这堆牌中用任意一种查找算法找到要找的牌。
哈希查找的过程为:
(1)在桌面上留出可以放若干堆牌的空间,并构造一个函数,使其能根据点数和花色将牌映射到特定的堆中(这个函数被称为hashfunction,即哈希函数)。
(2)根据哈希函数将牌分成若干堆。
(3)根据哈希函数找到要找的牌所在的堆,然后在这一堆牌中找到要找的牌。
例如,可以构造这样一个哈希函数:
pile=rank+suit
其中,rank是表示牌的点数的一个数值;suit是表示牌的花色的一个数值;pile表示堆值,它将决定一张牌归入到哪一堆中。如果用1,2,……,13分别表示A,2,…….K,用0,1,2和3分别表示梅花、方块、红桃和黑桃,则pile的值将为1,2,……,16,这样就可以把一付牌分成16堆。
哈希查找虽然看上去有些离谱,但它确实是一种非常实用的查找算法。各种各样的程序,从压缩程序(如Stacker)到磁盘高速缓存程序(如SmartDrive),几乎都通过这种方法来提高查找速度,
有关排序和查找的一个主要问题就是速度。这个问题经常被人们忽视,因为与程序的其余部分相比,排序或查找所花费的时间几乎可以被忽略。然而,对大多数排序或查找应用来说,你不必一开始就花很多精力去编制一段算法程序,而应该先在现成的算法中选用一种最简单的(见3.1和3.4),当你发现所用的算法使程序运行很慢时,再换用一种更好的算法(请参见下文中的介绍)。
下面介绍一种判断排序或查找算法的速度的方法。
首先,引入一个算法的复杂度的概念,它指的是在各种情况(最好的、最差的和平均的)下排序或查找需要完成的操作次数,通过它可以比较不同算法的性能。
算法的复杂度与排序或查找所针对的数据集的数据量有关,因此,引入一个基于数据集数据量的表达式来表示算法的复杂度。
最快的算法的复杂度O(1),它表示算法的操作次数与数据量无关。复杂度O(N)(N表示数据集的数据量)表示算法的操作次数与数据量直接相关。复杂度O(logN)介于上述两者之间,它表示算法的操作次数与数据量的对数有关。复杂度为O(NlogN)(N乘以logN)的算法比复杂度为O(N)的算法要慢,而复杂度为O(N2)的算法更慢。
注意:如果两种算法的复杂度都是O(logN),那么logN的基数较大的算法的速度要快些,在本章的例子中,logN的基数均为10。
表3.1 本章所有算法的复杂度
-----------------------------------------------------------------
算 法 最好情况 平均情况 最坏情况
-----------------------------------------------------------------
快速排序 O(NlogN) O(NlogN) O(N2)
归并排序 O(N) O(NlogN) O(NlogN)
基数排序 O(N) O(N) O(N)
线性查找 O(N)
折半查找 O(NlogN)
哈希查找 O(N/M)*
健树查找 O(1)**
-----------------------------------------------------------------
* M是哈希表项的数目
** 实际上相当于有232个哈希表项的哈希查找
表3. 1列出了本章所有算法的复杂度。对于排序算法,表中给出了最好的、平均的和最差的情况下的复杂度,平均情况是指数据随机排列的情况;排序算法的复杂度视数据的初始排列情况而定,它一般介于最好的和最差的两种情况之间。对于查找算法,表中只给出了平均情况下的复杂度,在最好的情况(即要找的数据恰好在第一次查找的位置)下,查找算法的复杂度显然是O(1);在最坏的情况(即要找的数据不在数据集中)下,查找算法的复杂度通常与平均情况下的复杂度相同。
需要注意的是,算法的复杂度只表示当N值变大时算法的速度变慢的程度,它并不表示算法应用于给定大小的数据集时的实际速度。算法的实际速度与多种因素有关,包括数据集的数据类型以及所用的编程语言、编译程序和计算机等。换句话说,与复杂度高的算法相比,复杂度低的算法并不具备绝对的优越性。实际上,算法的复杂度的真正意义在于,当N值大于某一数值后,复杂度低的算法就会明显比复杂度高的算法快。
为了说明算法的复杂度和算法的实际执行时间之间的关系,表3.2列出了本章所有例子程序的执行时间。本章所有例子程序均在一台以Linux为操作系统的90MHz奔腾计算机上由GNU C编译程序编译,在其它操作系统中,这些例子程序的执行时间与表3.2所列的时间是成比例的。
表3. 2 本章所有例子程序的执行时间
---------------------------------------------------------------------------
例子程序 算 法 2000 4000 6000 8000 10000
---------------------------------------------------------------------------
例3.1 qsort() 0.02 0.05 0.07 0.11 0,13
例3.2a 快速排序 0.02 0.07 0.13 0.18 0.20
例3.2b 归并排序 0.03 0.08 0.14 0.18 0.26
例3.2c 基数排序 0.07 0.15 0.23 0.30 0.39
例3.4 bsearch() 0. 37 0.39 0.39 0.40 0.41
例3.5 折半查找 0.32 0.34 0.34 0.36 0.36
例3.6 线性查找 9.67 20.68 28.71 36.31 45. 51
例3.7 键树查找 0.27 0.28 0.29 0.29 0.30
例3.8 哈希查找 0.25 0.26 0.28 0.29 0.28
---------------------------------------------------------------------------
注意:(1)表中所列的时间以秒为单位。(2)表中所列的时间经过统一处理,只包括排序或查找所花费的时间。(3)2000等数值表示数据集的数据量。(4)数据集中的数据是从文件/usr/man/manl/gcc.1(GNUC编译程序中的一个文件)中随机提取的词。(5)在查找算法中,要查找的数据是从文件/usr/man/manl/g++.1(GNUC++编译程序中的一个文件)中随机提取的词。(6)函数qsort()和bseareh()分别是C标准库函数中用于快速排序算法和折半查找算法的函数,其余例子程序是专门为本章编写的。
在阅读完以上内容后,你应该能初步体会到如何根据不同的情况来选用一种合适的排序或查找算法。在Donald E.Knuth所著的《The Art Of Computer Programming,Volume 3,Sorting and Searching》一书中,作者对排序和查找算法进行了全面的介绍,在该书中你将读到更多关于复杂度和复杂度理论的内容,并且能见到比本章中所提到的更多的算法。
公用代码
本章中的许多例子程序是可以直接编译运行的。在这些例子程序中,许多代码是相同的, 这些相同的代码将统一在本章的末尾列出。