分类: C/C++
2013-02-18 09:59:42
数据结构是对在计算机内存中(有时在磁盘中)的数据的一种安排。数据结构包括数组、链表、栈、二叉树、哈希表等等。算法对这些结构中的数据进行各种处理。例如,查找一条特殊的数据项或对数据进行排序。
掌握这些知识以后可以解决哪些问题呢?
现实世界数据存储
程序员的工具
建模
数据结构的特性:
数组:优点是插入快,如果知道下标,可以非常快地存取。缺点是查找慢,删除慢,大小固定。
有序数组:优点是比无序的数据查找快。缺点是删除和插入慢,大小固定。
栈:优点是提供后进先出方式的存取。缺点是存取其他项很慢。
队列:提供先进先出方式的存取。缺点是存取其他项很慢。
链表:优点是插入快,删除快。缺点是查找慢。
二叉树:优点是查找、插入、删除都快(如果树保持平衡)。缺点是删除算法复杂。
红-黑树:查找、插入、删除都快。树总是平衡的。缺点是算法复杂。
2-3-4树:优点是查找、插入、删除都快。树总是平衡的。类似的树对磁盘存储有用。缺点是算法复杂。
哈希表:优点是如果关键字已知则存取极快。插入快。缺点是删除慢,如果不知道关键字则存取很慢,对存储空间使用不充分。
堆:优点是插入、删除快,对最大数据项的存取很快。缺点是对其他数据项存取慢。
图:优点是对现实世界建模。缺点是有些算法且复杂。
对于大多数数据结构来说,都需要知道如何插入一条新的数据项,如何寻找某一特定的数据项,如何删除某一特定的数据项,还需要知道如何迭代地访问某一数据结构中的各数据项,以便进行显示或其他操作。另一种重要的算法范畴是排序。
一、通用数据结构:数组,链表,树,哈希表
它们被称之为通用的数据结构是因为它们通过关键字的值来存储并查找数据,这一点在通用数据库程序中常见到(栈等特殊结构正好相反,它们只允许存取一定的数据项)。
通用数据结构可以完全按照速度的快慢来分类:
数组和链表是最慢的,树相对较快,哈希表是最快的。
但并不是使用最快的结构永远是最好的方案。这些最快的结构也有缺陷,首先,它们的程序在不同程度上比数组和链表的复杂;其次,哈希表要求预先知道要存储多少数据,数据对存储空间的利用率也不是非常高。普通的二叉树对顺序的数据来说,会变成缓慢的O(N)级操作;而平衡树虽然避免了上述的问题,但是它的程序编制起来却比较困难。
数组在下列情况下很有用:
数据量较小
数据量的大小事先可预测
如果存储空间足够大的话,可以放松第二条,创建一个足够大的数组来应付所有可以预见的数据输入。
如果插入速度很重要的话,使用无序数组。如果查找速度很重要的话,使用有序数组,并用二分查找。数组元素的删除总是很慢,这是由于为了填充空出来的单元,平均半数以上的数组元素要被移动。在有序数组中的遍历是很快的,而在无序的数组不支持这种功能。
向量(如Java中的向量类)是一种当数据太满时可以自己扩充空间的数组。向量可以应用于数据量不可预知的情况下。然而,在向量扩充时,要将旧的数据拷入一个新的空间中,这一过程会造成程序明显的周期性暂停。
如果需要存储的数据量不能预知或者需要频繁地插入删除数据元素时,考虑使用链表。当有新的元素加入时,链表就开辟新的所需要的空间,所以它甚至可以占满全部可用内存;在删除过程中没有必要像数组那样添补“空洞”。
二、专用数据结构:栈,队列,优先级队列
三、排序:插入排序,希尔排序,快速排序,归并排序,堆排序
四、图:邻接矩阵,邻接表
五、外部存储:顺序存储,索引文件,B-树,哈希方法