2008年(8065)
分类: 服务器与存储
2008-05-19 15:48:30
几天前的文章显示大部分在线备份供应商在磁盘和磁带之间,似乎都更倾向于前者,这让我恍惚间觉得自己又回到了1999年,那个时候似乎利润已经不太重要了。同时考虑采购和能耗两个因素,那么倘若这些厂商使用磁带库、而不是磁盘的话,也许不但能够节省费用,还能够尽快地开始提供服务——也许服务的可靠性也会更高。
那些相信SATA能够帮助降低磁盘费用的人也许应该看看我去年发表的《使用SATA的真实成本》一文。如果你希望得到高性能和可靠性,磁盘不一定会便宜。
在线备份团体似乎正在磁盘备份的大道上稳步前进。我不相信这对于家庭备份、小型企业甚至大企业备份来说,是一个正确的决定,因为磁盘技术在很多方面都比磁带技术要贵很多,磁带技术在环保方面也具有更多的优势。一些在线备份厂商采用了MAID技术以降低能耗,但是磁带仍然比MAID要便宜,即使将MAID节省能耗的因素考虑在内也是如此。
成本
让我们比较一下不同厂商提供的不同技术。我之所以选择这些厂商并不是要推荐它们,只是因为这些厂商的产品价格可以很方便地通过网络查到。这也许不是绝对价格,但是我们只要有大致的价格,就足以进行比较了。
大型企业IBM磁带库的基本模块价格为38,365美元,扩展模块价格为28,125美元。它可以支持大约6,000个左右的插槽,以及同等数量的磁带驱动器。让我们假设你有20个LTO-4驱动器,每个驱动器的价格为16,710美元,LTO-4磁带价格为140美元/盒。整个磁带库的价格应该是1,634,439美元,使用了15个扩展单元;20个驱动器和6,000盒磁带。
未经压缩的总容量应该是4.6PB左右,压缩之后大约为9.2PB。在未经压缩的情况下,平均费用为357,049美元/PB,压缩情况下是178,524美元/PB。根据规格说明书,LTO-4压缩比为2:1。
现在让我们使用标准的针对SATA的RAID来实现同样的,因为备份和恢复和带来的性能瓶颈相比,对性能的影响几乎是微不足道。
我选择了Sun StorageTek 6940的磁盘控制器,它实际上是LSI的产品,被很多厂商贴牌使用。我采用的配置方式是每个托架上安放16个1TB的驱动器,用控制器连接12个托架,这样总容量就达到了192TB,价格为663,695美元。
对于Sun 6940的来说,在不压缩的情况下,LTO-4平均每PB的价格为3,456,745美元,压缩的情况下是178,524美元/PB。
这让磁盘比未经压缩的磁带要贵10倍。当然,有些情况需要说明:
能耗成本
如果选择磁盘技术的话,还需要考虑另外一项费用,这就是能耗。假设我的在线备份公司需要一个未经压缩容量为4.2PB的磁带库。磁带库的能耗非常小。如果使用活动的SATA驱动器的话,能耗就完全是另一回事了。4.6PB的SATA磁盘如果使用RAID-6 8+2增加可靠性的话,就需要5,250块磁盘,而且还没有计算任何热备。我还会增加3%的热备以求安全,这就是5,355块磁盘,平均每个托架16块磁盘的话,需要335个托架。在SATA驱动器上使用SAS接口的话,可靠性会比较高,每个驱动器能耗平均为13瓦。如果使用标准SATA接口,每个驱动器平均要耗费11.6瓦的电能。
总能耗计算是:5,355驱动器×13瓦/驱动器+335×375瓦/托架,也就是195千瓦。让我们按照0.10美分/千瓦时计算能耗费用。
|
这还没有包括所产生的热量BTU(英国热量单位),我发现比较好的估算方法是将费用乘以1.45倍。所以按照目前的能源价格,每年的能源费用为247,994美元,而目前的能源价格看起来在短期内不太可能降低。而且,磁盘驱动器不会压缩数据,而磁带驱动器可以在硬件层面自动完成数据压缩。这对于家庭备份来说问题不大,因为数据会使用预先压缩好的格式进行保存,例如jpg或者mp3,因此,最公平的比较方法是将未经压缩的磁带和未经压缩的磁盘进行对比,甚至在压缩比差不多的情况下也是如此。
性能
我们中绝大部分人在家或者公司都是通过线缆modem或者DSL连接访问的。我要说真正的数据运动速度一般都稳定在128Kb/秒到大约3Mb/秒左右。这意味着8MB的文件在低端连接速度的时候,需要传输512秒,而高端连接速度的情况下只需要21秒。我怀疑我们当中是否绝大部分人能够经常达到3Mb/秒的速度,起码对于线缆modem来说,是很困难的,而上传则永远达不到这个速度。
磁带挑选、装载和定位时间大约是69秒。显然,在有磁盘缓存的情况下,上传并不需要担心,因为数据被缓存到磁盘上,然后被写入。真正的问题出现在的时候。
这种类型的服务有两种情况:最多恢复几个文件;或者在遇到大灾难的情况下,恢复一切。如果我只需要恢复少量文件,不会同时产生任意文件,那么如果它们立刻没有排上队的话,可能每个文件我都需要等待69秒。如果它们立刻就排上了队,而磁带驱动器又可用的话,那么我可能只要忍受69秒的等待,之后所有的文件就会被存入。我会等69秒,然后就开始向磁带传输数据。如果我需要恢复大量的数据,HSM软件就将开始从磁带上为我准备这些文件,准备的速度比我在家或办公室需要恢复的电脑收取数据的速度要快得多。刚开始会有69秒的延迟,但是在恢复文件的时候,由于有连接带宽的限制,从磁带将数据读取到HSM磁盘缓存的速度就完全不构成影响了。所以,至少对于我来说,这完全没有问题。
当然,MAID的响应速度比磁带要快得多。MAID的能耗也比磁带小得多,但是同等容量的磁盘驱动器比磁带却贵得多。MAID仍然有RAID的问题,但不是8+2的问题,而是3+1的问题,所以奇偶中浪费的工件就更多了。如果你遇到了延迟问题,MAID确实可以解决它,但是在通过进行大文件恢复的时候,真的会遇到延迟的问题吗?
磁盘驱动器平均每个字节的费用要远高于磁带平均每个字节的费用,大量文件恢复的延迟问题会被HSM预备文件机制所掩盖,对在线备份使用活跃磁盘的做法有意义吗?如果你只是不小心删错了文件,并且想恢复你母亲在Sandy姑妈60岁大寿宴会上的照片,或者想恢复某个Barry White唱的歌,多等这一点点时间又何妨?撇开环保的问题不谈,为这种类型的应用浪费能源是否值得?既然磁带就足以胜任这些工作,为什么还要把大把的钱花在多耗费的能源或磁盘驱动器上?
我不认为有什么理由要这样做,除非问题在于缺乏技术力量。我经常说,HSM很难用,但是这不是我的专业。HSM从上个世纪70年代就已经出现了,经受了实际使用的考验。也许问题在于这种技术过于复杂,妨碍了人们使用HSM。无论存在的障碍是什么,我都认为在线备份厂商应该重新审视一下该技术。如果不存在其他的问题,那么一些富有进取心的在线备份厂商也许应该考虑使用这种虽然有点过时、但是仍然非常不错的磁带架构,并且以此在竞争中获得价格优势。