Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。通过利用lineage信息,积极地使用内存,Tachyon的吞吐量要比HDFS高300多倍。Tachyon都是在内存中处理缓存文件,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。
它现在还处于开发状态,刚刚发布Alpha版本。当前它采用HDFS作为存储底层,在单个结点上支持本地文件系统。
Tachyon速度快得益于lineage-based recovery。以往实现容错往往需要copy多份副本,Tachyon没有这么做,它是靠保存程序来实现容错机制的。比如一个程序P,输入为A,输出为B,Tachyon保存的是程序P而不是B的多个副本,当B丢失找不到时,通过输入A重新生成B。
当然,实现lineage-based,这里需要三个前提:
1)数据是不变的
2)对于相同的输入,只有一个确定的输出
3)程序的大小远小于数据的大小
以上个人大体上的理解,更详细的信息见:
[tachyon主页]()
[Tachyon: Memory Throughput I/O for Cluster Computing Frameworks](~haoyuan/papers/2013_ladis_tachyon.pdf)
阅读(2756) | 评论(0) | 转发(0) |