Ceph：可扩展、高性能的分布式文件系统-chenjintao

chenjintao_ii的ChinaUnix博客chenjintao.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

chenjintao_ii

博客访问： 321290
博文数量： 42
博客积分： 451
博客等级：下士
技术积分： 890
用户组：普通用户
注册时间： 2011-03-03 18:24

文章分类

全部博文（42）

MySQL（1）
良文转转（2）
KnownIssues（5）
动手操作（12）
编程小段（7）
临时谈（2）
未分配的博文（13）

文章存档

2015年（1）

2013年（9）

2012年（19）

2011年（13）

我的朋友

相关博文

Ceph：可扩展、高性能的分布式文件系统

分类：服务器与存储

2012-07-26 16:01:38

Ceph-A Scalable, High-Performance Distributed File System.doc

图1：Ceph文件系统架构。客户可以直接与OSD进行IO交互操作。

每个进程都可以直接与客户连接或者与挂载的文件系统交互。

概述：

Ceph文件系统包含三个主要部分（见图1）：

1、客户端：客户端要求能够提供类POSIX文件系统接口的能力（通俗来说，就是能与类POSIX文件系统进行交互操作的客户端）；

2、对象存储设备（OSD）集群：存储所有数据和元数据；

3、元数据服务器（MDS）集群：管理命名空间（文件名称和目录），保证数据的安全性和一致性。

之所以成Ceph提供的接口是类POSIX，是因为它能适当地扩展接口以及有选择性地放宽一致性语义限制（所谓一致性语义，就是多个用户同时存取一个文件时需要的策略，比如两个用户同时对某文件写入不同的数据，就会产生数据的不一致，一致性语义就是要解决这类问题——译者注），从而获得更好的应用体验、提升系统性能。

Ceph主要的目标还是可扩展性（可存储几百个PB的数据）、高性能和高可靠性。可扩展性需从多方面考虑：整体存储容量；系统的吞吐量；各个客户端、目录和文件的性能。我们的工作负载是：几千台主机同一时刻对同一个文件进行几百万次并发读写，或者同时在某个目录下创建文件。这种只有在超级计算机集群进行科学运算时才出现的场景，将会在未来普遍出现。更重要的是我们认识到分布式文件系统的负载能力是动态的：随着时间的推移，实际应用中数据和元数据的组织结构的不断改进，分布式文件系统的负载能力将会有很大的提高。Ceph通过以下三个基本的设计特性，来保证高性能、高可靠性和高可用性的同时，还能保证可扩展性：将数据和元数据分开存储，动态分布元数据管理，以及可靠的自动（reliable autonomic）分布式对象存储。

文件IO和用户权限

当一个进程打开一个文件，客户端会向元数据服务器（MDS）集群发送一个请求。MDS通过文件系统目录结构将文件名转换为文件节点，此节点包含一个唯一的节点号、文件拥有者、文件模式（mode）、文件大小以及其他文件的元数据信息。如果文件存在并且允许访问，则MDS返回节点号、文件大小和一些文件拆分成对象的策略的信息（对象存储设备基于对象存储数据，即将一个文件分割成多份，装在不同的存储设备上，这样的好处是可以成倍成倍地提高读写文件速度。对于用户来说，看到的还是一个完整的文件，文件的分割、重组策略完全由存储服务器集群决定——译者注）。MDS还可以给客户指定一些权限，允许客户执行某些操作，目前这些权限包括四个方面：读、读缓存、写、写缓存，由4个比特指定。将来这种权限会包括密钥，用于客户端在授权的情况下才能读写数据（当前Ceph标准信任所有用户）。然后，MDS介入文件IO的管理，解决数据一致性问题。

Ceph掌握一系列的将文件分割并映射为对象的策略。为免除对记录文件位置的元数据的需求，对象名称简单地设为文件节点号加上分块（stripe）号。对象replicas通过CRUSH——一个闻名全球的映射函数（见5.1小节）——分配给OSD集群。例如，一个或多个用户读取某一个文件，MDS就给他们分配读文件以及读缓存信息的权限。如果用户拥有文件节点号、文件层次、文件大小的信息，就能获取该文件对应的所有对象的位置，就能直接从OSD集群读取该文件信息。任何不存在的对象或者字节序列，都被视为“黑洞”或zero。

当用户打开一个文件进行写操作时，Ceph提供用户写文件以及写缓存的权限，文件中产生的新数据会被保存在合适的OSD与合适的对象中。用户关闭文件后，放弃Ceph提供的权限，并且将新文件的大小的数据提供给MDS，刷新该文件对应的对象组信息。

阅读(6601) | 评论(0) | 转发(0) |

上一篇：【C语言】定时发送信号

下一篇：【C语言】popen的用法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6