Chinaunix首页 | 论坛 | 博客
  • 博客访问: 115598
  • 博文数量: 91
  • 博客积分: 167
  • 博客等级: 入伍新兵
  • 技术积分: 530
  • 用 户 组: 普通用户
  • 注册时间: 2012-05-22 17:26
文章分类

全部博文(91)

文章存档

2012年(91)

分类: 服务器与存储

2012-09-24 00:40:55

Client以数据块(Block)为单位进行数据存储。按照我们一般的理解,Client向HDFS写入数据,首先需要向NameNode申请Block;申请Block完成后,申请DataNode(包括备份存储的DataNode);二者完成后,Clent进行与DataNode之间的数据存储。
我们知道NameNode之中维护两张非常重要的表,一张是filename→blocks的映射;另外一张是block→machinelist的映射。如果是我进行设计,这两张表都可以在申请的时候完成记录。HDFS在在实现过程中,采用了另外一种方式。首先filename→blocks是在申请过程中进行记录的。当Client申请Block的时候,NameNode分配Block给客户端,并将该Block记录到该File的INode当中;在申请Block的时候,NameNode还会将DataNode和备份存储的DataNode发送给Client。但是,此时NameNode并没有记录Block和DataNode(machinelist)的映射关系。Client向DataNode写入数据完成后,由DataNode向NameNode周期性的进行汇报,报告自己节点所存储的所有Block(思考一下,为什么这么实现?)。我自己以为之所以要这么实现主要是为了考虑数据的可靠性,如果在Client和数据的传输过程中数据出现了问题,那么已经记录在NameNode 中的block→machinelist就会随之改变。当然这只是我自己的考虑,正确与否还有待考证。另外还有一个需要考虑的问题是,DataNode报告自己的block列表的频率是多少呢?

本篇文章来源于 Linux公社网站()  原文链接:
阅读(491) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~