hadoop 数据写入-物连天涯-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

物连天涯的ChinaUnix博客sunjiqiangwork.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 123846
博文数量： 91
博客积分： 167
博客等级：入伍新兵
技术积分： 530
用户组：普通用户
注册时间： 2012-05-22 17:26

文章分类

全部博文（91）

mysql（7）
算法（3）
windows（2）
java（6）
linux（24）
虚拟化（2）
hive（2）
python（7）
物联网（14）
hbase（2）
IT杂谈（9）
hadoop（11）
未分配的博文（2）

文章存档

2012年（91）

我的朋友

最近访客

推荐博文

相关博文

hadoop 数据写入

分类：服务器与存储

2012-09-24 00:40:55

Client以数据块（Block）为单位进行数据存储。按照我们一般的理解，Client向HDFS写入数据，首先需要向NameNode申请Block；申请Block完成后，申请DataNode（包括备份存储的DataNode）；二者完成后，Clent进行与DataNode之间的数据存储。

我们知道NameNode之中维护两张非常重要的表，一张是filename→blocks的映射；另外一张是block→machinelist的映射。如果是我进行设计，这两张表都可以在申请的时候完成记录。HDFS在在实现过程中，采用了另外一种方式。首先filename→blocks是在申请过程中进行记录的。当Client申请Block的时候，NameNode分配Block给客户端，并将该Block记录到该File的INode当中；在申请Block的时候，NameNode还会将DataNode和备份存储的DataNode发送给Client。但是，此时NameNode并没有记录Block和DataNode（machinelist)的映射关系。Client向DataNode写入数据完成后，由DataNode向NameNode周期性的进行汇报，报告自己节点所存储的所有Block（思考一下，为什么这么实现？）。我自己以为之所以要这么实现主要是为了考虑数据的可靠性，如果在Client和数据的传输过程中数据出现了问题，那么已经记录在NameNode 中的block→machinelist就会随之改变。当然这只是我自己的考虑，正确与否还有待考证。另外还有一个需要考虑的问题是，DataNode报告自己的block列表的频率是多少呢？

本篇文章来源于 Linux公社网站() 原文链接：

阅读(545) | 评论(0) | 转发(0) |

0

上一篇：hadoop实战--单词串的统计

下一篇：Linux下用shell脚本来做算术的各种方法

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们