Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3049102
  • 博文数量: 535
  • 博客积分: 15788
  • 博客等级: 上将
  • 技术积分: 6507
  • 用 户 组: 普通用户
  • 注册时间: 2007-03-07 09:11
文章分类

全部博文(535)

文章存档

2016年(1)

2015年(1)

2014年(10)

2013年(26)

2012年(43)

2011年(86)

2010年(76)

2009年(136)

2008年(97)

2007年(59)

分类: 云计算

2011-10-27 13:45:36

转自: ~boliangfeng/blog/?p=486

我在这里主要说明一下Hadoop的replication policies。

我们知道当我们要write data到datanode时,首先要通过namenode确定文件是否已经存在,若不存在则DataStreamer会请求namenode确定新分配的block的位置,然后就行write。

具体namenode如何确定选择哪个datanode存储数据呢?这里namenode会参考可靠性,读写的带宽等因素来确定。具体如下说明:

假设replica factor=3,Hadoop会将第一个replica放到client  node里,这里node是随机选择的,当然hadoop还是想不要选择过于busy过于full的node;

第二个replica会随机选择和第一个不在同一rack的node;

第三个replica放到和第二个一样的rack里,但是随机选择一个不同的node。

如果replica factor更大则其他副本随即在cluster里选择。当然这里hadoop还是随机的,尽管我们都知道尽量不要吧更多的replica放到同一个rack里,这不仅影响可靠性而且读写的带宽有可能成为瓶颈。

当replica的location确定之后,write的pipline就会建成,里面是被分解的data packets,然后按照网络的拓扑结构进行操作。

总的来说,这个策略综合考虑了

可靠性:blocks存储在两个不同的rack里;

写带宽:写操作只用经过一个网络转换器network switch;

读性能:可以选择从两个rack中读数据;

分布性:client只是将block写入本地rack一次。

阅读(2790) | 评论(0) | 转发(0) |
0

上一篇:关于hadoop的dfs.replication

下一篇:hadoop lzo

给主人留下些什么吧!~~