在多硬盘情况下的Hadoop配置注意项-zzjlzx-ChinaUnix博客

zzjlzxzzjlzx.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zzjlzx

博客访问： 10592357
博文数量： 1669
博客积分： 16831
博客等级：上将
技术积分： 12594
用户组：普通用户
注册时间： 2011-02-25 07:23

个人简介

柔中带刚，刚中带柔，淫荡中富含柔和，刚猛中荡漾风骚，无坚不摧，无孔不入！

文章分类

全部博文（1669）

NGINX（1）
MongoDB（2）
docker（8）
shadowsocks（1）
CloudFoundry（11）
CloudStack（102）
openstack（61）
PHP（0）
mail（0）
hadoop（25）
GemFire（1）
文件系统（4）
CDN（7）
下载及资源（15）
数据缓存（8）
web 加速（9）
分布式文件系统架（23）
虚拟化（133）
同步（6）
网站架构（50）
windows 监控（15）
mysql 监控（5）
oracle 监控（2）
linux 监控（24）
web 监控（35）
其他数据库（27）
备份恢复（28）
VPN及认证（24）
云系统（29）
windows（29）
WEB 故障（13）
mysql 备份（10）
oracle 集群（15）
HA及负载均衡（52）
存储（66）
shell（39）
web 应用（19）
mysql 优化（16）
mysql 故障（14）
mysql 安全（8）
mysql 配置（29）
mysql 应用（10）
web 安全（21）
SAN交换路由（26）
web 优化（46）
基础解释（24）
linux 安全（37）
linux 故障（22）
linux 应用（85）
linux 配置（64）
web 配置（23）
oracle 备份（33）
UNIX（12）
Solaris（5）
Aix（1）
oracle 配置（69）
oracle 优化（62）
oracle 安全（10）
oracle 应用（30）
交流（29）
oracle 故障（59）
linux 优化（31）
未分配的博文（4）

文章存档

2023年（4）

2022年（1）

2021年（10）

2020年（24）

2019年（4）

2018年（19）

2017年（66）

2016年（60）

2015年（49）

2014年（201）

2013年（221）

2012年（638）

2011年（372）

我的朋友

在多硬盘情况下的Hadoop配置注意项

分类： hadoop 收藏2012-04-23 20:04 280人阅读评论(0) 收藏举报

原文地址：http://blog.csdn.net/dajuezhao/article/details/6797015

一、背景

1、最近在做hadoop的性能测试，采用了自带的Terasort的方式，但是在运行的过程中发现如果数据量过大，对硬盘I/O需求不小（通过Ganglia监控发现），因此，打算找找看是否有合适的配置来解决这样一类的问题，所以才有了这篇记录的文档。

2、在做修改之前，当然必须确认slave的多块硬盘没有做任何形式的raid。

二、修改配置

1、hdfs-site.xml中的

[html]view plaincopy
					
				<property>  
			
				  <name>dfs.data.dirname>  
			
				  <value>/data1,/data2,/data3,/data4,/data5,/data6,/data7value>  
			
				  <description>Determines where on the local filesystem an DFS data node  
			
				  should store its blocks.  If this is a comma-delimited  
			
				  list of directories, then data will be stored in all named  
			
				  directories, typically on different devices.  
			
				  Directories that do not exist are ignored.  
			
				  description>  
			
				property>

这个配置注意看就明白，每个/data1就是一个硬盘目录，中间采用英文的逗号分隔。其中写的英文说明也比较清楚。

2、mapred-site.xml中的

[html]view plaincopy
					
				<property>  
			
				  <name>mapred.local.dirname>  
			
				  <value>/data1/mapred/local,/data2/mapred/local,/data3/mapred/local,/data4/mapred/local,/data5/mapred/local,/data6/mapred/local,/data7/mapred/localvalue>  
			
				  <description>The local directory where MapReduce stores intermediate  
			
				  data files.  May be a comma-separated list of  
			
				  directories on different devices in order to spread disk i/o.  
			
				  Directories that do not exist are ignored.  
			
				  description>  
			
				property>

这个参数的主要中做就是在MR的过程中，将一些需要临时写到本地硬盘的数据分开写到多个盘中，降低各个硬盘的I/O压力，提升速度。之所以发现这个问题也是在MR的过程中通过ganglia发现一个硬盘的I/O压力巨大无比，而其他硬盘没有负载，所以才会发现需要修改这个配置。Ganglia真是个好东西啊！

三、总结

1、至于是不是要做raid，网上很多文章也写过，多数是说实现了软件的备份，我认为不仅如此，在主板支持的情况下，多硬盘多线程读写速度还是很可观的。

2、最后说一个，不做raid可以节约硬件的成本，虽然谈不上多贵，但是当数量大了之后价值就可观了。需要说明一下，我用的都是7200的SATA盘。

阅读(1663) | 评论(0) | 转发(0) |

上一篇：设置/etc/fstab实现自动挂载

下一篇： hadoop 各类key value分隔符参数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6