hadoop中使用lzo压缩格式支持笔记-jockeyzou-ChinaUnix博客

wisecool

首页　| 　博文目录　| 　关于我

jockeyzou

博客访问： 136640
博文数量： 69
博客积分： 2895
博客等级：少校
技术积分： 710
用户组：普通用户
注册时间： 2010-09-03 18:05

文章分类

全部博文（69）

GWT（1）
MySql（1）
Cassandra（9）
REST／webservice（3）
内容管理（12）
OpenAPI（0）
hadoop（18）
liunx操作系统（2）
云计算（0）
工作感悟（3）
web开发（1）
网站架构（4）
系统分析（2）
java编程（11）
软件工程（1）
电子商务（0）
python（1）
未分配的博文（0）

文章存档

2010年（69）

我的朋友

最近访客

推荐博文

hadoop中使用lzo压缩格式支持笔记

分类：

2010-09-09 13:35:53

通常hadoop中的mapreduce作业都会产生大量都中间，当要处理当原始非常大，并且在一定大map处理逻辑的情况下，这些中间文件会非常的大，hadoop mapreduce的中间文件是通过slave上hadoop-site.xml配置文件中的mapred.local.dir 配置选项来指定的。

    mapred.local.dir
    /disk1/mapred/local,/disk2/mapred/local

     虽然这个配置选项能够支持用逗号分隔的多个写入点，增加mapreduce程序的吞吐率，但是大量的中间文件，仍然是影响性能的一个因素，常常在 slave节点上用top查看进程性能或者iostat时，看到许多task进程的

iowait 非常的高，通常这样的作业的性能就是受到了类似的影响。由于mapreduce计算模型本身的特点，中间文件势必会有非常大的时候，这个问题，对于性能的影响就至关重要。

     几乎所有会产生大量map output的hadoop作业，都能够通过将中间文件用Lzo进行压缩来提升性能。尽管lzo会使得cpu的load有所增高，但是reduce在 shuffle阶段的disk IO通常都能节省不少时间，对job的性能有好处。
     当一个job需要产生大量的输出时，lzo压缩同时还可以在输出端提升job的性能。由于write操作通常默认都是要写3个副本，对每个文件的输出，就能节省3倍的写入时间。
     为了能够在hadoop系统中使用lzo分布式压缩，需要做一些事情，具体怎么弄写到另一篇里去好了，不过首先要注意的是，要将提交端的jobconf中的

mapred.compress.map.output参数成true。

    mapred.compress.map.output
    true

测试对比：
     根据cloudera的测试数据，在disable lzo 压缩的情况下运行的wordcount作业会比使用lzo压缩的情况要长一些，在job中加入的

FILE_BYTES_WRITTEN counter变量显示该数据从3.5GB上升到9.2GB，这表示，使用了lzo压缩的情况下，能够节省62%

的磁盘 IO，由于该实验是在集群上单独的跑这个job，没有跟其他job竞争计算资源，并且每个slave上的task/disk的比例都比较高，就是说并没有多少task在竞争disk，所以性能的提升并不是非常明显。在disk相对紧缺，多个task竞争disk的情况下，能够节省约60%的磁盘io，从而大大的提升job的效率。

阅读(692) | 评论(0) | 转发(0) |

上一篇：提高hadoop的mapreduce job效率笔记

下一篇：使hadoop支持Splittable压缩lzo

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6