分类:
2010-09-09 13:35:53
iowait 非常的高,通常这样的作业的性能就是受到了类似的影响。由于mapreduce计算模型本身的特点,中间文件势必会有非常大的时候,这个问题,对于性能的影响就至关重要。
mapred.compress.map.output参数成true。
mapred.compress.map.output
FILE_BYTES_WRITTEN counter变量显示该数据从3.5GB上升到9.2GB,这表示,使用了lzo压缩的情况下,能够节省62%
的磁盘 IO,由于该实验是在集群上单独的跑这个job,没有跟其他job竞争计算资源,并且每个slave上的task/disk的比例都比较高,就是说并没有 多少task在竞争disk,所以性能的提升并不是非常明显。在disk相对紧缺,多个task竞争disk的情况下,能够节省约60%的磁盘io,从而 大大的提升job的效率。