Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1898852
  • 博文数量: 211
  • 博客积分: 464
  • 博客等级: 下士
  • 技术积分: 3794
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-24 18:25
个人简介

阿弥陀佛

文章分类

全部博文(211)

文章存档

2020年(2)

2019年(3)

2018年(5)

2017年(6)

2016年(10)

2015年(9)

2014年(73)

2013年(90)

2012年(13)

分类: HADOOP

2014-07-11 10:42:56


bin/hadoop jar hadoop-examples-1.1.2.jar teragen 80000000 terasort/1-input
对teragen产生的数据进行排序,方法如下所示:
bin/hadoop jar hadoop-examples-1.1.2.jar terasort terasort/1-input terasort/1G-output1
一个reduce任务在一台机器上运行。hadoop默认只开启一个reduce任务,运行完整个任务,时间在14min左右,将reduce任务数调至2的时候,hadoop的运行时间缩短到了11~12min左右。
在terasort产生数据的时候,会在input目录中产生一个_partition.lst文件,这个文件是terasort产生的采样分区文件,每个reduce根据这个文件对数据进行并发的分段排序,并将结果存入到HDFS上。

在master的mapred-site.xml中设置reduce任务的数量。
     
        mapred.reduce.tasks
        4
     

  否则默认只会有一个reduce任务在运行。
 
 当datanode采用btrfs的时候,发现datanode根本起不来,我查看namenode的信息,并没有相关的日志,后来到datanode节点上看发现,是由于权限的问题,创建完btrfs之后,对于该目录,拥有者并没有写入文件的权限。所以到该目录下使用
chmod u+w /mnt/sdb1即可实现对文件的写入了。
阅读(3880) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~