Chinaunix首页 | 论坛 | 博客
  • 博客访问: 107720
  • 博文数量: 29
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 397
  • 用 户 组: 普通用户
  • 注册时间: 2014-12-26 15:36
文章分类

全部博文(29)

文章存档

2016年(3)

2015年(13)

2014年(13)

我的朋友

分类: 系统运维

2014-12-26 18:45:34


一、Hadoop服务命令


格式化工作空间


进入bin目录,运行 ./hadoop namenode –format


启动hdfs

进入hadoop目录,bin/下面有很多启动脚本,可以根据自己的需要来启动。

* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack

* stop-all.sh 停止所有的Hadoop

* start-mapred.sh 启动Map/Reduce守护。包括JobtrackerTasktrack

* stop-mapred.sh 停止Map/Reduce守护

* start-dfs.sh 启动Hadoop DFS守护NamenodeDatanode

* stop-dfs.sh 停止DFS守护  


hadoop-daemon.sh 命令:


./hadoop-daemon.sh start/stop namenode

./hadoop-daemon.sh start/stop secondarynamenode

./hadoop-daemon.sh start/stop jobtracker

./hadoop-daemon.sh start/stop datanode

./hadoop-daemon.sh start/stop tasktracker


二、Hadoop Shell


概述

所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。


用法:

hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop有一个选项解析框架用于解析一般的选项和运行类。


命令选项

--config confdir 覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf

GENERIC_OPTIONS 多个命令都支持的通用选项。

COMMAND

命令选项 各种各样的命令和它们的选项会在下面提到。这些命令被分为 用户命令 管理命令两组。


常规选项

下面的选项被 dfsadmin, fs, fsckjob支持。 应用程序要实现 Tool来支持 常规选项。

GENERIC_OPTION 描述

-conf 指定应用程序的配置文件。

-D 为指定property指定值value

-fs 指定namenode

-jt 指定job tracker。只适用于job

-files <逗号分隔的文件列表> 指定要拷贝到map reduce集群的文件的逗号分隔的列表。 只适用于job

-libjars <逗号分隔的jar列表> 指定要包含到classpath中的jar文件的逗号分隔的列表。 只适用于job

-archives <逗号分隔的archive列表> 指定要被解压到计算节点上的档案文件的逗号分割的列表。 只适用于job


用户命令

hadoop集群用户的常用命令。

archive


创建一个hadoop档案文件。参考 Hadoop Archives.

用法:hadoop archive -archiveName NAME *

命令选项 描述

-archiveName NAME 要创建的档案的名字。

src 文件系统的路径名,和通常含正则表达的一样。

dest 保存档案文件的目标目录。


distcp


递归地拷贝文件或目录。参考DistCp指南以获取等多信息。

用法:hadoop distcp

命令选项 描述

srcurl Url

desturl 目标Url


[hadoop@DataNode03 ~]$ hadoop distcp /data_new /imos_data

[hadoop@DataNode03 ~]$ hadoop fs -ls /imos_data/data_new

Found 12 items

-rw-r--r-- 3 hadoop supergroup 72720745 2013-10-17 16:47 /imos_data/data_new/imos_log_20131016230000_V1R6_5min.log.tar.gz

-rw-r--r-- 3 hadoop supergroup 1389921 2013-10-17 16:47 /imos_data/data_new/imosother_log_20131016230000_V1R6_5min.log.tar.gz


不同集群间使用方法:

[hadoop@Slave3 ~]$ hadoop distcp hdfs://10.0.2.75:54310/input/dui /distcp/

Or

[hadoop@Slave3 ~]$ hadoop distcp hdfs://10.0.2.75:54310/input/dui hdfs://10.0.2.58:54310/distcp/


查看:

[hadoop@Slave3 ~]$ hadoop fs -ls /distcp

Found 2 items

drwxr-xr-x - hadoop supergroup 0 2013-11-20 17:32 /distcp/_distcp_logs_j7ji12

drwxr-xr-x - hadoop supergroup 0 2013-11-20 17:32 /distcp/dui

[hadoop@Slave3 ~]$ hadoop fs -ls /distcp/dui

Found 6 items

-rw-r--r-- 2 hadoop supergroup 14224179 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.aser.gz

-rw-r--r-- 2 hadoop supergroup 30984730 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.cook.gz

-rw-r--r-- 2 hadoop supergroup 9735220 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.fser.gz

-rw-r--r-- 2 hadoop supergroup 456947612 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.gene.gz

-rw-r--r-- 2 hadoop supergroup 107209520 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.spec.gz

-rw-r--r-- 2 hadoop supergroup 4437913 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.topn.gz


fs

用法:hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]

运行一个常规的文件系统客户端。

各种命令选项可以参考HDFS Shell指南。

fsck


运行HDFS文件系统检查工具。参考Fsck了解更多。

用法:hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

命令选项 描述

检查的起始目录。

-move 移动受损文件到/lost+found

-delete 删除受损文件。

-openforwrite 打印出写打开的文件。

-files 打印出正被检查的文件。

-blocks 打印出块信息报告。

-locations 打印出每个块的位置信息。

-racks 打印出data-node的网络拓扑结构。


[hadoop@NameNode01 ~]$ hadoop fsck /input -files -locations -racks -delete

FSCK started by hadoop (auth:SIMPLE) from /10.0.2.75 for path /input at Wed Nov 20 17:53:27 CST 2013

/input

/input/dui

/input/dui/dui_20131102_2355.aser.gz 14224179 bytes, 1 block(s): OK

/input/dui/dui_20131102_2355.cook.gz 30984730 bytes, 1 block(s): OK

/input/dui/dui_20131102_2355.fser.gz 9735220 bytes, 1 block(s): OK

/input/dui/dui_20131102_2355.gene.gz 456947612 bytes, 7 block(s): OK

/input/dui/dui_20131102_2355.spec.gz 107209520 bytes, 2 block(s): OK

/input/dui/dui_20131102_2355.topn.gz 4437913 bytes, 1 block(s): OK

Status: HEALTHY

Total size: 623539174 B

Total dirs: 2

Total files: 6

Total blocks (validated): 13 (avg. block size 47964551 B)

Minimally replicated blocks: 13 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3

Average block replication: 3.0

Corrupt blocks: 0

Missing replicas: 0 (0.0 %)

Number of data-nodes: 4

Number of racks: 1

FSCK ended at Wed Nov 20 17:53:27 CST 2013 in 3 milliseconds


[hadoop@NameNode01 ~]$ hadoop fsck -racks

FSCK started by hadoop (auth:SIMPLE) from /10.0.2.75 for path / at Wed Nov 20 17:44:49 CST 2013

................................Status: HEALTHY

Total size: 624055703 B

Total dirs: 41

Total files: 32

Total blocks (validated): 33 (avg. block size 18910778 B)

Minimally replicated blocks: 33 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3 副本数

Average block replication: 3.0

Corrupt blocks: 0 破损的block

Missing replicas: 0 (0.0 %)

Number of data-nodes: 4

Number of racks: 1

FSCK ended at Wed Nov 20 17:44:49 CST 2013 in 27 milliseconds

jar


运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中,使用这个命令执行。

用法:hadoop jar [mainClass] args...

streaming作业是通过这个命令执行的。参考Streaming examples中的例子。

Word count例子也是通过jar命令运行的。参考Wordcount example


job

用于和Map Reduce作业交互和命令。

用法:hadoop job [GENERIC_OPTIONS] [-submit ] | [-status ] | [-counter ] | [-kill ] | [-events <#-of-events>] | [-history [all] ] | [-list [all]] | [-kill-task ] | [-fail-task ]

命令选项 描述

-submit 提交作业

-status 打印mapreduce完成百分比和所有计数器。

-counter 打印计数器的值。

-kill 杀死指定作业。

-events <#-of-events> 打印给定范围内jobtracker接收到的事件细节。

-history [all] -history 打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务,做过的任务尝试等信息可以通过指定[all]选项查看。

-list [all] -list all显示所有作业。-list只显示将要完成的作业。

-kill-task 杀死任务。被杀死的任务不会不利于失败尝试。

-fail-task 使任务失败。被失败的任务会对失败尝试不利。


pipes


运行pipes作业。

用法:hadoop pipes [-conf ] [-jobconf , , ...] [-input ] [-output ] [-jar ] [-inputformat ] [-map ] [-partitioner ] [-reduce ] [-writer ] [-program ] [-reduces ]

命令选项 描述

-conf 作业的配置

-jobconf , , ... 增加/覆盖作业的配置项

-input 输入目录

-output 输出目录

-jar Jar文件名

-inputformat InputFormat

-map Java Map

-partitioner Java Partitioner

-reduce Java Reduce

-writer Java RecordWriter

-program 可执行程序的URI

-reduces reduce个数


version


打印版本信息。

用法:hadoop version

[hadoop@NameNode01 ~]$ hadoop version

Hadoop 0.20.2-cdh3u5

Subversion svn://10.0.2.251/other/DP/platform/offline/hadoop/cluster/trunk/hadoop-0.20.2-cdh3u5 -r 19148

Compiled by root on Tue Feb 5 10:54:59 CST 2013

From source with checksum a7e2eac2a2d524445ae15ab38b691d8f


CLASSNAME


hadoop脚本可用于调调用任何类。

用法:hadoop CLASSNAME

运行名字为CLASSNAME的类。


管理命令

hadoop集群管理员常用的命令。


balancer

运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。参考Rebalancer了解更多。

用法:hadoop balancer [-threshold ]

命令选项 描述

-threshold 磁盘容量的百分比。这会覆盖缺省的阀值。

[hadoop@NameNode01 ~]$ hadoop balancer

Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being Moved

13/10/17 17:45:58 INFO net.NetworkTopology: Adding a new node: /default-rack/10.0.2.217:50010

13/10/17 17:45:58 INFO net.NetworkTopology: Adding a new node: /default-rack/10.0.2.218:50010

13/10/17 17:45:58 INFO net.NetworkTopology: Adding a new node: /default-rack/10.0.2.216:50010

13/10/17 17:45:58 INFO balancer.Balancer: 0 over utilized nodes:

13/10/17 17:45:58 INFO balancer.Balancer: 3 under utilized nodes: 10.0.2.217:50010 10.0.2.218:50010 10.0.2.216:50010

The cluster is balanced. Exiting...

Balancing took 2.153 seconds


获取或设置每个守护进程的日志级别。

用法:hadoop daemonlog -getlevel

用法:hadoop daemonlog -setlevel

命令选项 描述

-getlevel 打印运行在的守护进程的日志级别。这个命令内部会连接

-setlevel 设置运行在的守护进程的日志级别。这个命令内部会连接


datanode

运行一个HDFSdatanode

用法:hadoop datanode [-rollback]

命令选项 描述

-rollback datanode回滚到前一个版本。这需要在停止datanode,分发老的hadoop版本之后使用。


dfsadmin

运行一个HDFSdfsadmin客户端。

用法:hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode enter | leave | get | wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress status | details | force] [-metasave filename] [-setQuota ...] [-clrQuota ...] [-help [cmd]]

命令选项 描述

-report 报告文件系统的基本信息和统计信息。

-safemode enter | leave | get | wait 安全模式维护命令。安全模式是Namenode的一个状态,这种状态下,Namenode

1. 不接受对名字空间的更改(只读)

2. 不复制或删除块

Namenode会在启动时自动进入安全模式,当配置的块最小百分比数满足最小的副本数条件时,会自动离开安全模式。安全模式可以手动进入,但是这样的话也必须手动关闭安全模式。

-refreshNodes 重新读取hostsexclude文件,更新允许连到Namenode的或那些需要退出或入编的Datanode的集合。

-finalizeUpgrade 终结HDFS的升级操作。Datanode删除前一个版本的工作目录,之后Namenode也这样做。这个操作完结整个升级过程。

-upgradeProgress status | details | force 请求当前系统的升级状态,状态的细节,或者强制升级操作进行。

-metasave filename 保存Namenode的主要数据结构到hadoop.log.dir属性指定的目录下的文件。对于下面的每一项,中都会一行内容与之对应

1. Namenode收到的Datanode的心跳信号

2. 等待被复制的块

3. 正在被复制的块

4. 等待被删除的块

-setQuota ... 为每个目录 设定配额。目录配额是一个长整型整数,强制限定了目录树下的名字个数。

命令会在这个目录上工作良好,以下情况会报错:

1. N不是一个正整数,或者

2. 用户不是管理员,或者

3. 这个目录不存在或是文件,或者

4. 目录会马上超出新设定的配额。

-clrQuota ... 为每一个目录清除配额设定。

命令会在这个目录上工作良好,以下情况会报错:

1. 这个目录不存在或是文件,或者

2. 用户不是管理员。

如果目录原来没有配额不会报错。

-help [cmd] 显示给定命令的帮助信息,如果没有给定命令,则显示所有命令的帮助信息。


jobtracker

运行MapReduce job Tracker节点。

用法:hadoop jobtracker


namenode

运行namenode。有关升级,回滚,升级终结的更多信息请参考升级和回滚。

用法:hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]

命令选项 描述

-format 格式化namenode。它启动namenode,格式化namenode,之后关闭namenode

-upgrade 分发新版本的hadoop后,namenode应以upgrade选项启动。

-rollback namenode回滚到前一版本。这个选项要在停止集群,分发老的hadoop版本后使用。

-finalize finalize会删除文件系统的前一状态。最近的升级会被持久化,rollback选项将再不可用,升级终结操作之后,它会停掉namenode

-importCheckpoint 从检查点目录装载镜像并保存到当前检查点目录,检查点目录由fs.checkpoint.dir指定。


secondarynamenode

运行HDFSsecondary namenode。参考Secondary Namenode了解更多。

用法:hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]

命令选项 描述

-checkpoint [force] 如果EditLog的大小 >= fs.checkpoint.size,启动Secondary namenode的检查点过程。 如果使用了-force,将不考虑EditLog的大小。

-geteditsize 打印EditLog大小。


tasktracker

运行MapReducetask Tracker节点。

用法:hadoop tasktracker

hadoop fs -count的结果含义

最近要对hdfs上空间使用和文件结点使用增加报警,当超过一定的限额的时候就要发报警好通知提前准备。

[sunwg]$ hadoop fs -count /sunwg

2 1 108 hdfs://sunwg:9000/sunwg

第一个数值2表示/sunwg下的文件夹的个数,

第二个数值1表是当前文件夹下文件的个数,

第三个数值108表示该文件夹下文件所占的空间大小,这个大小是不计算副本的个数的

[sunwg]$ hadoop fs -count -q /sunwg

1024 1021 10240 10132 2 1 108 hdfs://sunwg:9000/sunwg

count后面增加 -q选项可以查看当前文件夹的限额使用情况,

第一个数值1024,表示总的文件包括文件夹的限额

第二个数值1021表示目前剩余的文件限额,即还可以创建这么多的文件或文件夹

第三个数值10240表示当前文件夹空间的限额

第四个数值10132表示当前文件夹可用空间的大小,这个限额是会计算多个副本的

剩下的三个数值与 -count的结果一样


Hadoop基本命令

1hadoop fs -mkdir /user/username 创建用户

2hadoop fs -chown user:user /user/username 设置权限

3hadoop dfsadmin -setSpaceQuota 1t /user/username 限制空间容量

4hadoop dfsadmin -saveNamespace 创建检查点,将内存中的文件熊映射保存为一个新的fsimage文件,重置edits文件,该操作仅在安全模式下执行

5hadoop dfsadmin -safemode get 查看namenode是否处于安全模式

6hadoop dfsadmin -safemode wait 在脚本中执行某条命令前namenode先退出安全模式

7hadoop dfsadmin -safemode enter 进入安全模式

8hadoop dfsadmin -safemode leave 离开安全模式

9hadoop dfsadmin -report 显示文件系统的统计信息,以及所连接的各个datanode的信息

10hadoop dfsadmin -metasave 将某些信息存储到hadoop日志目录中的一个文件中,包括正在被复制或删除的块信息,以及已连接的datanode列表

11hadoop dfsadmin -refreshNodes 更新允许连接到namenodedatanode列表

12hadoop dfsadmin -upgradeProgress 获取有关hdfs升级的进度信息或强制升级

13hadoop dfsadmin -finalizeUpgrade 移除datanodenamenode的存储目录上的旧版数据

14hadoop dfsadmin -setQuota 设置目录中包含的文件和子目录的个数的配额

15hadoop dfsadmin -clrQuota 清理指定目录的文件和子目录个数的配额

16hadoop dfsadmin -clrSpaceQuota 清理指定的空间大小配额

17hadoop dfsadmin -refreshServiceAcl 刷新namenode的服务级授权策略文件

18hadoop fsck / 检查hdfs中文件的健康状况,该工具会查找那些所有datanode中均缺失的块以及过少或过多复本的块

19hadoop fsck /user/tom/part-007 -files -blocks -racks files选项显示文件名称,大小,块数量,健康状况;block选项描述文件中各个块的信息,每个块一行;racks选项显示各个块的机架位置和 datanode的地址


解决主nemenode重启较慢的方法:(使用 -importCheckpoint选项启动辅助namenode,可将辅助namenode用作新的主namenode

1、辅助namenode请求主namenode停止使用edits(记录操作日志的文件)文件。暂时将新记录写操作记录到一个新文件中

2、辅助namenode从主namenode获取fsimage(元数据永久检查点文件)和edits文件(采用http get

3、辅助namenodefsimage文件载入内存,逐一执行edits文件中的操作,创建新的fsimage文件

4、辅助namenode将新的fsimage文件发送回主namenode(使用http post

5、主namenode用从辅助namenode接收的fsimage文件替换旧的fsimage文件,用步骤一所产生的edits文件替换旧的edits文件,同时,还更新fstime文件来记录检查点执行的时间


均衡器程序

start-balancer.sh -threshold 参数指定阀值(百分比格式),默认值是10%,任何时刻,集群中都只能运行一个均衡器,均衡器在不同节点之间复制数据是有带宽限制的,默认值是1mb/s


[hadoop@NameNode01 hadoop-0.20.2-cdh3u5]$ hadoop dfs -D dfs.replication=2 -put hadoop-core-0.20.2-cdh3u5.jar /input/234


[hadoop@NameNode01 hadoop-0.20.2-cdh3u5]$ hadoop fs -setrep -R 3 /input/123

Replication 3 set: hdfs://10.0.2.75:54310/input/123

[hadoop@NameNode01 hadoop-0.20.2-cdh3u5]$ hadoop fs -ls /input

Found 4 items

-rw-r--r-- 3 hadoop supergroup 3857257 2013-11-27 15:28 /input/123

-rw-r--r-- 2 hadoop supergroup 3857257 2013-11-27 15:29 /input/234

drwxr-xr-x - hadoop supergroup 0 2013-11-20 15:32 /input/dui

-rw-r--r-- 1 hadoop supergroup 3857257 2013-11-27 15:28 /input/hadoop-core-0.20.2-cdh3u5.jar


Hadoop配置文件总结


hdfs-site.xml

[hadoop@DataNode01 conf]$ cat hdfs-site.xml




dfs.replication

3


dfs.name.dir

${hadoop.tmp.dir}/dfs/name

Name Node 保存元数据和事务日志的本地目录,逗号分隔


fs.checkpoint.dir

${hadoop.tmp.dir}/dfs/checkpoint

SecondaryNameNode节点


dfs.data.dir

/data0/,/data1,/data2

文件的本地目录,逗号分隔的目录列表指定这些目录用于保存块文件


dfs.namenode.handler.count

100

namenode同时和datanode通信的线程数(>=datanode节点数)


dfs.datanode.handler.count

10

数据节点的服务连接处理线程数


dfs.datanode.max.xcievers

4096

该参数指定datanode可同时处理的最大文件数量


dfs.datanode.du.reserved

10240000000


dfs.safemode.threshold.pct

0.9


fs.trash.interval

1440


dfs.client.block.write.retries

3

块写入出错时的重试次数



core-site.xml

[hadoop@DataNode01 conf]$ cat core-site.xml




hadoop.tmp.dir

/home/hadoop/hadoop-0.20.2-cdh3u5/hadoop-tmp-${user.name}


fs.default.name

hdfs://10.0.2.75:54310


mapred.temp.dir

${hadoop.tmp.dir}/mapred/temp

mapred临时文件存放目录


hadoop.logfile.size

10000000

日志文件最大为10M


hadoop.logfile.count

10

日志文件数量为10


io.file.buffer.size

131072

流文件的缓冲区为128k


fs.trash.interval

1440

设置保留时间为1440(1),回收站的位置在HDFS上的 /user/$USER/.Trash/Current/


ipc.client.kill.max

10

一个客户端连接数最大值为10


ipc.client.connection.maxidletime

10000

断开与服务器连接的时间最大为10



mapred-site.xml

[hadoop@DataNode01 conf]$ cat mapred-site.xml




mapred.job.tracker

10.0.2.219:54311


mapred.local.dir

${hadoop.tmp.dir}/mapred-local

本地文件系统下逗号分割的路径列表,Map/Reduce临时数据存放的地方。


mapred.system.dir

${hadoop.tmp.dir}/mapred/system

mapred存放控制文件所使用的文件夹,可配置多块硬盘,逗号分隔。


mapred.reduce.slowstart.completed.maps

0.40

这个值是和“运行完的map数除以总map数”做判断的,当后者大于等于设定的值时,开始reduceshuffle。所以当mapreduce的执行时间多很多时,可以调整这个值(0.75,0.80,0.85及以上)


mapred.jobtracker.restart.recover

true

重启时开启任务恢复,默认false


mapred.jobtracker.taskScheduler

org.apache.hadoop.mapred.CapacityTaskScheduler


mapred.queue.names

datamining,analysis,platform,default


mapred.jobtracker.taskScheduler.maxRunningTasksPerJob

160

作业同时运行的任务数的最大值


mapred.max.tracker.blacklists

45

任务管理跟踪器的黑名单列表的数量


mapred.reduce.tasks.speculative.execution

false


io.sort.mb

100

排序文件的内存缓存大小为100M


io.sort.spill.percent

0.80

当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。


mapreduce.jobtracker.staging.root.dir

${hadoop.tmp.dir}/mapred/staging

每个正在运行作业文件的存放区


mapred.job.map.memory.mb

1024


mapred.job.reduce.memory.mb

1024


mapred.temp.dir

${hadoop.tmp.dir}/mapred/temp

临时共享文件存放区


local.cache.size

10737418240

缓存大小设置为10GB


mapred.child.java.opts

-Xmx1024m

map/reduce的并发数量(总和不大于CPU核数) × mapred.child.java.opts 该节点机器的总内存


mapred.map.tasks

2

每个作业缺省的map任务数为2


mapred.tasktracker.map.tasks.maximum

3

任管管理器可同时运行map任务数为3,map:reduce 3:1 = cpu 核数


mapred.tasktracker.reduce.tasks.maximum

1

任管管理器可同时运行reduce任务数为1,map:reduce 3:1 = cpu 核数


mapred.reduce.tasks

3

每个作业缺省的mapred任务数为1


mapreduce.reduce.input.limit

-1

Reduce输入量的限制, 值为-1意味着没有限制设置


mapred.job.reuse.jvm.num.tasks

1

How many tasks to run per jvm. If set to -1, there is no limit.每虚拟机运行的任务数

















阅读(1348) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~