首页　| 　博文目录　| 　关于我

博客访问： 10556380
博文数量： 1669
博客积分： 16831
博客等级：上将
技术积分： 12594
用户组：普通用户
注册时间： 2011-02-25 07:23

个人简介

柔中带刚，刚中带柔，淫荡中富含柔和，刚猛中荡漾风骚，无坚不摧，无孔不入！

文章分类

全部博文（1669）

NGINX（1）
MongoDB（2）
docker（8）
shadowsocks（1）
CloudFoundry（11）
CloudStack（102）
openstack（61）
PHP（0）
mail（0）
hadoop（25）
GemFire（1）
文件系统（4）
CDN（7）
下载及资源（15）
数据缓存（8）
web 加速（9）
分布式文件系统架（23）
虚拟化（133）
同步（6）
网站架构（50）
windows 监控（15）
mysql 监控（5）
oracle 监控（2）
linux 监控（24）
web 监控（35）
其他数据库（27）
备份恢复（28）
VPN及认证（24）
云系统（29）
windows（29）
WEB 故障（13）
mysql 备份（10）
oracle 集群（15）
HA及负载均衡（52）
存储（66）
shell（39）
web 应用（19）
mysql 优化（16）
mysql 故障（14）
mysql 安全（8）
mysql 配置（29）
mysql 应用（10）
web 安全（21）
SAN交换路由（26）
web 优化（46）
基础解释（24）
linux 安全（37）
linux 故障（22）
linux 应用（85）
linux 配置（64）
web 配置（23）
oracle 备份（33）
UNIX（12）
Solaris（5）
Aix（1）
oracle 配置（69）
oracle 优化（62）
oracle 安全（10）
oracle 应用（30）
交流（29）
oracle 故障（59）
linux 优化（31）
未分配的博文（4）

文章存档

2023年（4）

2022年（1）

2021年（10）

2020年（24）

2019年（4）

2018年（19）

2017年（66）

2016年（60）

2015年（49）

2014年（201）

2013年（221）

2012年（638）

2011年（372）

我的朋友

0 概述：

所有的Hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

The general command line syntax is:

hadoop [--config confdir][COMMAND][GENERIC_OPTIONS][COMMAND_OPTIONS]

命令选项描述：

命令选项	描述
--config confdir	覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf
GENERIC_OPTIONS	多个命令都支持的通用选项。
COMMAND	各种各样的命令被分为用户命令和管理命令两组。
Hadoop	有一个选项解析框架用于解析一般的选项和运行类。

1 常规选项：

下面的选项被dfsadmin，fs，fsck，和job支持。应用程序要实现Tool接口来支持常规选项。

GENERIC_OPTION	Description
-conf	指定应用程序的配置文件
-D	为指定property指定值value
-fs	指定namenode
-jt	指定job tracker，只适用于job
-files <逗号分隔的文件列表>	指定要拷贝到map reduce集群的文件的逗号分隔的列表，只是用与job
-libjars <逗号分隔的jar列表>	指定要包含到classpath中的jar文件的逗号分隔的列表。只适用于job
-archives <逗号分隔的archive列表>	指定要被解压到计算节点上的档案文件的逗号分割的列表。只适用于job。

2 用户命令：

Hadoop集群用户的常用命令

2.1 archive

用法编号	命令样式	功能
1	hadoop archive –archiveName *	创建一个hadoop档案文件

用法1：

命令选项	描述
-archiveName	要创建的档案的名字
src	文件系统的路径名，和通常含正则表达的一样
Dest	保存档案文件的目录目标

2.2 distcp

用法编号	命令样式	功能
2	hadoop distcp	递归地拷贝文件或目录

用法2：

命令选项	描述
srcurl	文件或目录的源url
desturl	文件或目录的目标url

2.3 fs

用法编号	命令样式	功能
3	hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]	运行一个常规的文件系统客户端

2.4 fsck

用法编号	命令样式	功能
4	hadoop fsck [GENERIC_OPTIONS] [-move \| -delete \| -openforwrite] [-files [-blocks [-locations \| -racks]]]	运行HDFS文件系统检查工具

用法4：

命令选项	描述
	检查的起始目录
-move	移动受损文件到/lost+found
-delete	删除受损文件
-openforwrite	打印出写打开的文件
-files	打印出正被检查的文件
-blocks	打印出块信息报告
-locations	打印出每个块的位置信息
-racks	打印出data-node的网络拓扑结构

2.5 jar

用法编号	命令样式	功能
5	hadoop jar [mainClass] args	运行jar文件

用户可以把他们的Map Reduce代码捆绑到jar文件中，使用这个命令执行

2.6 job

用法编号	命令样式	功能
6	hadoop job [GENERIC_OPTIONS] [-submit ] \| [-status ] \| [-counter ] \| [-kill ] \| [-events <#-of-events>] \| [-history [all] ] \| [-list [all]] \| [-kill-task ] \| [-fail-task ]	运行jar文件

用法6

命令选项	描述
-submit	提交作业
-status	打印map和reduce完成百分比和所有计数器。
-counter	打印计数器的值。
-kill	杀死指定作业。
-events <#-of-events>	打印给定范围内jobtracker接收到的事件细节。
-history [all]	-history 打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务，做过的任务尝试等信息可以通过指定[all]选项查看。
-list [all]	-list all显示所有作业。-list只显示将要完成的作业。
-kill-task	杀死任务。被杀死的任务不会不利于失败尝试。
-fail-task	使任务失败。被失败的任务会对失败尝试不利。

2.7 pipes

用法编号	命令样式	功能
7	hadoop pipes [-conf ] [-jobconf , , ...] [-input ] [-output ] [-jar ] [-inputformat ] [-map ] [-partitioner ] [-reduce ] [-writer ] [-program ] [-reduces ]	运行pipes作业

用法7

命令选项	描述
-conf	作业的配置
-jobconf , , ...	增加/覆盖作业的配置项
-input	输入目录
-output	输出目录
-jar	Jar文件名
-inputformat	InputFormat类
-map	Java Map类
-partitioner	Java Partitioner
-reduce	Java Reduce类
-writer	Java RecordWriter
-program	可执行程序的URI
-reduces	reduce个数

2.8 version

用法编号	命令样式	功能
8	hadoop version	打印版本信息

2.9 CLASSNAME

用法编号	命令样式	功能
9	hadoop CLASSNAME	hadoop脚本可用于调调用任何类

3 管理命令

hadoop集群管理员常用的命令。

3.1 balancer

用法编号	命令样式	功能
10	hadoop balancer [-threshold ]	运行集群平衡工具

管理员可以简单的按Ctrl-C来停止平衡过程。

用法10：

命令选项	描述
-threshold	磁盘容量的百分比。这会覆盖缺省的阀值。

3.2 daemonlog

用法编号	命令样式	功能
11	hadoop daemonlog -getlevel	获取或设置每个守护进程的日志级别
12	hadoop daemonlog -setlevel	同上

用法11,，12：

命令选项	描述
-getlevel	打印运行在的守护进程的日志级别。这个命令内部会连接
-setlevel	设置运行在的守护进程的日志级别。这个命令内部会连接

3.3 datanode

用法编号	命令样式	功能
13	hadoop datanode [-rollback]	运行一个HDFS的datanode。

命令选项	描述
-rollback	将datanode回滚到前一个版本。这需要在停止datanode，分发老的hadoop版本之后使用。

3.4 dfsadmin

用法编号	命令样式	功能
14	hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode enter \| leave \| get \| wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress status \| details \| force] [-metasave filename] [-setQuota ...] [-clrQuota ...] [-help [cmd]]	运行一个HDFS的dfsadmin客户端

命令选项			描述
- report			报告文件系统的基本信息和统计信息
-safemode enter\| leave\| get \| wait			安全模式维护命令。安全模式是Namenode的一个状态，这种状态下，Namenode 1. 不接受对名字空间的更改(只读) 2. 不复制或删除块 Namenode会在启动时自动进入安全模式，当配置的块最小百分比数满足最小的副本数条件时，会自动离开安全模式。安全模式可以手动进入，但是这样的话也必须手动关闭安全模式。
-refreshNodes			重新读取hosts和exclude文件，更新允许连到Namenode的或那些需要退出或入编的Datanode的集合。
-finalizeUpgrade			终结HDFS的升级操作。Datanode删除前一个版本的工作目录，之后Namenode也这样做。这个操作完结整个升级过程。
-upgradeProgress status\|details \| force			请求当前系统的升级状态，状态的细节，或者强制升级操作进行。
-metasave filename			保存Namenode的主要数据结构到hadoop.log.dir属性指定的目录下的文件。对于下面的每一项，中都会一行内容与之对应 1. Namenode收到的Datanode的心跳信号 2. 等待被复制的块 3. 正在被复制的块 4. 等待被删除的块
-setQuota ...			为每个目录设定配额。目录配额是一个长整型整数，强制限定了目录树下的名字个数。命令会在这个目录上工作良好，以下情况会报错： 1. N不是一个正整数，或者 2. 用户不是管理员，或者 3. 这个目录不存在或是文件，或者 4. 目录会马上超出新设定的配额。
-clrQuota ...			为每一个目录清除配额设定。命令会在这个目录上工作良好，以下情况会报错： 1. 这个目录不存在或是文件，或者 2. 用户不是管理员。如果目录原来没有配额不会报错。
-help [cmd]			显示给定命令的帮助信息，如果没有给定命令，则显示所有命令的帮助信息。

3.5 jobtracker

用法编号	命令样式	功能
15	hadoop jobtracker	运行MapReduce job Tracker节点

3.6 namenode

用法编号	命令样式	功能
16	hadoop namenode [-format] \| [-upgrade] \| [-rollback] \| [-finalize] \| [-importCheckpoint]	运行namenode。有关升级，回滚，升级终结的更多信息请参考升级和回滚

命令选项	描述
-format	格式化namenode。它启动namenode，格式化namenode，之后关闭namenode。
-upgrade	分发新版本的hadoop后，namenode应以upgrade选项启动。
-rollback	将namenode回滚到前一版本。这个选项要在停止集群，分发老的hadoop版本后使用。
-finalize	finalize会删除文件系统的前一状态。最近的升级会被持久化，rollback选项将再不可用，升级终结操作之后，它会停掉namenode。
-importCheckpoint	从检查点目录装载镜像并保存到当前检查点目录，检查点目录由fs.checkpoint.dir指定。

3.7 secondarynamenode

用法编号	命令样式	功能
17	hadoop secondarynamenode [-checkpoint [force]] \| [-geteditsize]	运行HDFS的secondary namenode。

命令选项	描述
-checkpoint [force]	如果EditLog的大小 >= fs.checkpoint.size，启动Secondary namenode的检查点过程。如果使用了-force，将不考虑EditLog的大小。
-geteditsize	打印EditLog大小。

3.8 tasktracker

用法编号	命令样式	功能
18	hadoop tasktracker	运行MapReduce的task Tracker节点

Hadoop命令大全
本节比较全面的向大家介绍一下Hadoop命令，欢迎大家一起来学习，希望通过本节的介绍大家能够掌握一些常见Hadoop命令的使用方法。下面是Hadoop命令的详细介绍。
Hadoop命令大全
1、列出所有HadoopShell支持的命令$bin/hadoopfs-help
2、显示关于某个命令的详细信息$bin/hadoopfs-helpcommand-name
3、用户可使用以下命令在指定路径下查看历史日志汇总$bin/hadoopjob-historyoutput-dir
这条命令会显示作业的细节信息，失败和终止的任务细节。
4、关于作业的更多细节，比如成功的任务，以及对每个任务的所做的尝试次数等可以用下面的命令查看
$bin/hadoopjob-historyalloutput-dir
5、格式化一个新的分布式文件系统：$bin/hadoopnamenode-format
6、在分配的NameNode上，运行下面的Hadoop命令启动HDFS：$bin/start-dfs.sh
bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。
7、在分配的JobTracker上，运行下面的命令启动Map/Reduce：$bin/start-mapred.sh
bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。
8、在分配的NameNode上，执行下面的Hadoop命令停止HDFS：$bin/stop-dfs.sh
bin/stop-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止DataNode守护进程。
9、在分配的JobTracker上，运行下面的命令停止Map/Reduce：$bin/stop-mapred.sh
bin/stop-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止TaskTracker守护进程。DFSShell
10、创建一个名为/foodir的目录$bin/hadoopdfs-mkdir/foodir
11、创建一个名为/fodir的目录$bin/hadoopdfs-mkdir/fodir
12、查看名为/foodir/myfile.txt的文件内容$bin/hadoopdfs-cat/foodir/myfile.txt
DFSAdmin
13、将集群置于安全模式
$bin/hadoopdfsadmin-safemodeenter
14、显示Datanode列表$bin/hadoopdfsadmin-report
15、使Datanode节点datanodename退役$bin/hadoopdfsadmin-decommissiondatanodename
16、bin/hadoopdfsadmin-help命令能列出所有当前支持的命令。比如：
*-report：报告HDFS的基本统计信息。有些信息也可以在NameNodeWeb服务首页看到。*-safemode：虽然通常并不需要，但是管理员的确可以手动让NameNode进入或离开安全模式。*-finalizeUpgrade：删除上一次升级时制作的集群备份。
17、显式地将HDFS置于安全模式$bin/hadoopdfsadmin-safemode
18、在升级之前，管理员需要用（升级终结操作）Hadoop命令删除存在的备份文件$bin/hadoopdfsadmin-finalizeUpgrade
19、能够知道是否需要对一个集群执行升级终结操作。$dfsadmin-upgradeProgressstatus
20、使用-upgrade选项运行新的版本$bin/start-dfs.sh-upgrade
21、如果需要退回到老版本,就必须停止集群并且部署老版本的Hadoop，用回滚选项启动集群$bin/start-dfs.h-rollback
22、下面的新命令或新选项是用于支持配额的。前两个是管理员命令。*dfsadmin-setquota...
把每个目录配额设为N。这个命令会在每个目录上尝试，如果N不是一个正的长整型数，目录不存在或是文件名，或者目录超过配额，则会产生错误报告。*dfsadmin-clrquota...
为每个目录删除配额。这个命令会在每个目录上尝试，如果目录不存在或者是文件，则会产生错误报告。如果目录原来没有设置配额不会报错。*fs-count-q...
使用-q选项，会报告每个目录设置的配额，以及剩余配额。如果目录没有设置配额，会报告none和inf。
23、创建一个hadoop档案文件
$hadooparchive-archiveNameNAME*-archiveNameNAME要创建的档案的名字。
src文件系统的路径名，和通常含正则表达的一样。dest保存档案文件的目标目录。
24、递归地拷贝文件或目录
$hadoopdistcpsrcurl源Url
desturl目标Url。请期待下节关于Hadoop命令的介绍。

常见Hadoop命令使用方法详解
本节继续和大家一起学习一下Hadoop命令的使用方法，在学习Hadoop时只有了解了Hadoop命令如何使用，才能更好的对Hadoop进行操作，下面让我们一起来学习Hadoop命令吧。
version
此Hadoop命令用来打印版本信息。用法：hadoopversionCLASSNAME
hadoop脚本可用于调调用任何类。用法：hadoopCLASSNAME运行名字为CLASSNAME的类。管理命令
hadoop集群管理员常用的命令。
balancer
运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。参考Rebalancer了解更多。
用法：hadoopbalancer[-threshold]
命令选项描述
-threshold磁盘容量的百分比。这会覆盖缺省的阀值。
daemonlog
此Hadoop命令用来获取或设置每个守护进程的日志级别。用法：hadoopdaemonlog-getlevel用法：hadoopdaemonlog-setlevel
命令选项描述
-getlevel打印运行在的守护进程的日志级别。这个命令内部会连接
-setlevel设置运行在的守护进程的日志级别。这个命令内部会连接
datanode
运行一个HDFS的datanode。用法：hadoopdatanode[-rollback]
命令选项描述

-rollback将datanode回滚到前一个版本。这需要在停止datanode，分发老的hadoop版本之后使用。
dfsadmin
此Hadoop命令用来运行一个HDFS的dfsadmin客户端。
命令选项描述
-report报告文件系统的基本信息和统计信息。
-safemodeenter|leave|get|wait安全模式维护命令。安全模式是Namenode的一个状态，这种状态下，Namenode
1.不接受对名字空间的更改(只读)2.不复制或删除块
Namenode会在启动时自动进入安全模式，当配置的块最小百分比数满足最小的副本数条件时，会自动离开安全模式。安全模式可以手动进入，但是这样的话也必须手动关闭安全模式。-refreshNodes重新读取hosts和exclude文件，更新允许连到Namenode的或那些需要退出或入编的Datanode的集合。
-finalizeUpgrade终结HDFS的升级操作。Datanode删除前一个版本的工作目录，之后Namenode也这样做。这个操作完结整个升级过程。
-upgradeProgressstatus|details|force请求当前系统的升级状态，状态的细节，或者强制升级操作进行。
-metasavefilename保存Namenode的主要数据结构到hadoop.log.dir属性指定的目录下的文件。
对于下面的每一项，中都会一行内容与之对应1.Namenode收到的Datanode的心跳信号2.等待被复制的块3.正在被复制的块4.等待被删除的块
-setQuota...为每个目录设定配额。
目录配额是一个长整型整数，强制限定了目录树下的名字个数。命令会在这个目录上工作良好，以下情况会报错：1.N不是一个正整数，或者2.用户不是管理员，或者
3.这个目录不存在或是文件，或者4.目录会马上超出新设定的配额。
-clrQuota...为每一个目录清除配额设定。命令会在这个目录上工作良好，以下情况会报错：1.这个目录不存在或是文件，或者2.用户不是管理员。
如果目录原来没有配额不会报错。
-help[cmd]显示给定命令的帮助信息，如果没有给定命令，则显示所有命令的帮助信息。
jobtracker
此Hadoop命令用来运行MapReducejobTracker节点。用法：hadoopjobtracker
namenode
运行namenode。有关升级，回滚，升级终结的更多信息请参考升级和回滚。
用法：hadoopnamenode[-format]|[-upgrade]|[-rollback]|[-finalize]|[-importCheckpoint]
命令选项描述
-format格式化namenode。它启动namenode，格式化namenode，之后关闭namenode。-upgrade分发新版本的hadoop后，namenode应以upgrade选项启动。
-rollback将namenode回滚到前一版本。这个选项要在停止集群，分发老的hadoop版本后使用。-finalizefinalize会删除文件系统的前一状态。最近的升级会被持久化，rollback选项将再不可用，升级终结操作之后，它会停掉namenode。
-importCheckpoint从检查点目录装载镜像并保存到当前检查点目录，检查点目录由fs.checkpoint.dir指定。
secondarynamenode
运行HDFS的secondarynamenode。参考SecondaryNamenode了解更多。用法：hadoopsecondarynamenode[-checkpoint[force]]|[-geteditsize]
命令选项描述
-checkpoint[force]如果EditLog的大小>=fs.checkpoint.size，启动Secondarynamenode的检查点过程。如果使用了-force，将不考虑EditLog的大小。-geteditsize打印EditLog大小。tasktracker
运行MapReduce的taskTracker节点。
用法：hadooptasktracker。本节关于Hadoop命令使用方法介绍到这里。

阅读(1194) | 评论(0) | 转发(0) |

上一篇：nginx与lighttpd性能简单对比

下一篇：Hadoop集群与Hadoop性能优化

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6