首页　| 　博文目录　| 　关于我

博客访问： 112540
博文数量： 29
博客积分： 0
博客等级：民兵
技术积分： 397
用户组：普通用户
注册时间： 2014-12-26 15:36

文章分类

全部博文（29）

Docker（1）
python（2）
数据库（2）
大数据（12）
Web（3）
监控（0）
操作系统（9）
未分配的博文（0）

文章存档

2016年（3）

2015年（13）

2014年（13）

我的朋友

一、Hadoop服务命令

格式化工作空间

进入bin目录，运行 ./hadoop namenode –format

启动hdfs

进入hadoop目录,在bin/下面有很多启动脚本，可以根据自己的需要来启动。

* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack

* stop-all.sh 停止所有的Hadoop

* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack

* stop-mapred.sh 停止Map/Reduce守护

* start-dfs.sh 启动Hadoop DFS守护Namenode和Datanode

* stop-dfs.sh 停止DFS守护

hadoop-daemon.sh 命令：

./hadoop-daemon.sh start/stop namenode

./hadoop-daemon.sh start/stop secondarynamenode

./hadoop-daemon.sh start/stop jobtracker

./hadoop-daemon.sh start/stop datanode

./hadoop-daemon.sh start/stop tasktracker

二、Hadoop Shell

概述

所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

用法：

hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop有一个选项解析框架用于解析一般的选项和运行类。

命令选项

--config confdir 覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf。

GENERIC_OPTIONS 多个命令都支持的通用选项。

COMMAND

命令选项各种各样的命令和它们的选项会在下面提到。这些命令被分为用户命令管理命令两组。

常规选项

下面的选项被 dfsadmin, fs, fsck和 job支持。应用程序要实现 Tool来支持常规选项。

GENERIC_OPTION 描述

-conf 指定应用程序的配置文件。

-D 为指定property指定值value。

-fs 指定namenode。

-jt 指定job tracker。只适用于job。

-files <逗号分隔的文件列表> 指定要拷贝到map reduce集群的文件的逗号分隔的列表。只适用于job。

-libjars <逗号分隔的jar列表> 指定要包含到classpath中的jar文件的逗号分隔的列表。只适用于job。

-archives <逗号分隔的archive列表> 指定要被解压到计算节点上的档案文件的逗号分割的列表。只适用于job。

用户命令

hadoop集群用户的常用命令。

distcp

递归地拷贝文件或目录。参考DistCp指南以获取等多信息。

用法：hadoop distcp

命令选项描述

srcurl 源Url

desturl 目标Url

[hadoop@DataNode03 ~]$ hadoop distcp /data_new /imos_data

[hadoop@DataNode03 ~]$ hadoop fs -ls /imos_data/data_new

Found 12 items

-rw-r--r-- 3 hadoop supergroup 72720745 2013-10-17 16:47 /imos_data/data_new/imos_log_20131016230000_V1R6_5min.log.tar.gz

-rw-r--r-- 3 hadoop supergroup 1389921 2013-10-17 16:47 /imos_data/data_new/imosother_log_20131016230000_V1R6_5min.log.tar.gz

不同集群间使用方法：

[hadoop@Slave3 ~]$ hadoop distcp hdfs://10.0.2.75:54310/input/dui /distcp/

[hadoop@Slave3 ~]$ hadoop distcp hdfs://10.0.2.75:54310/input/dui hdfs://10.0.2.58:54310/distcp/

查看：

[hadoop@Slave3 ~]$ hadoop fs -ls /distcp

Found 2 items

drwxr-xr-x - hadoop supergroup 0 2013-11-20 17:32 /distcp/_distcp_logs_j7ji12

drwxr-xr-x - hadoop supergroup 0 2013-11-20 17:32 /distcp/dui

[hadoop@Slave3 ~]$ hadoop fs -ls /distcp/dui

Found 6 items

-rw-r--r-- 2 hadoop supergroup 14224179 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.aser.gz

-rw-r--r-- 2 hadoop supergroup 30984730 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.cook.gz

-rw-r--r-- 2 hadoop supergroup 9735220 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.fser.gz

-rw-r--r-- 2 hadoop supergroup 456947612 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.gene.gz

-rw-r--r-- 2 hadoop supergroup 107209520 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.spec.gz

-rw-r--r-- 2 hadoop supergroup 4437913 2013-11-20 17:32 /distcp/dui/dui_20131102_2355.topn.gz

fs

用法：hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]

运行一个常规的文件系统客户端。

各种命令选项可以参考HDFS Shell指南。

fsck

运行HDFS文件系统检查工具。参考Fsck了解更多。

用法：hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

命令选项描述

检查的起始目录。

-move 移动受损文件到/lost+found

-delete 删除受损文件。

-openforwrite 打印出写打开的文件。

-files 打印出正被检查的文件。

-blocks 打印出块信息报告。

-locations 打印出每个块的位置信息。

-racks 打印出data-node的网络拓扑结构。

[hadoop@NameNode01 ~]$ hadoop fsck /input -files -locations -racks -delete

FSCK started by hadoop (auth:SIMPLE) from /10.0.2.75 for path /input at Wed Nov 20 17:53:27 CST 2013

/input

/input/dui

/input/dui/dui_20131102_2355.aser.gz 14224179 bytes, 1 block(s): OK

/input/dui/dui_20131102_2355.cook.gz 30984730 bytes, 1 block(s): OK

/input/dui/dui_20131102_2355.fser.gz 9735220 bytes, 1 block(s): OK

/input/dui/dui_20131102_2355.gene.gz 456947612 bytes, 7 block(s): OK

/input/dui/dui_20131102_2355.spec.gz 107209520 bytes, 2 block(s): OK

/input/dui/dui_20131102_2355.topn.gz 4437913 bytes, 1 block(s): OK

Status: HEALTHY

Total size: 623539174 B

Total dirs: 2

Total files: 6

Total blocks (validated): 13 (avg. block size 47964551 B)

Minimally replicated blocks: 13 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3

Average block replication: 3.0

Corrupt blocks: 0

Missing replicas: 0 (0.0 %)

Number of data-nodes: 4

Number of racks: 1

FSCK ended at Wed Nov 20 17:53:27 CST 2013 in 3 milliseconds

[hadoop@NameNode01 ~]$ hadoop fsck -racks

FSCK started by hadoop (auth:SIMPLE) from /10.0.2.75 for path / at Wed Nov 20 17:44:49 CST 2013

................................Status: HEALTHY

Total size: 624055703 B

Total dirs: 41

Total files: 32

Total blocks (validated): 33 (avg. block size 18910778 B)

Minimally replicated blocks: 33 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3 副本数

Average block replication: 3.0

Corrupt blocks: 0 破损的block数

Missing replicas: 0 (0.0 %)

Number of data-nodes: 4

Number of racks: 1

FSCK ended at Wed Nov 20 17:44:49 CST 2013 in 27 milliseconds

jar

运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中，使用这个命令执行。

用法：hadoop jar [mainClass] args...

streaming作业是通过这个命令执行的。参考Streaming examples中的例子。

Word count例子也是通过jar命令运行的。参考Wordcount example。

job

用于和Map Reduce作业交互和命令。

命令选项描述

-submit 提交作业

-status 打印map和reduce完成百分比和所有计数器。

-counter 打印计数器的值。

-kill 杀死指定作业。

-events <#-of-events> 打印给定范围内jobtracker接收到的事件细节。

-history [all] -history 打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务，做过的任务尝试等信息可以通过指定[all]选项查看。

-list [all] -list all显示所有作业。-list只显示将要完成的作业。

-kill-task 杀死任务。被杀死的任务不会不利于失败尝试。

-fail-task 使任务失败。被失败的任务会对失败尝试不利。

pipes

运行pipes作业。

用法：hadoop pipes [-conf ] [-jobconf , , ...] [-input ] [-output ] [-jar ] [-inputformat ] [-map ] [-partitioner ] [-reduce ] [-writer ] [-program ] [-reduces ]

命令选项描述

-conf 作业的配置

-jobconf , , ... 增加/覆盖作业的配置项

-input 输入目录

-output 输出目录

-jar Jar文件名

-inputformat InputFormat类

-map Java Map类

-partitioner Java Partitioner

-reduce Java Reduce类

-writer Java RecordWriter

-program 可执行程序的URI

-reduces reduce个数

version

打印版本信息。

用法：hadoop version

[hadoop@NameNode01 ~]$ hadoop version

Hadoop 0.20.2-cdh3u5

Subversion svn://10.0.2.251/other/DP/platform/offline/hadoop/cluster/trunk/hadoop-0.20.2-cdh3u5 -r 19148

Compiled by root on Tue Feb 5 10:54:59 CST 2013

From source with checksum a7e2eac2a2d524445ae15ab38b691d8f

CLASSNAME

hadoop脚本可用于调调用任何类。

用法：hadoop CLASSNAME

运行名字为CLASSNAME的类。

管理命令

hadoop集群管理员常用的命令。

balancer

运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。参考Rebalancer了解更多。

用法：hadoop balancer [-threshold ]

命令选项描述

-threshold 磁盘容量的百分比。这会覆盖缺省的阀值。

[hadoop@NameNode01 ~]$ hadoop balancer

Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being Moved

13/10/17 17:45:58 INFO net.NetworkTopology: Adding a new node: /default-rack/10.0.2.217:50010

13/10/17 17:45:58 INFO net.NetworkTopology: Adding a new node: /default-rack/10.0.2.218:50010

13/10/17 17:45:58 INFO net.NetworkTopology: Adding a new node: /default-rack/10.0.2.216:50010

13/10/17 17:45:58 INFO balancer.Balancer: 0 over utilized nodes:

13/10/17 17:45:58 INFO balancer.Balancer: 3 under utilized nodes: 10.0.2.217:50010 10.0.2.218:50010 10.0.2.216:50010

The cluster is balanced. Exiting...

Balancing took 2.153 seconds

获取或设置每个守护进程的日志级别。

用法：hadoop daemonlog -getlevel

用法：hadoop daemonlog -setlevel

命令选项描述

-getlevel 打印运行在的守护进程的日志级别。这个命令内部会连接

-setlevel 设置运行在的守护进程的日志级别。这个命令内部会连接

datanode

运行一个HDFS的datanode。

用法：hadoop datanode [-rollback]

命令选项描述

-rollback 将datanode回滚到前一个版本。这需要在停止datanode，分发老的hadoop版本之后使用。

dfsadmin

运行一个HDFS的dfsadmin客户端。

命令选项描述

-report 报告文件系统的基本信息和统计信息。

-safemode enter | leave | get | wait 安全模式维护命令。安全模式是Namenode的一个状态，这种状态下，Namenode

1. 不接受对名字空间的更改(只读)

2. 不复制或删除块

Namenode会在启动时自动进入安全模式，当配置的块最小百分比数满足最小的副本数条件时，会自动离开安全模式。安全模式可以手动进入，但是这样的话也必须手动关闭安全模式。

-refreshNodes 重新读取hosts和exclude文件，更新允许连到Namenode的或那些需要退出或入编的Datanode的集合。

-finalizeUpgrade 终结HDFS的升级操作。Datanode删除前一个版本的工作目录，之后Namenode也这样做。这个操作完结整个升级过程。

-upgradeProgress status | details | force 请求当前系统的升级状态，状态的细节，或者强制升级操作进行。

-metasave filename 保存Namenode的主要数据结构到hadoop.log.dir属性指定的目录下的文件。对于下面的每一项，中都会一行内容与之对应

1. Namenode收到的Datanode的心跳信号

2. 等待被复制的块

3. 正在被复制的块

4. 等待被删除的块

-setQuota ... 为每个目录设定配额。目录配额是一个长整型整数，强制限定了目录树下的名字个数。

命令会在这个目录上工作良好，以下情况会报错：

1. N不是一个正整数，或者

2. 用户不是管理员，或者

3. 这个目录不存在或是文件，或者

4. 目录会马上超出新设定的配额。

-clrQuota ... 为每一个目录清除配额设定。

命令会在这个目录上工作良好，以下情况会报错：

1. 这个目录不存在或是文件，或者

2. 用户不是管理员。

如果目录原来没有配额不会报错。

-help [cmd] 显示给定命令的帮助信息，如果没有给定命令，则显示所有命令的帮助信息。

jobtracker

运行MapReduce job Tracker节点。

用法：hadoop jobtracker

namenode

运行namenode。有关升级，回滚，升级终结的更多信息请参考升级和回滚。

用法：hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]

命令选项描述

-format 格式化namenode。它启动namenode，格式化namenode，之后关闭namenode。

-upgrade 分发新版本的hadoop后，namenode应以upgrade选项启动。

-rollback 将namenode回滚到前一版本。这个选项要在停止集群，分发老的hadoop版本后使用。

-finalize finalize会删除文件系统的前一状态。最近的升级会被持久化，rollback选项将再不可用，升级终结操作之后，它会停掉namenode。

-importCheckpoint 从检查点目录装载镜像并保存到当前检查点目录，检查点目录由fs.checkpoint.dir指定。

secondarynamenode

运行HDFS的secondary namenode。参考Secondary Namenode了解更多。

用法：hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]

命令选项描述

-checkpoint [force] 如果EditLog的大小 >= fs.checkpoint.size，启动Secondary namenode的检查点过程。如果使用了-force，将不考虑EditLog的大小。

-geteditsize 打印EditLog大小。

tasktracker

运行MapReduce的task Tracker节点。

用法：hadoop tasktracker

hadoop fs -count的结果含义

最近要对hdfs上空间使用和文件结点使用增加报警，当超过一定的限额的时候就要发报警好通知提前准备。

[sunwg]$ hadoop fs -count /sunwg

2 1 108 hdfs://sunwg:9000/sunwg

第一个数值2表示/sunwg下的文件夹的个数，

第二个数值1表是当前文件夹下文件的个数，

第三个数值108表示该文件夹下文件所占的空间大小，这个大小是不计算副本的个数的

[sunwg]$ hadoop fs -count -q /sunwg

1024 1021 10240 10132 2 1 108 hdfs://sunwg:9000/sunwg

在count后面增加 -q选项可以查看当前文件夹的限额使用情况，

第一个数值1024，表示总的文件包括文件夹的限额

第二个数值1021表示目前剩余的文件限额，即还可以创建这么多的文件或文件夹

第三个数值10240表示当前文件夹空间的限额

第四个数值10132表示当前文件夹可用空间的大小，这个限额是会计算多个副本的

剩下的三个数值与 -count的结果一样

Hadoop基本命令

1、hadoop fs -mkdir /user/username 创建用户

2、hadoop fs -chown user:user /user/username 设置权限

3、hadoop dfsadmin -setSpaceQuota 1t /user/username 限制空间容量

4、hadoop dfsadmin -saveNamespace 创建检查点，将内存中的文件熊映射保存为一个新的fsimage文件，重置edits文件，该操作仅在安全模式下执行

5、hadoop dfsadmin -safemode get 查看namenode是否处于安全模式

6、hadoop dfsadmin -safemode wait 在脚本中执行某条命令前namenode先退出安全模式

7、hadoop dfsadmin -safemode enter 进入安全模式

8、hadoop dfsadmin -safemode leave 离开安全模式

9、hadoop dfsadmin -report 显示文件系统的统计信息，以及所连接的各个datanode的信息

10、hadoop dfsadmin -metasave 将某些信息存储到hadoop日志目录中的一个文件中，包括正在被复制或删除的块信息，以及已连接的datanode列表

11、hadoop dfsadmin -refreshNodes 更新允许连接到namenode的datanode列表

12、hadoop dfsadmin -upgradeProgress 获取有关hdfs升级的进度信息或强制升级

13、hadoop dfsadmin -finalizeUpgrade 移除datanode和namenode的存储目录上的旧版数据

14、hadoop dfsadmin -setQuota 设置目录中包含的文件和子目录的个数的配额

15、hadoop dfsadmin -clrQuota 清理指定目录的文件和子目录个数的配额

16、hadoop dfsadmin -clrSpaceQuota 清理指定的空间大小配额

17、hadoop dfsadmin -refreshServiceAcl 刷新namenode的服务级授权策略文件

18、hadoop fsck / 检查hdfs中文件的健康状况，该工具会查找那些所有datanode中均缺失的块以及过少或过多复本的块

19、hadoop fsck /user/tom/part-007 -files -blocks -racks files选项显示文件名称，大小，块数量，健康状况；block选项描述文件中各个块的信息，每个块一行；racks选项显示各个块的机架位置和 datanode的地址

解决主nemenode重启较慢的方法：（使用 -importCheckpoint选项启动辅助namenode，可将辅助namenode用作新的主namenode）

1、辅助namenode请求主namenode停止使用edits（记录操作日志的文件）文件。暂时将新记录写操作记录到一个新文件中

2、辅助namenode从主namenode获取fsimage（元数据永久检查点文件）和edits文件（采用http get）

3、辅助namenode将fsimage文件载入内存，逐一执行edits文件中的操作，创建新的fsimage文件

4、辅助namenode将新的fsimage文件发送回主namenode（使用http post）

5、主namenode用从辅助namenode接收的fsimage文件替换旧的fsimage文件，用步骤一所产生的edits文件替换旧的edits文件，同时，还更新fstime文件来记录检查点执行的时间

均衡器程序

start-balancer.sh -threshold 参数指定阀值（百分比格式），默认值是10%，任何时刻，集群中都只能运行一个均衡器，均衡器在不同节点之间复制数据是有带宽限制的，默认值是1mb/s

[hadoop@NameNode01 hadoop-0.20.2-cdh3u5]$ hadoop dfs -D dfs.replication=2 -put hadoop-core-0.20.2-cdh3u5.jar /input/234

[hadoop@NameNode01 hadoop-0.20.2-cdh3u5]$ hadoop fs -setrep -R 3 /input/123

Replication 3 set: hdfs://10.0.2.75:54310/input/123

[hadoop@NameNode01 hadoop-0.20.2-cdh3u5]$ hadoop fs -ls /input

Found 4 items

-rw-r--r-- 3 hadoop supergroup 3857257 2013-11-27 15:28 /input/123

-rw-r--r-- 2 hadoop supergroup 3857257 2013-11-27 15:29 /input/234

drwxr-xr-x - hadoop supergroup 0 2013-11-20 15:32 /input/dui

-rw-r--r-- 1 hadoop supergroup 3857257 2013-11-27 15:28 /input/hadoop-core-0.20.2-cdh3u5.jar

Hadoop配置文件总结

hdfs-site.xml

[hadoop@DataNode01 conf]$ cat hdfs-site.xml

dfs.replication

dfs.name.dir

${hadoop.tmp.dir}/dfs/name

Name Node 保存元数据和事务日志的本地目录，逗号分隔

fs.checkpoint.dir

${hadoop.tmp.dir}/dfs/checkpoint

SecondaryNameNode节点

dfs.data.dir

/data0/,/data1,/data2

文件的本地目录，逗号分隔的目录列表指定这些目录用于保存块文件

dfs.namenode.handler.count

100

namenode同时和datanode通信的线程数(>=datanode节点数)

dfs.datanode.handler.count

数据节点的服务连接处理线程数

dfs.datanode.max.xcievers

4096

该参数指定datanode可同时处理的最大文件数量

dfs.datanode.du.reserved

10240000000

dfs.safemode.threshold.pct

0.9

fs.trash.interval

1440

dfs.client.block.write.retries

块写入出错时的重试次数

core-site.xml

[hadoop@DataNode01 conf]$ cat core-site.xml

hadoop.tmp.dir

/home/hadoop/hadoop-0.20.2-cdh3u5/hadoop-tmp-${user.name}

fs.default.name

hdfs://10.0.2.75:54310

mapred.temp.dir

${hadoop.tmp.dir}/mapred/temp

mapred临时文件存放目录

hadoop.logfile.size

10000000

日志文件最大为10M

hadoop.logfile.count

日志文件数量为10个

io.file.buffer.size

131072

流文件的缓冲区为128k

fs.trash.interval

1440

设置保留时间为1440秒(1天),回收站的位置在HDFS上的 /user/$USER/.Trash/Current/

ipc.client.kill.max

一个客户端连接数最大值为10

ipc.client.connection.maxidletime

10000

断开与服务器连接的时间最大为10秒

mapred-site.xml

[hadoop@DataNode01 conf]$ cat mapred-site.xml

mapred.job.tracker

10.0.2.219:54311

mapred.local.dir

${hadoop.tmp.dir}/mapred-local

本地文件系统下逗号分割的路径列表，Map/Reduce临时数据存放的地方。

mapred.system.dir

${hadoop.tmp.dir}/mapred/system

mapred存放控制文件所使用的文件夹，可配置多块硬盘，逗号分隔。

mapred.reduce.slowstart.completed.maps

0.40

这个值是和“运行完的map数除以总map数”做判断的，当后者大于等于设定的值时，开始reduce的shuffle。所以当map比reduce的执行时间多很多时，可以调整这个值（0.75,0.80,0.85及以上）

mapred.jobtracker.restart.recover

true

重启时开启任务恢复，默认false

mapred.jobtracker.taskScheduler

org.apache.hadoop.mapred.CapacityTaskScheduler

mapred.queue.names

datamining,analysis,platform,default

mapred.jobtracker.taskScheduler.maxRunningTasksPerJob

160

作业同时运行的任务数的最大值

mapred.max.tracker.blacklists

任务管理跟踪器的黑名单列表的数量

mapred.reduce.tasks.speculative.execution

false

io.sort.mb

100

排序文件的内存缓存大小为100M

io.sort.spill.percent

0.80

当缓冲占用量为该值时，线程需要将内容先备份到磁盘中。

mapreduce.jobtracker.staging.root.dir

${hadoop.tmp.dir}/mapred/staging

每个正在运行作业文件的存放区

mapred.job.map.memory.mb

1024

mapred.job.reduce.memory.mb

1024

mapred.temp.dir

${hadoop.tmp.dir}/mapred/temp

临时共享文件存放区

local.cache.size

10737418240

缓存大小设置为10GB

mapred.child.java.opts

-Xmx1024m

map/reduce的并发数量(总和不大于CPU核数) × mapred.child.java.opts 该节点机器的总内存

mapred.map.tasks

每个作业缺省的map任务数为2

mapred.tasktracker.map.tasks.maximum

任管管理器可同时运行map任务数为3,map:reduce 3:1 = cpu 核数

mapred.tasktracker.reduce.tasks.maximum

任管管理器可同时运行reduce任务数为1,map:reduce 3:1 = cpu 核数

mapred.reduce.tasks

每个作业缺省的mapred任务数为1

mapreduce.reduce.input.limit

-1

Reduce输入量的限制, 值为-1意味着没有限制设置

mapred.job.reuse.jvm.num.tasks

How many tasks to run per jvm. If set to -1, there is no limit.每虚拟机运行的任务数

阅读(1399) | 评论(0) | 转发(0) |

上一篇：Apache日志轮询和分割设置

下一篇：Puppet+Puppet dashboard（C/S模式）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6