HDFS功能测试-Larpenteur-ChinaUnix博客

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6456432
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

1、HDFS功能测试

HDFS是一套分布式的文件系统，其数据保存在各datanode上，datanode可能有几十上百或数千个，但对于用户来说完全透明，即不需要关心数据到底写在哪个节点上，也不需要关注应该在哪个节点上进行读写，在任意节点上操作均可，它所看到的数据也始终是一份。

想要操作HDFS文件系统进行读写，从大的类别上可以分成两种：通过程序的（比如），或者通过命令行。

提示：此处理解有限，可能不严谨，也许仍有其它方式向HDFS中读写数据。

需要强调的是，我们这里所说的HDFS文件系统，可并不是我们前面在配置HADOOP环境时，通过conf/hdfs-site.xml文件配置过HDFS的数据节点存储路径哟，比如这段：

dfs.data.dir

/data2/hadoop/data

true

同学，这段配置指定的是数据节点的存储路径不假，但并不是HDFS文件系统哟，这里所指定的是本节点HDFS映射文件的路径。怎么理解呢，简单讲，如果您在这个路径下创建文件，HDFS里是看不到的；同理，在HDFS中创建的文件，操作系统的文件系统中也看不到(也许能够看到一堆64M大小的映射文件)。

我们想要对HDFS文件系统进行读写操作，只有采用前面说的两种方式。

1.1 命令行方式操作HDFS

命令行方式就是通过hadoop命令附加dfs选项。我们可以直接执行该命令并附加dfs选项，不指定任何参数的情况下，会输出一些简要的帮助信息，如下：

[grid@hdnode1 ~]$ hadoop dfs

Usage: java FsShell

[-ls ]

[-lsr ]

[-du ]

[-dus ]

[-count[-q] ]

[-mv ]

[-cp ]

[-rm [-skipTrash] ]

[-rmr [-skipTrash] ]

[-expunge]

[-put ... ]

[-copyFromLocal ... ]

[-moveFromLocal ... ]

[-get [-ignoreCrc] [-crc] ]

[-getmerge [addnl]]

[-cat ]

[-text ]

[-copyToLocal [-ignoreCrc] [-crc] ]

[-moveToLocal [-crc] ]

[-mkdir ]

[-setrep [-R] [-w] ]

[-touchz ]

[-test -[ezd] ]

[-stat [format] ]

[-tail [-f] ]

[-chmod [-R] PATH...]

[-chown [-R] [OWNER][:[GROUP]] PATH...]

[-chgrp [-R] GROUP PATH...]

[-help [cmd]]

Generic options supported are

-conf specify an application configuration file

-D use value for given property

-fs specify a namenode

-jt specify a job tracker

-files specify comma separated files to be copied to the map reduce cluster

-libjars specify comma separated jar files to include in the classpath.

-archives specify comma separated archives to be unarchived on the compute machines.

The general command line syntax is

上面输出的信息指明hadoop dfs能够支持的参数，对于有经验的朋友来说，肯定已经注意到，很多参数名与下的文件系统操作命令极为相似(有不少就是一模一样啊)，悄悄告诉你，功能也很类似的哟。如果觉着信息稍简化，还可以再附加-help参数查看更详细的信息。下面三思通过几个例子给大家演示一下。

创建目录：-mkdir

比如说创建一个jss目录吧，执行hadoop dfs并附加-mkdir参数：

[grid@hdnode1 ~]$ hadoop dfs -mkdir jss

浏览HDFS目录结构：-ls

目录(或文件)进行了创建，怎么知道是否创建成功了呐，那就ls看一下呗：

[grid@hdnode1 ~]$ hadoop dfs -ls

Found 1 items

出来了有木有，看到了有木有~~~~

目录结构/权限/用户/时间信息/路径等等看起来都与Linux/Unix环境非常相似，对于具备一定Linux经验的朋友来说会比较容易理解。但是要注意了，这其中的路径和用户，及用户组跟操作系统层的路径没什么关系。

将文件上传至HDFS：-put

先创建两个文本文件：

[grid@hdnode1 ~]$ echo "Hello Junsansi" > a.txt

将这两个文件保存到 HDFS的jss目录下：

[grid@hdnode1 ~]$ hadoop dfs -put *.txt jss

验证一下：

[grid@hdnode1 ~]$ hadoop dfs -ls jss

Found 2 items

-rw-r--r-- 3 grid supergroup 15 2013-02-17 16:58 /user/grid/jss/a.txt

查看文件内容：-cat

HDFS中的文件是否就是我们上传的文件呢，看下内容吧，使用-cat参数：

[grid@hdnode1 ~]$ hadoop dfs -cat /user/grid/jss/a.txt

此外还有删除用-rm，下载用-get，复制用-cp等等，咱们演示几条就差不多了，别的有兴趣就自行尝试吧。

1.2 通过API方式操作HDFS

命令行的用法比较简单，不过多数情况下我们操作HDFS时不会在命令行上进行，而是通过应用来读取数据，那在程序中能否读写HDFS中的目录或文件呢，这个必须可以呀。HADOOP API将这些功能都封装好了，直接调用即可。

那么都有哪些API呢？我给个链接，官方白皮书，你想知道的这里都有：

提示：Eclipse开发环境配置及程序调试可参考三思的其它文章。

阅读(817) | 评论(0) | 转发(0) |

上一篇：配置HADOOP开发环境(3)-代码开发和调试示例

下一篇：Centos 更换yum源

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6