Nutch搜索引擎之分布式文件系统-softiger-ChinaUnix博客

softiger的IT&nbsp;BLOGsoftiger.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

softiger

博客访问： 2587796
博文数量： 709
博客积分： 12251
博客等级：上将
技术积分： 7905
用户组：普通用户
注册时间： 2005-07-17 00:00

个人简介

实现有价值的IT服务

文章分类

全部博文（709）

IT管理工具（9）
软件工程（0）
IT管理框架（29）
书籍（2）
话里有话（39）
Tivoli（0）
finance（1）
个人工具（21）

工作（20）
技术--java编程--（2）
运营--myweb（0）
文化--人物（1）
生活--搞笑“梨花（1）
运营--互联网要闻（8）
运营--电子商务研（0）
运营--静看电子商（15）
运营--静看互联网（25）

运营--团队管理（0）
运营--团队建设（6）
文化--人文沙龙（6）
管理--项目管理与（17）
文化--历史（7）
技术--模式（0）
技术--J2EE（98）

javascript dom（0）

css（5）

xml处理（1）

Java模式（2）

servlet学习（9）
文化--西方哲学（2）
文化--古诗词（3）
技术--建模（3）
技术--Windows 管（2）
文化--传统文化（30）
技术--JavaScript（8）

drw（3）
随笔（65）

名词解释（7）
运营--Web2.0（18）

运营--web2.0--pi（7）
技术--MySql（49）
技术--网络运用（3）
经常使用站点（2）
运营--网站建设与（11）
运营--社区（0）
运营--Seo技能（2）
技术--安全（5）
技术--Java编程（96）

技术--Java编程--（32）

技术--Java编程--（3）

技术--Java编程--（4）
技术--Web服务器（51）
技术--Ms Sql 相（14）
技术--Oracle相关（2）
技术--Shell编程（10）
技术--Linux系统（41）

网络命令（4）

系统命令（1）
未分配的博文（5）

文章存档

2012年（7）

2011年（147）

2009年（3）

2008年（5）

2007年（74）

2006年（431）

2005年（42）

我的朋友

相关博文

Nutch搜索引擎之分布式文件系统

分类： Java

2007-04-16 10:20:03

Nutch搜索引擎之分布式文件系统

NDFS：在一系列机器上存储庞大的面向流的文件，包含多机的存储冗余和负载均衡。
文件以块为单位存储在NDFS的离散机器上，提供一个传统的input/output流接口用于文件读写。
块的查找以及数据在网络上传输等细节由NDFS自动完成，对用户是透明的。而且NDFS能很好地处理
用于存储的机器序列，能方便地添加和删除一台机器。当某台机器不可用时，NDFS自动的保证文件
的可用性。只要网上的机器序列能提供足够的存储空间，就要保证NDFS文件系统的正常运作。
NDFS是建立在普通磁盘上的，不需要RAID控制器或者其它的磁盘阵列解决方案。

2.语法

1). 文件只能写一次，写完之后，就变成只读了（但是可以被删除）
2). 文件是面向流的，只能在文件末尾加字节流，而且只能读写指针只能递增。
3). 文件没有存储访问的控制

所以，所有对NDFS的访问都是通过验证的客户代码。没有提供API供其它程序访问。因此Nutch就是NDFS的
模拟用户。

3.系统设计

NDFS包含两种类型的机器：NameNodes和DataNodes： NameNodes维护名字空间；而DataNodes存储数
据块。NDFS中包含一个NamdNode，而包含任意多的DataNodes，每个DataNodes都配置与唯一的NameNode
通信。
1)NameNode: 负责存储整个名字空间和文件系统的布局。是一个关键点，不能down掉。但是做的工作
不多，因此不是一个负载的瓶颈。
    维护一张保存在磁盘上的表： filename-0->BlockID_A,BlockID_B...BlockID_X,etc.;
    filename就是一字符串，BolockID是唯一的标识符。每个filename有任意个blocks。
2)DataNode:负责存储数据。一个块应该在多个DataNode中有备份；而一个DataNode对于一个块最多
只包含一个备份。
    维护一张表：BlockID_X->array of bytes..

3)合作：DataNode在启动后，就主动与NameNode通信，将本地的Block信息告知NameNode。NameNode据
此可以构造一颗树，描述如何找到NDFS中的Blocks。这颗树是实时更新的。DataNode会定期发送信息给
NameNode，以证明自己的存在，当NameNode收不到该信息时，就会认为DataNode已经down了。

4)文件的读写过程：例如Client要读取foo.txt，则有以下过程。
    a.Client通过网络联系NameNode，提交filename:"foo.txt"
    b.Client收到从NameNode来的回复，包含：组成"foo.txt"的文件块和每个块存在的DataNode序列。
    c.Client依次读取每个文件块。对于一个文件块，Client从它的DataNode序列中得到合适的DataNode，
      然后发送请求给DataNode，由DataNode将数据传输给Client

4.系统的可用性

NDFS的可用性取决于Blocks的冗余度，即应该在多少个DataNode保持同一Block的备份。对于有条件的话
可以设置3个备份和2个最低备份(DESIRED_REPLICATION and MIN_REPLICATION constants in fs.FSNamesystem)。
当一个块的低于MIN_REPLICATION,NameNode就会指导DataNode做新的备份。

5.net.nutch.fs包的一些文件介绍
1)NDFS.java:包含两个main函数，一个是关于NameNode的，一个是关于DataNode的
2)FSNamesystem.java:维护名字空间，包含了NameNode的功能，比如如何寻找Blocks，可用的DataNode序列
3)FSDirectory.java:被FSNamesystem调用，用于维护名字空间的状态。记录NameNode的所有状态和变化，当
NameNode崩溃时，可以根据这个日志来恢复。
4)FSDataset.java: 用于DataNode，维护Block序列等
5)Block.java and DatanodeInfo: 用于维护Block信息
6)FSResults.java and FSParam.java: 用于在网络上传送参数等
7)FSConstants.java:包含一些常数，用于参数调整等。
8)NDFSClient.java:用于读写数据
9)TestClient.java:包含一个main函数，提供一些命令用于对NDFS的存取访问

6.简单的例子
1)创建NameNode:
    Machine A:java net.nutch.fs.NDFS$NameNode 9000 namedir
2)创建DataNode:
    Machine B:java net.nutch.fs.NDFS$DataNode datadir1 machineB 8000 machineA:9000
    Machine C:java net.nutch.fs.NDFS$DataNode datadir2 machineC 8000 machineA:9000

   运行1，2步后，则得到了一个NDFS，包含一个NameNode和两个DataNode。(可以在同一台机
的不同目录下安装NDFS)

3)client端的文件访问：
    创建文件：java net.nutch.fs.TestClient machineA:9000 CREATE foo.txt
    读取文件：java net.nutch.fs.TestClient machineA:9000 GET foo.txt
    重命名文件：java net.nutch.fs.TestClient machineA:9000 RENAME foo.txt bar.txt
    再读取文件：java net.nutch.fs.TestClient machineA:9000 GET bar.txt
    删除文件：java net.nutch.fs.TestClient machineA:9000 DELETE bar.txt

阅读(3153) | 评论(1) | 转发(0) |

上一篇：搜索引擎学习资源收集

下一篇：Nutch搜索技术相关的资料.oO

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6