李俊组-第五次阶段报告-xuyuanchao

XUYUANCHAO 教学博客xuyuanchao.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

xuyuanchao_cnu

博客访问： 2229119
博文数量： 436
博客积分： 9833
博客等级：中将
技术积分： 5558
用户组：普通用户
注册时间： 2010-09-29 10:27

文章分类

全部博文（436）

10级实习与毕设（24）

bochs模拟器（6）

web远程管理（11）

cache模拟器（7）
南小院交流讨论区（99）
嵌入式操作系统20（0）
网络工程2010-201（39）
嵌入式操作系统与（108）
信息工程专业课程（12）
网络工程2011-201（28）
hadoop云计算专题（10）
Linux内核网络协（9）
谷歌云计算专题（2）
google Android （5）
google Android （13）
torque 3D游戏专（5）
torque 2D游戏专（8）
嵌入式网络协议专（8）
blog微博等专题（5）
恶意代码分析专题（10）
框计算与社会计算（3）
P2P专题（7）
未分配的博文（41）

文章存档

2013年（47）

2012年（79）

2011年（192）

2010年（118）

我的朋友

最近访客

推荐博文

李俊组-第五次阶段报告

分类：

2010-11-07 23:29:52

Hadoop 云计算技术介绍

小组成员：李俊，张文彬，胡凡，赵宇航，吴喆

继上周对Hadoop技术的初步了解后，本周将对Hadoop的两大引擎之二——MapReduce进行详细的介绍与分析。

Hadoop框架中最核心的设计就是：MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算存储提供了底持。
MapReduce基本概念
　　MapReduce从它名字上来看就大致可以看出个缘由，两个动词Map和Reduce，“Map（展开）”就是将一个任务分解成为多个任务，“Reduce”就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。这不是什么新思想，其实在前面提到的多线程，多任务的设计就可以找到这种思想的影子。不论是现实社会，还是在程序设计中，一项工作往往可以被拆分成为多个任务，任务之间的关系可以分为两种：一种是不相关的任务，可以并行执行；另一种是任务之间有相互的依赖，先后顺序不能够颠倒，这类任务是无法并行处理的。回到大学时期，教授上课时让大家去分析关键路径，无非就是找最省时的任务分解执行方式。在分布式系统中，机器集群就可以看作硬件资源池，将并行的任务拆分，然后交由每一个空闲机器资源去处理，能够极大地提高计算效率，同时这种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。（其实我一直认为Hadoop的卡通图标不应该是一个小象，应该是蚂蚁，分布式计算就好比蚂蚁吃大象，廉价的机器群可以匹敌任何高性能的计算机，纵向扩展的曲线始终敌不过横向扩展的斜线）。任务分解处理以后，那就需要将处理以后的结果再汇总起来，这就是Reduce要做的工作。
　图1：MapReduce结构示意图

　　上图就是MapReduce大致的结构图，在Map前还可能会对输入的数据有Split（分割）的过程，保证任务并行效率，在Map之后还会有Shuffle（混合）的过程，对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。后面会具体提及这些部分的细节。
Hadoop的工作流程
　　结合前几周的分析总结，Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。分布式文件系统基本的几个特点：

　　对于整个集群有单一的命名空间。

　　数据一致性。适合一次写入多次读取的模型，客户端在文件没有被成功创建之前无法看到文件存在。

　　文件会被分割成多个文件块，每个文件块被分配存储到数据节点上，而且根据配置会由复制文件块来保证数据的安全性。

　　图2：HDFS结构示意图

　　上图中展现了整个HDFS三个重要角色：NameNode、DataNode和Client。NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序。这里通过三个操作来说明他们之间的交互关系。
文件写入：

　　Client向NameNode发起文件写入的请求。

　　NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

　　Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

　　文件读取：

　　Client向NameNode发起文件读取的请求。

　　NameNode返回文件存储的DataNode的信息。

　　Client读取文件信息。

　　文件Block复制：

　　NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。

　　通知DataNode相互复制Block。

　　DataNode开始直接相互复制。

　　最后再说一下HDFS的几个设计特点（对于框架设计值得借鉴）：

　　Block的放置：默认不配置。一个Block会有三份备份，一份放在NameNode指定的DataNode，另一份放在与指定DataNode非同一Rack上的DataNode，最后一份放在与指定DataNode同一Rack上的DataNode上。备份无非就是为了数据安全，考虑同一Rack的失败情况以及不同Rack之间数据拷贝性能问题就采用这种配置方式。

　　心跳检测DataNode的健康状况，如果发现问题就采取数据备份的方式来保证数据的安全性。

　　数据复制（场景为DataNode失败、需要平衡DataNode的存储利用率和需要平衡DataNode数据交互压力等情况）：这里先说一下，使用HDFS的balancer命令，可以配置一个Threshold来平衡每一个DataNode磁盘利用率。例如设置了Threshold为10%，那么执行balancer命令的时候，首先统计所有DataNode的磁盘利用率的均值，然后判断如果某一个DataNode的磁盘利用率超过这个均值Threshold以上，那么将会把这个DataNode的block转移到磁盘利用率低的DataNode，这对于新节点的加入来说十分有用。
数据交验：采用CRC32作数据交验。在文件Block写入的时候除了写入数据还会写入交验信息，在读取的时候需要交验后再读入。

　　NameNode是单点：如果失败的话，任务处理信息将会纪录在本地文件系统和远端的文件系统中。

　　数据管道性的写入：当客户端要写入文件到DataNode上，首先客户端读取一个Block然后写到第一个DataNode上，然后由第一个DataNode传递到备份的DataNode上，一直到所有需要写入这个Block的NataNode都成功写入，客户端才会继续开始写下一个Block。

　　安全模式：在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。

　　下面综合MapReduce和HDFS来看Hadoop的结构：

　　图3：Hadoop结构示意图

　　在Hadoop的系统中，会有一台Master，主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave，每一台Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。

　　说到这里，就要提到分布式计算最重要的一个设计点：Moving Computation is Cheaper than Moving Data。就是在分布式处理中，移动数据的代价总是高于转移计算的代价。简单来说就是分而治之的工作，需要将数据也分而存储，本地任务处理本地数据然后归总，这样才会保证分布式计算的高效性。

个人总结

李俊：

这周对MapReduce进行了调查和研究，通过上周对HDFS云计算技术的介绍，大体知道了Hadoop的基本工作流程，尤其是其中的HDFS和MapReduce的作用。通过这次对HDFS及MapReduce的概念介绍，使我对Hadoop更进一步的了解了。让我知道Hadoop是怎么工作的。我想这对我们着手实践起着至关重要的作用。

赵宇航:

这周在组长的带领下对MapReduce进行了研究，大体了解了Hadoop的基本工作流程，HDFS和MapReduce的作用更为清晰。我对Hadoop有了更进一步的了解了。这对我们实践有很大的帮助性的作用。

张文彬：

对MapReduce和HDFs的讨论，这次我对 “云其实是产生和获取能力方式的统称”这种定义有了更为细节的了解。确实，HDFS托管了多种交互式的负载和编程，然而走到了hadoop核心的如何运作这部分，我们也感到这课题的难度大幅度增加,所以后续我们还会对 haddoop的工作流程加以更通俗和细致的研究.

胡凡

这周我们对MapReduce进行了学习，加深了对Hadoop的了解。知道了Hadoop和MapReduce的结构，解决了上周留下的疑惑。对Hadoop的了解对接下来的学习更有帮助了。

吴喆：

由于开始Hadoop云计算的概念比较难理解，通过这两周对Hadoop的两大重要知识点——HDFS及MapReduce进行详细的学习，对Hadoop的知识更加巩固了，更加期待下一步的研究。

下周计划：

Hadoop云计算的概念的了解基本结束，下周将对Hadoop的开发环境进行搭建。经小组讨论（讨论内容为：开发环境是在Ubuntu上利用Netbeans的Hadoop Studio，还是在windows上利用cgywin以Eclipse实现），最终决定选择后者。

阅读(1214) | 评论(0) | 转发(0) |

上一篇：第5周总结——赵两可组

下一篇：网络工程第五次阶段性报告

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6