Hadoop平台在云计算中的应用-lihang4216137-ChinaUnix博客

李航

首页　| 　博文目录　| 　关于我

lihang4216137

博客访问： 525891
博文数量： 213
博客积分： 3076
博客等级：少校
技术积分： 2158
用户组：普通用户
注册时间： 2012-10-24 16:08

文章分类

全部博文（213）

未分配的博文（213）

文章存档

2013年（134）

2012年（79）

我的朋友

changche

相关博文

Hadoop平台在云计算中的应用

分类：云计算

2012-11-16 10:52:30

Hadoop平台在云计算中的应用

王宏宇

( 哈尔滨理工大学计算机科学与技术学院，黑龙江哈尔滨150080)

摘　要：云计算是当前比较热门的新兴技术之一，受到业界的广泛关注。Hadoop 是一个可实现大规模分布式计算的开源软件平台，因此被广泛应用在云计算领域。本文在对 Hadoop 的主要组件 Hadoop 分布式文件系统 HDFS(Hadoop Distributed File System) 和计算模型 MapReduce 进行深入分析和研究的基础上，建立基于 Hadoop 平台的云计算模型，通过实验证明该模型可以有效完成分布式数据处理任务。

An application of Hadoop platform in cloud computing

WANG Hong-yu 【Abstract】Currently, cloud computing is one of the more popular emerging technologies, drawing much attention by industry. Hadoop is an open-source software which can achieve large-scale distributed computing, so it is widely used in cloud computing. This paper will do in-depth analysis and research on the main componet of Hadoop include HDFS (Hadoop Distributed File System ) and computing model MapReduce,then establish a cloud computing model based on Hadoop, The experiment shows that the model can effectively complete the distributed data processing tasks. Cloud-Computing; Hadoop; HDFS; MapReduce 【Key words】

(School of computer science and technology, Harbin University of Science and Technology, Harbin 150080)

0　引言

云计算是一种新兴的计算模型，它是并行计算、分布式计算、网格计算的综合发展，或者说是这些计算科学概念的商业实现。它的基本原理是将计算、存储及软硬件等服务分布在非本地的大量计算机构成的资源池上，用户通过网络获得相应的服务，从而有效的提高资源利用率，实现了真正的按需获取。目前云计算模型众多，但多为商业模型， Hadoop 作为开源而的云计算模型，它模仿和实现了 Google 云计算的主要技术，并且使用 Java 语言编写，可移植性强，为个人和企业进行云计算方面的研究和应用奠定了基础。

Apache Hadoop 项目包括多个子项目，但主要是由 Hadoop 分布式文件系统 HDFS 和计算模型 MapReduce 两个主要的子项目组成。

1.Hadoop 集群的整体部署结构

Hadoop 介绍

Hadoop是由 Apache 开源组织的一个分布式计算框架，可以在大量廉价的硬件设备组成的集群上运行应用程序，为应用程序提供了一组稳定可靠的接口，旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop 的主要优点有：扩容能力强、成本低廉、效率高、高可靠性、免费开源及良好的可移植性。 Hadoop 集群是典型的 Master/Slaves 结构， NameNode 与 JobTracker 为 Master， DataNodes 与 TaskTrackers 为 Slaves。NameNode 与 DataNodes 负责完成 HDFS 的工作， JobTracker 与 TaskTrackers 则负责完成 MapReduce 的工作。

1.1　Hadoop 分布式文件系统 HDFS

HDFS被设计成适合运行在通用硬件上的分布式文件系统，它和现有的分布式文件系统有很多共同点，但同时，它和其他的分布式文件系统的区别也显而易见。HDFS 是一个具有高度容错性的系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问，
非常适合大规模数据集上的应用。HDFS 设计是基于如下的前提和目标：

（1）硬件错误是常态而非异常： HDFS 可能有成百上千的服务器组件构成，每个组件上存储着文件系统的部分数据。任何一个组件失效都是有可能的，也就意味着总有一部分 HDFS 的组件是不正常工作或者不工作的。如此一来，错误检测和快速、自动化地恢复是 HDFS 最核心的设计目标之一。

（2）数据流式访问： HDFS 的设计中更多地考虑到了数据批处理，而不是用户交互处理，由此保证数据访问的高吞吐量。

（3）大规模数据集： HDFS 上的一个典型文件大小一般都在 GB 级至 TB 级，甚至更高的 PB 级。因此， HDFS 被设计以支持大文件存储，并能提供整体上的数据传输带宽，能在一个集群里扩展到数百个节点。

(4) 简单的一致性模型： HDFS 应用需要一个 “一次写入多次读取” 的文件访问模型。文件经过创建、写入和关闭之后就不需要改变，使高吞吐量的数据访问成为可能。

(5) 移动计算比移动数据更划算：一个应用请求的计算，离它操作的数据跃进就越高效，在数据达到海量级别的时候更是如此。为了能够降低网络阻塞，提供系统数据的吞吐量， HDFS 为应用提供了将计算移动到数据附近的接口。

(6) 异构软硬件平台间的可移植性：该特性方便了 HDFS 作为大规模数据应用平台的推广。

五宏宇： Hadoop 平台在云计算中的应用一组键值对，型会调用用户自定义的 Map 模函数处理每一个键值对，成一批新的中间生键值对，这两组键值对的类型可能不同。

Shuffle;Sort: 为了保证 Reduce 的输入是 Map 排好序的输出。在 Shuffle 阶段，通过网络为每个 Reduce 获得所有 Map 输出中与之有关的键值对；而在 Sort 阶段，将按照 key 的值对 Reduce 的输入进行分组。通常 Shuffle 和 Sort 两个阶段是并行执行的。

Reduce: 对每一个唯一 key，执行用户定义的 Reduce 函数，输出新的键值对。

Output: 将 Reduce 输出的结果写入输出目录中。 Hadoop 采用 JobTracker/TaskTrackers 的主从式结构来实现 MapReduce 编程模型。JobTracker 来分配 Map 任务或 Reduce 任务； TaskTracker 执行由 JobTracker 发来的指令并同时处理 Map 和 Reduce 阶段之间数据的移动，每个 TaskTracker 节点会定期报告任务完成状态。如果一个 TaskTracker 不能按照要求在特定时间间隔内完成被分配给的工作，那么 JobTracker 会将分配给这个节点的数据发到别的节点上，并将该节点定义为不工作状态。

一个 HDFS 集群是由一个 NameNode 和一定数目的 Datanodes 组成， NameNode 是一个中心服务器，负责管理文件系统的名字空间（Namespace）以及客户端对文件的访问。集群中的 DataNode 一般是一个节点一个，负责管理它所在节点上的存储。HDFS 对外公开文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，个文件其实被分成一个或多个数据块一（Block）这些块存储在一组 DataNode 上。NameNode 执行文，件系统的名字空间操作，比如打开、关闭、重命名文件或目录，它也负责确定数据块到具体 DataNode 节点的映射。Datanode 负责处理文件系统客户端的读写请求， NamenNode 的统一在调度下进行数据块的创建、删除和复制。

计算模型 MapReduce 的工作流程

2　基于 Hadoop 的云计算模型

在该模型中，用户的数据将被分割成多个数据块存储在每一个 Slave 的 DataNode 上，后 NameNode 负责管理这些之数据块。用户的计算任务被分成多个 Map 任务和 Reduce 任务， JobTracker 负责启动、跟踪和调度 Map 任务和 Reduce 任务，这些任务是由每一 Slave 的 TaskTracker 所执行的。JobTracker 也同时侦测 TaskTracker 的运行状况，必要时重新执行某个任务。计算结果会保存在用户指定的目录下。

1.2　计算模型 MapReduce

MapReduce 是由 Google 提出的云计算核心计算模型， Hadoop 计划将它开源化实现。MapReduce 是一种高效的分布式计算模型，同时是一种用于处理和生成大规模数据集的实现方式。

（1） Input: 应用程序提供 Map 和 Reduce 函数，并指明输入 / 输出的位置和其他运行必要的运行参数。该阶段会把输入目录下的大文件划分为若干独立的数据块。

（2） Map:MapReduce 模型把用户作业的输入

　基于 Hadoop 的云计算实现步骤

3.1　硬件环境配置

由上述分析， Hadoop 集群是 Master/Slave 结构，所以，

软件实验中使用一台机器作为 Master，责 NameNode 和 Job负 Tracker 的工作，
三台机器作为 Slave，责 DataNode 和另负 TaskTracker 的工作。每台实验机器上均运行 CentOS5.5 系统， java 版本 1.6.0， Hadoop 版本 0.20.2。实验中的四台机器分别设置主机名为 hadoop1、 hadoop2、 hadoop3、 hadoop4，其中 hadoop1 为 Master，其他为 Slave。修改每台机器的 /etc/host 文件，添加如下内容： 192.168.1.100 192.168.1.101 192.168.1.102 192.168.1.103 hadoop1 hadoop2 hadoop3 hadoop4

五宏宇： Hadoop 平台在云计算中的应用

dfs.replication 1 （5）编辑 conf/master 文件，加：添 192.168.1.100。编辑 conf/slave 文件，添加： 192.168.1.101， 192.168.1.102， 192.168.1.103。（6）格式化 HDFS 并启动服务 #bin/hadoop namenode –format #bin/start-all.sh （7）查看节点运行情况命令行方式： $bin/hadoop dfsadmin –report

3.2　设置免密码 SSH 登录

Hadoop 集群中工作的机器是通过 SSH 的方式互相通信的，而顺利通信的关键是不需要密码就能够进行访问。在每台机器上进行如下操作： #ssh-keygen -t dsa #cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys #chmod 755 ~/.ssh/ #chmod 644 ~/.ssh/authorized_keys 然后将每台机器的～ /.ssh/id_dsa.pub 内容追加到其他所有机器的～ /.ssh/authorized_keys 文件末尾。使用如下命令测试是否可以免密码登录成功： #ssh localhost #ssh hadoop*

4　实验模拟云计算

以下操作均是在 Master 上的 Hadoop 根目录下进行。 #vi input 输入内容： Hello this is a sunday today Hello i like this book 。 #bin/hadoop dfs -put input testin 将输入数据上传到 HDFS 上。 #bin/hadoop jar hadoop-0.20.2-example.jar wordcount testin testout 统计单词个数。

3.3　配置 Hadoop 环境

（1）解压 Hadoop 软件包到根目，辑 conf/hadoop编 env.sh 文件， JAVA_HOME 前的注释符 # 去掉，设定将并 java 根目录，本机为 JAVA_HOME=/usr。（2）编辑 conf/core-site.xml 文件，添加如下内容： fs.default.name hdfs://192.168.1.100:9000/ hadoop.tmp.dir /hadoop-0.20.2/tmp （3）编辑 conf/mapred-site.xml 文件，添加如下内容： mapred.job.tracker 192.168.1.100:9001 （4） hdfs-site.xml 中添加如下内容：

Hadoop 运行任务过程

#bin/hadoop dfs -cat testout/part-r-00000 查看计算结果。

实验模拟结果

5　结论

通过实验结果得出，将数据上传到云计算环境中后，计算任务被分给各个任务处理节点，各任务处理节点将任务处理完成后将结果进行了汇总，最终完成了分布式处理任务，正确的统计出了每个英文单词出现的次数。受硬件环境的制约，实验中所处理的数据量并不大，平台中参与数据处理的计算机数量软件

孟志刚等：模糊控制在液位控制器中的应用

隶属度函数编辑器

5　结束语

通过仿真结果，我们可以看出该系统的输出响应速度快，系统的超调量小，过渡时间快，能够满足实际工业生产的需要。

Hadoop 是一个可以处理以 PB 为单位的大规模数据处理平台，并且在平台中参与工作的计算机数量达到数以万计是依然可以具备良好的性能和稳定性。当数据足够大时，单机完成任务所需要的时间将远远大于 Hadoop 平台，而且单机的数据处理能力有限， Hadoop 平台却可以根据实际需要而添加更多的计算机进算从而来提高数据处理能力。相比单机运行计算任务可能出现宕机等不稳定因素， Hadoop 平台也提供了很好的监测和管理机制，保证平台中总会有足够多正常工作的计算机来完成任务。

文本地址

阅读(1310) | 评论(0) | 转发(0) |

上一篇：华为集团“云计算”战略和解决方案

下一篇：云计算IDC技术架构与业务运营模式

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6