全部博文(436)
分类:
2010-10-18 13:52:04
深入云计算
小组成员:李俊,张文彬,胡凡,赵宇航,吴喆
经过一段时间的研究,已经对云计算有了初步的了解。本周任务较重为了进一步研究云计算及Hadoop我们详细分析了Google,IBM的云计算平台以及Hadoop。
谷歌的云计算平台
Google的云计算平台
n Google云计算概述
为Google特定的网络应用定制的。基于分布式并行集群方式基础架构利用软件方式处理集群中经常发生的节点失效问题
n Google云计算基础架构模式
¡ 分布式文件系统( Google File System )
¡ MapReduce编程模式
¡ 分布式锁机制Chubby
¡ 分布式数据库BigTable
Google File System文件系统
n 特点
¡ 系统集成了容错以及自动恢复功能
¡ 文件以G字节计,包含大量小文件
¡ 添加文件追加操作,优化顺序读写速度
¡ 部分具体操作不透明,需要应用程序的协助完成
MapReduce编程模式
n 统计文本中单词数目
¡ Map函数
将文本中所有出现的单词都按照出现计数1(以Key-Value对的形式)发射MapReduce给出的一个中间临时空间中
¡ Reduce函数
把计数累加在一起获得最后结果
MapReduce编程模式 cont.
MapReduce处理程序的执行过程(M代表Map函数的执行,R代表Reduce函数的执行)
分布式数据库BigTable
n BigTable的数据模型
¡ 行列以及相应的时间戳
¡ 按行来划分,将多行组成一个小表,存放到服务器节点
Google BigTable的数据模型
分布式数据库BigTable cont.
BigTable系统的组织结构
IBM的云计算平台
IBM“蓝云”计算平台
n “深蓝”计算平台概述
深蓝计算平台建立在IBM在领先的大规模计算领域的专业技术上,将基于由IBM软件、系统技术和服务支持的开放标准和开源软件
n 平台特点
¡ 虚拟机的使用
¡ 存储结构
n 运营模式
¡ 虚拟服务器 + 操作系统 + 网络带宽 + 应用 (包括软件及服务)
虚拟机的使用
“蓝云”中的存储结构
n 云计算的存储体系结构
¡ Hadoop HDFS (Hadoop Distributed File System)
¡ 基于块设备方式的存储区域网络SAN
n Hadoop
¡ 类似于Google文件系统的开源实现,开源软件
n SAN
¡ 在存储端构建存储的网络,将多个存储设备构成一个存储区域网络,前端以网络的方式访问后端存储设备,前端以块设备方式访问与前端操作系统无关
SAN系统
n SAN系统概述
n 连接方式
¡ 使用光纤网络,满足性能与可靠性较高的场所
¡ 以太网,普通的局域网,节省成本
n 特点
¡ 主机来说可以访问多个磁盘设备,从而能够获得性能的提升
¡ 使用虚拟化的引擎来进行逻辑设备到物理设备的映射,管理前端主机到后端数据的读写
关于Hadoop
Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。
自从Google工程师Jeffrey Dean提出MapReduce编程思想,MapReduce便在Google的各种Web应用中释放着魔力。然而,也许出于技术保密的目的,Google公司并没有透露其MapReduce的实现细节。
幸运的是,Doug Cutting开发的Hadoop作为MapReduce开源实现,让MapReduce这么平易近人地走到了我们面前。
作为Google MapReduce技术的开源实现,Hadoop理所当然地借鉴了Google的Google File System文件系统、MapReduce并行算法以及BigTable。这也是我们要详细了解Google,IBM云计算平台的原因。
小组分工:
张文彬胡凡:Google云计算平台
赵宇航吴喆:IBM云计算平台
李俊:关于Hadoop
下一步计划将对Hadoop进行初步学习与研究。
OK,让我们开始吧!继续去寻找那神奇的小飞象。