Chinaunix首页 | 论坛 | 博客

OS

  • 博客访问: 2306167
  • 博文数量: 691
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 2660
  • 用 户 组: 普通用户
  • 注册时间: 2014-04-05 12:49
个人简介

不浮躁

文章分类

全部博文(691)

文章存档

2019年(1)

2017年(12)

2016年(99)

2015年(207)

2014年(372)

分类: HADOOP

2014-12-21 01:14:53

Hadoop

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throug惠普ut)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop最先由Google Lab开发的Map/Reduce和Google File System(GFS)的启发。2006年3月份,Map/Reduce和Nutch Distributed File System (NDFS)分别被纳入称为Hadoop的项目中。

Hadoop是最受欢迎的在Internet上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要grep一个10TB的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是Hadoop在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

Hadoop有许多元素构成。其最底部是Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。


阅读(1615) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~