多读书,多做事,广交朋友,趣味丛生
分类: 云计算
2013-02-21 15:36:48
Hadoop的前身是Nutch项目,由Nutch的分支Lucene发展而来。
作为Apache基金会下的开源项目,Hadoop以开源的身份在海量数据处理方面体现了明显的特点和优势。一般认为Hadoop主要有两个主要组件构成:HDFS和MapReduce;其中HDFS指分布式文件系统,主要用于海量数据存储,MapReduce采用函数式编程语言的思想,简化了并行程序编程,主要用于海量数据处理;
作为一个开源项目,Hadoop还有一些其他的组件,下面简单的介绍这些组件的主要用途和功能:
Hive:是Facebook数据团队在Hadoop的基础上开发的数据仓库封装,将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,以数据库的方式管理HDFS,将sql语句解析为MapReduce任务执行,即用类似的sql语句实现简单的MapReduce计算;