Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2309961
  • 博文数量: 266
  • 博客积分: 5485
  • 博客等级: 大校
  • 技术积分: 3695
  • 用 户 组: 普通用户
  • 注册时间: 2007-06-20 11:05
个人简介

多读书,多做事,广交朋友,趣味丛生

文章分类

全部博文(266)

分类: 云计算

2013-02-21 15:36:48

 Hadoop的前身是Nutch项目,由Nutch的分支Lucene发展而来。


    作为Apache基金会下的开源项目,Hadoop以开源的身份在海量数据处理方面体现了明显的特点和优势。一般认为Hadoop主要有两个主要组件构成:HDFS和MapReduce;其中HDFS指分布式文件系统,主要用于海量数据存储,MapReduce采用函数式编程语言的思想,简化了并行程序编程,主要用于海量数据处理;


    作为一个开源项目,Hadoop还有一些其他的组件,下面简单的介绍这些组件的主要用途和功能:

    Hive:是Facebook数据团队在Hadoop的基础上开发的数据仓库封装,将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,以数据库的方式管理HDFS,将sql语句解析为MapReduce任务执行,即用类似的sql语句实现简单的MapReduce计算;
      Hive的使用是建立在HDFS的基础上,是与Hadoop相关的软件,提供了类似SQL语句的支持,
 
    HBase: 作为Hadoop的子项目,HBase是分布式,面向列的数据库,是在HFDS的基础上提供类似BigTable的功能;适合非结构化数据存储的数据库,基于列的模式,主要用于随机访问,实时读写大数据;不提供类似SQL语句支持,使用比较简单;
 
    HBase与Hive有些相似之处。需待慢慢研究.
阅读(2386) | 评论(0) | 转发(0) |
0

上一篇:HBase 系统架构

下一篇:Hive 入门(转)

给主人留下些什么吧!~~