Chinaunix首页 | 论坛 | 博客
  • 博客访问: 322735
  • 博文数量: 31
  • 博客积分: 393
  • 博客等级: 一等列兵
  • 技术积分: 388
  • 用 户 组: 普通用户
  • 注册时间: 2012-08-26 10:23
文章分类

全部博文(31)

文章存档

2013年(16)

2012年(15)

分类: 大数据

2013-04-08 11:59:11

Hadoop的主要实用例子
【1】
加速ETL(提取-转换-加载)。不再是针对每个事物从多源系统中拉数据,而是由源系统将数据推至HDFS,ETL引擎来处理数据,然后保存处理结果。ETL流程可被写入 pig或Hive中。结果可以用Hadoop进行分析。经证实,使用Hadoop存储和处理结构化数据可以减少10倍成本,并可以提升4倍处理速度。比传统ETL更突出的是,Hadoop还可以用来收集内部系统(比如应用和web的日志)以及远程系统(在网络和全球上)的遥测数据。把精细的感应数据提供给公司的能力模型,预测网络和设备上可能发生的问题,并主动采取措施。Hadoop还可以作为集中式数据集集线器,执行从跨组织的数据集分析道预测分析任何工作。这些应用如今广泛的部署在生产环境中,为手机所有组织数据提供了可能性,很好的驱动的产业的发展。
【2】
Hadoop用于实时数据抽取(Flume),实时数据存储(HBase)和实时数据查询(Impala)
【3】
Nexflix 数据挖掘的架构
ETL过程是松耦合的,组合使用Hadoop和非Hadoop工具,跨越云和我们的数据中心。举个例子:我们需要在基于云的Hadoop数据仓库中使用Pig和Hive执行每日总结,并将结果加载到在数据中心的关系数据仓库中。这是很常用的大数据架构,用小得多的关系数据仓库来对上基于Hadoop的系统。前者提供实时性更强的互动查询和报表,而且与传统的BI工具整合更好。
阅读(11432) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~