Hadoop的主要实用例子
【1】
加速ETL(提取-转换-加载)。不再是针对每个事物从多源系统中拉数据,而是由源系统将数据推至HDFS,ETL引擎来处理数据,然后保存处理结果。ETL流程可被写入 pig或Hive中。结果可以用Hadoop进行分析。经证实,使用Hadoop存储和处理结构化数据可以减少10倍成本,并可以提升4倍处理速度。比传统ETL更突出的是,Hadoop还可以用来收集内部系统(比如应用和web的日志)以及远程系统(在网络和全球上)的遥测数据。把精细的感应数据提供给公司的能力模型,预测网络和设备上可能发生的问题,并主动采取措施。Hadoop还可以作为集中式数据集集线器,执行从跨组织的数据集分析道预测分析任何工作。这些应用如今广泛的部署在生产环境中,为手机所有组织数据提供了可能性,很好的驱动的产业的发展。
【2】
Hadoop用于实时数据抽取(Flume),实时数据存储(HBase)和实时数据查询(Impala)
【3】
Nexflix 数据挖掘的架构
ETL过程是松耦合的,组合使用Hadoop和非Hadoop工具,跨越云和我们的数据中心。举个例子:我们需要在基于云的Hadoop数据仓库中使用Pig和Hive执行每日总结,并将结果加载到在数据中心的关系数据仓库中。这是很常用的大数据架构,用小得多的关系数据仓库来对上基于Hadoop的系统。前者提供实时性更强的互动查询和报表,而且与传统的BI工具整合更好。
阅读(11471) | 评论(0) | 转发(0) |