Hadoop在数据分析的几个例子-slp195-ChinaUnix博客

slp195的ChinaUnix博客

首页　| 　博文目录　| 　关于我

slp195

博客访问： 329046
博文数量： 31
博客积分： 393
博客等级：一等列兵
技术积分： 388
用户组：普通用户
注册时间： 2012-08-26 10:23

文章分类

全部博文（31）

大数据（2）
Shell（1）
C/C++/Java程序设（2）
数据库（1）
云计算（6）
数据结构&算法（2）
linux系统（7）
Web开发（2）
linux内核学习（6）
杂谈（0）
未分配的博文（2）

文章存档

2013年（16）

2012年（15）

我的朋友

相关博文

Hadoop在数据分析的几个例子

分类：大数据

2013-04-08 11:59:11

Hadoop的主要实用例子
【1】
加速ETL（提取-转换-加载）。不再是针对每个事物从多源系统中拉数据，而是由源系统将数据推至HDFS，ETL引擎来处理数据，然后保存处理结果。ETL流程可被写入 pig或Hive中。结果可以用Hadoop进行分析。经证实，使用Hadoop存储和处理结构化数据可以减少10倍成本，并可以提升4倍处理速度。比传统ETL更突出的是，Hadoop还可以用来收集内部系统（比如应用和web的日志）以及远程系统（在网络和全球上）的遥测数据。把精细的感应数据提供给公司的能力模型，预测网络和设备上可能发生的问题，并主动采取措施。Hadoop还可以作为集中式数据集集线器，执行从跨组织的数据集分析道预测分析任何工作。这些应用如今广泛的部署在生产环境中，为手机所有组织数据提供了可能性，很好的驱动的产业的发展。
【2】
Hadoop用于实时数据抽取（Flume），实时数据存储（HBase）和实时数据查询（Impala）
【3】
Nexflix 数据挖掘的架构
ETL过程是松耦合的，组合使用Hadoop和非Hadoop工具，跨越云和我们的数据中心。举个例子：我们需要在基于云的Hadoop数据仓库中使用Pig和Hive执行每日总结，并将结果加载到在数据中心的关系数据仓库中。这是很常用的大数据架构，用小得多的关系数据仓库来对上基于Hadoop的系统。前者提供实时性更强的互动查询和报表，而且与传统的BI工具整合更好。

阅读(11513) | 评论(0) | 转发(0) |

上一篇：Ubuntu IP设置 /etc/network/interfaces

下一篇：内核网卡参数设置：devinet_ioctl()

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6