应该在什么时候使用Hadoop-jieforest-ChinaUnix博客

一名系统架构师的博客

首页　| 　博文目录　| 　关于我

jieforest

博客访问： 4188443
博文数量： 626
博客积分： 10
博客等级：民兵
技术积分： 11080
用户组：普通用户
注册时间： 2012-08-23 13:08

文章分类

全部博文（626）

关系数据库（1）
Scala（1）
Node.js（1）
Web服务（1）
Linux（3）
虚拟化（5）
JavaEE（7）
PHP（1）
前端框架（1）
Ruby（1）
网络通信（11）
安全（1）
Erlang（1）
分布式计算（2）
Linux（3）
HTML5（2）
NoSQL（10）
应用服务器（4）
大数据（4）
IDE开发工具（4）
前沿趋势（4）
游戏引擎（2）
Python（3）
数据分析＆数据挖（3）
Scala（2）
云计算＆云存储（7）
Node.JS（19）
web开发（20）
消息中间件（13）
移动开发（13）
数据库及工具（25）
嵌入式开发（10）
QT及GTK+界面设计（1）
JVM（23）
操作系统（13）
高并发（1）
Hadoop（1）
行业工具（14）
文献工具EndNote（5）
RIA技术（8）
图形图像（2）
PHP（1）
java工具（34）
DTV数字电视（30）
表现层技术（2）
脚本技术（20）
项目跟踪JTrac（1）
JSF（19）
GWT＆GAE（5）
软件项目管理（9）
JavaEE开发（71）
C++（3）
杂文（18）
Java&算法（61）
Ant与Maven（3）
Java报表及其工具（12）
数据挖掘（Data&n（3）
软件体系结构（10）
Web测试与软件测（40）
软件工程（9）
软件工程工具（5）
防火墙技术（0）
排版TeX和LaTeX（4）
未分配的博文（13）

文章存档

2015年（72）

2014年（48）

2013年（506）

我的朋友

相关博文

应该在什么时候使用Hadoop

分类： HADOOP

2013-10-16 10:10:56

有人问我，“你在大数据和Hadoop方面有多少经验？”我告诉他们，我一直在使用Hadoop，但是我处理的数据集很少有大于几个TB的。

他们又问我，“你能使用Hadoop做简单的分组和统计吗？”我说当然可以，我只是告诉他们我需要看一些文件格式的例子。

他们递给我一个包含600MB数据的闪盘，看起来这些数据并非样本数据，由于一些我不能理解的原因，当我的解决方案涉及到pandas.read_csv文件，而不是Hadoop，他们很不愉快。

Hadoop实际上是有很多局限的。Hadoop允许你运行一个通用的计算，下面我用伪码进行说明：

Scala风格的伪码：

[python] view plain copy print ?

collection.flatMap( (k,v) => F(k,v) ).groupBy( _._1 ).map( _.reduce( (k,v) => G(k,v) ) )

SQL风格的伪码：

[sql] view plain copy print ?

SELECT G(...) FROM table GROUP BY F(...)

目标：计算图书馆书籍的数量
Map：你统计奇数书架上书的数量，我统计偶数书架上书的数量。（人越多，统计越快）
Reduce：把我们单独统计后的数据加在一起。

我们所做的只有两个：F(k,v)和G(k,v)，除开在中间步骤中的性能优化，一切都是固定的。

它会迫使你在Map中进行所有的计算，分组和统计，执行运算的方式像是穿上了紧身衣，其实很多计算更适合选用其它模型。穿上紧身衣的唯一原因是这可能会扩展到非常大的数据集上，而大多数情况下，你的数据量可能会小几个数量级。

但是由于“大数据”和“Hadoop”这两个热门词，即使很多人实际上不需要Hadoop，他们也愿意穿上“紧身衣”。

一、如果我的数据量是几百兆，Excel可能没法加载它

对于Excel软件来说的“很大的数据”并非大数据，其实还有其它极好的工具可以使用——我喜欢的Pandas。Pandas构建于Numpy库之上，可以以矢量格式的方式有效地把数百兆的数据载入到内存中。在我购买已3年的笔记本上，它可以用Numpy在一眨眼的功夫把1亿的浮点数乘在一起。Matlab和R也是极好的工具。
对于几百兆的数据量，典型的做法是写一个简单的Python脚本按行读取文件行，并处理它，向另一个文件写入。

二、如果我的数据是10GB呢

我买了个新笔记本，它有16GB的内存和256GB的SSD。如果你要载入一个10GB的CSV文件到Pandas，它占用的内存实际上是很小的——其结果是以数字类型的字符串保存的，如“17284832583”作为4字节货8字节的整数，或存储“284572452.2435723”字符串作为8字节的双精度浮点数。
最坏的情况是你或许不能把所有的数据都同时载入到内存中。

三、如果我的数据是100GB、500GB或1TB呢

买个2TB或4TB的硬盘，在桌面PC或服务器上安装一个Postgre来解决它。

四、Hadoop远远比不上SQL或Python脚本

在计算的表达方面，Hadoop弱于SQL，也弱于Python脚本。
SQL是一个很直接的查询语言，适合做业务分析，SQL的查询相当简单，而且还非常快——如果你的数据库使用了正确的索引，二级查询或多级查询另当别论。
Hadoop没有索引的概念，Hadoop只有全表扫描，Hadoop有高度泄露抽象——我花了很多时间来处理Java的内存错误、文件碎片以及集群竞争，这些时间远大于我花在数据分析上的时间。
如果你的数据并不是像SQL表那样的结构化数据（比如纯文本、JSON对象、二进制对象），通常是直接写一个小的Python脚本来按行处理你的数据。把数据存储于文件，处理每一个文件，等等。如果换成是Hadoop就很麻烦。
相比于SQL或Python脚本，Hadoop要慢的多。正确的使用索引后，SQL查询总是非快——PostgreSQL简单的查找索引，检索确切的键值。而Hadoop是全表扫描的，它会把整个表进行重新排序。通过把数据表分片到多台计算机上后，重排序是很快的。另一方面，处理二进制对象，Hadoop需要重复往返于命名节点，目的是查找和处理数据。这适合用Python脚本来实现。

五、我的数据超过了5TB

你应该考虑使用Hadoop，而无需做过多的选择。
使用Hadoop唯一的好处是可伸缩性非常好。如果你有一个包含了数TB数据的表，Hadoop有一个适合全表扫描的选项。如果你没有这样大数据量的表，那么你应该像躲避瘟疫那样避免使用Hadoop。这样使用传统的方法来解决问题会更轻松。

六、Hadoop是一个极好的工具

我并不讨厌Hadoop，当我用其它工具不能很好处理数据时我会选择Hadoop。另外，我推荐使用Scalding，不要使用Hive或Pig。Scalding支持使用Scala语言来编写Hadoop任务链，隐藏了其下的MapReduce。

阅读(2857) | 评论(0) | 转发(0) |

上一篇： DB2数据库性能优化介绍

下一篇： Nginx高并发负载的优化(1)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6