初识Hadoop-blue_1110-ChinaUnix博客

我了个去羽guoyulin.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

blue_1110

博客访问： 439478
博文数量： 54
博客积分： 610
博客等级：上士
技术积分： 721
用户组：普通用户
注册时间： 2011-01-24 10:52

文章分类

全部博文（54）

Big Data（4）
小知识（1）
设计模式（2）
Tools（0）
Android（1）
VBA（1）
法语相关（4）
网络（1）
算法（1）
Ubuntu/Vmware 7（7）
J2EE（13）
ORACLE（2）
J2SE（11）
C/C++/QT（6）
未分配的博文（0）

文章存档

2013年（27）

2012年（11）

2011年（16）

我的朋友

相关博文

初识Hadoop

分类： HADOOP

2013-08-05 23:06:54

前言
  我们生活在数据时代，据统计，06年产生的数据总量为0.18ZB，一ZB等于10亿TB 。不仅仅公司会产生电子数据，比如服务器日志，大数据于我们个人来说也是密切相关，例如我们访问的页面，淘过的产品，搜索过的物品等等，这些所有信息经过适当保存，分析，都会成为有用的数据。
产生
无法分析，挖掘的大数据是毫无用处的。
在分析之前，我们遇到的一个大问题，数据读取。多年以来，我们的磁盘存储在快速增加的同时，访问速度却没有相应大规模提高，现在1TB的硬盘已经相当流行，假设数据传输速度为100M/S,那么我们需要2个多小时来读取，当然，写入熟读就跟慢。
假设我们使用并行式读写，使用100个磁盘，每一个磁盘存储读取其中一部分，那么我们可以很快的读取完毕。
但是事情没有这么简单，还有很多问题需要思考:
A,硬件故障。采用备份，一旦某个硬盘出现故障，使用备份的数据进行恢复,Hadoop使用的HDFS使用的也是备份原理，但是具体机制有所不同(SecondNameNode?)
  B,多个节点如何共同完成任务?MapReduce将磁盘读写问题抽象，并转换为键，值的计算。

简而言之，Hadoop提供了一个可靠的的共享存储和分析系统，HDFS实现存储，Map/Reduce实现分析处理，这两部分是她的核心。

与其他系统对比
1，关系型数据库管理系统
    问题: 为什么不数据库来对磁盘上的数据进行管理呢？
     首先磁盘寻址的提高远远的慢于传输速度的提高。如果数据的访问模式中包含大量的磁盘寻址，那么读取大量数据集的时间势必更长(相对于流式的数据读取)
    另一方面，如果数据仅仅更新一小部分，那么关系型数据库管理程序更有优势，但是当大数据更新的时候，mapreduce更有优势。
    很多时候，可以将Map/Reduce视为关系型数据库管理系统的补充，它适合一次写入，多次读取数据的应用，而关系型数据库管理系统更适合持续更新的数据集。
   两者对比:

另一方面，Map/Reduce对于非结构化或者半结构化数据处理非常有效。换句话说，Map/Reduce输入的键值并不是数据固有的属性，而是由分析人员选择的。
2，网格计算(Grid Computing)
从广义上来讲，高性能计算的方法是将作业分配到集群的各个机器上，比较实用于计算密集型作业，但是如果节点需要访问更大量的计算，那么很多节点将受限于网络宽带的瓶颈而空闲下来等待数据。
Map/Reduce 会尽量在计算节点上存储数据，以实现数据的本地快速访问。数据本地化(Data locality)是Map/Reduce的核心特性。

阅读(2255) | 评论(0) | 转发(0) |

上一篇： Spring AOP事务管理

下一篇：Apache Hadoop周边名词

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6