Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4183318
  • 博文数量: 291
  • 博客积分: 8003
  • 博客等级: 大校
  • 技术积分: 4275
  • 用 户 组: 普通用户
  • 注册时间: 2010-10-30 18:28
文章分类

全部博文(291)

文章存档

2017年(1)

2013年(47)

2012年(115)

2011年(121)

2010年(7)

分类: 云计算

2012-05-12 14:51:36

参加有奖试读活动,我下载了《Hadoop权威指南(第二版)》的两章。
第一章通过作者通过自己家人的照片量给我们描述了我们现在不仅是处于数字时代,还处于大数据量时代,这两年随着android,iphone,ipad的兴起,智能手机迅速普及到全中国,全世界。智能手机有别于传统手机,目前的智能手机已经基本上相对于一台普通pc机,电脑上能够做的事,手机上也能做,而且手机更加快速方便,使用3G可以随时随地拍摄照片上传到网络,分享微博,这样我们的数据量会以每年5,6倍的增长。对应搜索企业,网站将会面对海量的访问日志,海量的网页,微博关系分析。
第二章主要是举了一个美国天气预报数据分析的实例,详细说明Map,Reduce之间的关系,如何完成分析一个世纪的数据,获取出最高气温的整个过程。
        我以前的公司是一个CDN公司,每天每台squid服务器上产生非常多的日志,但是我们计费中心需要5分钟,10分钟的即时流量分享,和计费账单,这些都依赖于日志分享,纯粹依赖传统关系数据库是不可能及时分析出如此庞大的数据,Hadoop的出现之前我们就有用集群分析日志的程序,也能够很好地出来日志,但是那时我们没有一个系统逻辑概念,花大量精力解决集群内部出现的各种问题,例如机器不工作,有部分数据丢失,有个机器工作比较慢等等问题。
        公司若是用了Hadoop的话,就不需要花费大量带宽把日志文件传送到日志中心进行处理计算,当时这个日志分享系统最大瓶颈在于网络限制,因为日志中心的带宽是有限的。
        Hadoop出现之后,首先我们关注的是它的思想模型,Map和Reduce,就是我们传统的分治算法。MapReduce模式中,Map是先把原始数据分散到各个服务器上并行处理,然后把Map的输出到Reduce再进行处理。是一个从分散到集中的过程。它体现的是分布并行的思想。
        Hadoop另外一个是对分布式任务的统一控制,这个使我们可以不用管个别任务失败的情况,更加关注于数据的处理逻辑。
        Hadoop最总要作用是提供一个平台,让我们的big job 变为small jobs,small jobs 变为 tiny jobs.能够让我们从控制一台机器变为控制10台,百台,让我们可以喊出,“给我一个hadoop,我可以让全世界的电脑同时都去做一项计算”。
        或许是Hadoop脱胎于搜索引擎,处理方式都是一行行的文本,我觉得传统关系数据库的复杂关系统计,Hadoop估计还是处理不了,或许是我思想局限有关吧
阅读(3380) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~