全部博文(80)
分类: HADOOP
2012-12-17 16:15:02
From:
2011年,对Hadoop来说注定是载入史册的一年:Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks,接手Yahoo!开源软件平台Apache Hadoop;Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投Hadoop怀抱;Hadoop之父Doug Cutting第一次莅临中国,布道Hadoop 0.23……
可以说,Hadoop生态系统呈现出一派欣欣向荣的景象。近日,记者专门采访了Hadoop in China的两位发起人——Yahoo!北京全球研发中心高级经理韩轶平和中科院计算所副研究员查礼,请他们为大家诠释Hadoop的现状。
Hadoop商机无限
2011年关于Hadoop的众多投资以及微软等公司转向Hadoop的事件,昭示了业内感受到了Hadoop中蕴藏的商机。
韩轶平认为:“互联网行业由于拥有深厚的技术实力,所以Hadoop得以率先在互联网行业得到了蓬勃发展。但这不意味着其他行业便没有商机。因为不是所有企业都有能力使用Hadoop,但需求又实实在在地摆在那儿,需要很多的技术支持、定制化产品,这便会最终催生出一个产业,来做这些方面的服务。”
查礼则解释了传统IT公司对Hadoop的态度:“微软、IBM这些公司拥抱Hadoop,并不是说它们在向Hadoop倾斜,而是将Hadoop作为一个标准来支持,将Hadoop加入到自己的产品体系或者业务架构中,并进而巩固其在这个市场上的地位。”
通过支持Hadoop,老牌IT厂商用最小的代价加入大数据处理这个新兴市场,不失为明智之举。
Haoop技术热点
NoSQL
从2010年NoSQL的好处被认识到之后,好像一夜之间在IT业内便已街知巷闻。目前,NoSQL已经不再停留在学习概念和坐而论道的阶段,而是得到了广泛应用,HBase、MongoDB、Redis等深入人心。应该说Facebook在这中间起到了领头羊的作用,率先采用了一些开源NoSQL系统来支持其大数据应用,而国内互联网企业也看到了这个趋势,并积极跟进,不断进行深入的交流和实践。
实时处理
据韩轶平介绍,现在包括Facebook和Yahoo!在内的越来越多的公司都在向“实时处理”这个方向发展,而且会有更多的公司来关注怎样真正地让数据处理和分析能够越来越实时,因为处理接近实时之后,会对业务产生深远的影响。例如对在线广告系统,如果处理时间从十分钟、一小时减少到一分钟,广告收益会有本质的区别。查礼认为,在解决了实时处理这个“快”的问题之后,“准”的问题就迫在眉睫了。而Hadoop/NoSQL就能解决“准”的问题,从而实现精准营销,达到高利润、低成本的目标。
此外,Namenode、Scalability(可扩展性)、HDFS Performance这些存在已久的问题,仍然是Hadoop的技术热点。
应用需求或者业务需求,说到底是要为企业赚钱。企业对经营模式、盈利模式的追求,最后导致业务追求,这种业务追求就反映到对系统的追求上,所以这些追求决定了有哪些问题要解决。例如,High Availability(高可靠性)对电商来说至关重要,如果在圣诞节宕机一小时,损失可想而知。
Hadoop应用场景
可能是长久苦于大数据处理手段有限的缘故,随着Hadoop应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。
对此,韩轶平说:“在我们研发中心的每次Hadoop训练班开学时,我都会告诫学员务必记住‘Hadoop不是万能的’。在做具体工作时,首先要考量它是否适合使用Hadoop。”这正如Doug Cutting所说:“如果一个小任务用一个节点就能完成,为何还多此一举用Hadoop呢?”但如果任务当前很小,考虑到以后会有暴涨的话,最好还是一开始就用Hadoop来实现,以便保持将来良好的可扩展性。因此,在动手做之前,这些问题都应该要想清楚,如果没有把握的话,可以多参加一些社区讨论和交流活动,看看哪些人、哪些公司在做类似的事情、有哪些经验教训,参考过后,再去做选型:技术到底怎样构架、应用怎样来组合这些技术。总之,做到不迷信、不盲从。
从狭义上来说,Hadoop就是MapReduce+HDFS,也就是一种离线处理或者批处理的模式。一方面,如果需求是对在线请求马上得到结果,Hadoop肯定不适合;另一方面,MapReduce是一个简化的并行模型,假设硬件总是要坏的,所以它中间所有的交互模式都做得很可靠、简单。这样一来,Hadoop能够处理的负载或者应用,就会相对较窄。
而互联网应用模式是一种简单模式,传统IT行业则复杂得多,路数与互联网企业完全不同,正因如此,Hadoop率先在互联网企业获得成功。但以后Hadoop极可能应用到传统IT行业,比如MIS或者ERP。在传统IT行业中,Hadoop是否保持原样,继续是专用系统,还是慢慢演化成为通用系统,现在尚未可知,但已经显露出这样的苗头。因此,查礼断言,Hadoop就像早期的操作系统一样,刚推出时是个专用系统,经过多年的发展,才成为通用系统。这也符合计算机行业中从专用到通用的螺旋上升趋势。
虽然目前Hadoop在大企业,特别是互联网大企业中应用较多,但韩轶平认为这并不是因为存在技术门槛的缘故,而是一方面要看企业是否需要做Hadoop,另一方面则是因为像Facebook、Google、Yahoo!这样的公司得到了较多的媒体曝光,为人所熟知,而更多的小公司,不管是国内还是国外,都在用Hadoop,可能规模较小、业务相对简单。而数据的膨胀,也让我们很难定义何为“小”公司了:硅谷一家创业公司,员工只有13人,但在Amazon租用了1400台机器跑它的一个搜索业务。
Hadoop主力谁属
Doug Cutting曾说:“Apache软件基金会的初衷是不希望始终有企业在某一个项目里面一家独大,我们希望有更多的人参与进来,希望有更多的交流和碰撞。”因此,尽管目前Yhaoo!在Hadoop中的贡献还是最大,但其占比一直在下降,这在韩轶平看来是件好事,因为现在有更多的公司在为Hadoop做贡献,Hadoop生态系统也日益完善。
目前看来,对Yahoo!老大地位形成挑战的几家势头较猛的公司是Cloudera、Facebook、Hortonworks,还包括国内的企业,比如华为的增长就很快。尽管华为此前从不开源,但现在还能够往Hadoop社区里面做贡献,也着实让人感到惊讶。韩轶平点评道:“这也从侧面反映了开源在中国慢慢得到认可了。”查礼则认为:“我觉得还是Hadoop给它带来了好处,或者至少没有什么坏处。”
MapR在特定应用场景下做出了贡献
2011年5月,MapR公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop,号称比开源版本的Hadoop性能高数倍。
对此,韩轶平解释道:“在今年的Hadoop Summit上,我了解到MapR确实在某些特定的应用场景和特定的问题规模下,起到了一定的效果。这样的优化对业界和整个社区绝对是件好事,因为总体上能够推进技术的发展。但我又不认为它能够完全解决问题,因为要把Hadoop做成一个通用系统,把所有问题都解决,还有很漫长的路要走。我很欣赏针对一类具体的问题,去提供一类的优化解决方案,这是绝对可能的,因为当整个产业扩大了以后,必然会出现某种程度上的分化或者定制化。但我不觉得它已经本质性地改变了Hadoop。而对于它公布出来的成绩,我也不怀疑,因为它是针对某些限定条件而得出的。”
查礼也表示认同:“既然MapR要兼容Hadoop,那么它的模式肯定没有创造性或者颠覆性的变化。Hadoop本身有很多能够优化的地方,在某个Benchmark上完全可以做到比Hadoop快很多。做系统其实就是在平衡,舍弃一些特性,就像CAP理论一样,总是有舍有得,不可能设计出一个完美的系统。”
2012年Hadoop畅想
2011年,可以看作是Hadoop蓄势待发的准备年,那么2012年,Hadoop又会怎样呢?
韩轶平讲出了他的Hadoop愿景:“第一,完善Hadoop生态系统,而不仅仅局限于Hadoop本身的持续开发、新特征加入和改进。第二,希望进一步根据不同的应用场景、专业领域和应用逻辑,出现更多的中间件和解决方案,因为它们能够帮助Hadoop走出互联网公司,走进更多的公司和行业,从而真正推动整个信息产业和行业的发展。”
查礼也畅想道:“2012年应该是Hadoop向传统信息领域进军的一年。在这个领域,海量数据的问题早就存在,只是没有办法解决或者解决的成本太高,再加之那种‘反正这样的问题同行们也都解决不了’的心态,所以就先搁置。互联网企业已经为Hadoop的应用做出了表率,明年完全有理由期待它在传统信息领域得到更多的应用。”
众所周知,传统行业手中握有非常多的数据,但苦于没有好的方法充分利用起来。通过像Hadoop这样的大数据处理技术,完全可以帮助传统行业创造出更新的价值:一方面可以使其传统业务逻辑得到更有效的实现,另一方面也能够培养出一种思维和方法,使其慢慢从中发现更多的价值,并进而延伸出更多的价值。此外,Hadoop还可能催生很多其他行业,例如可以将高铁网络上的所有运行数据、轨道数据采集处理以后,进行优化,就会对交通运输的价格体系和物流体系产生深远影响。
社会总是要前进,需要有更新的产业出现,Hadoop是一个值得信赖的推动引擎。