Chinaunix首页 | 论坛 | 博客
  • 博客访问: 308123
  • 博文数量: 84
  • 博客积分: 6010
  • 博客等级: 准将
  • 技术积分: 2100
  • 用 户 组: 普通用户
  • 注册时间: 2006-09-25 14:02
文章分类

全部博文(84)

文章存档

2011年(10)

2010年(22)

2009年(17)

2008年(35)

我的朋友
最近访客

分类: LINUX

2011-04-05 10:03:49

中科院计算所举办的“第四届Hadoop in china 2010中国云计算大会”,于9月4日在北京闭幕。本次大会有千余Hadoop云计算技术精英、互联网企业、行业领袖参加,并做深度演讲。

以下是中科院专家程学旗谈到的Hadoop面临的3大挑战。


图:中科院计算机所专家程学旗

大规模数据处理技术与挑战。他认为在大规模数据处理技术,互联网大规模企业是走在科研的前面的,因为互联网本身就是裂变式的增长 的。现在的网络服务、信息规模都是在裂变式增长,而现在的信息节点规模基本达到了十亿、百亿、万亿为单位的处理。那么Hadoop在这种数据规模下是怎样 存储、组织和索引数据的呢?又该怎样去搜索和访问有价值的数据呢?程学旗表示这样大的规模处理也带来了巨大的挑战。

大规模数据处理的算法挑战

程学旗从两个角度探讨了Hadoop应用,一个是规模增长对Web规模数据处理算法的挑战。他认为面对这么大的网络和大规模的数据节点,如何找到合 适的 算法和处理策略是很重要同时也是一个巨大的挑战。理论跟实践的结合也是很重要的,有些算法可能很好,但是在实践中未必会发挥实际作用。程学旗认为现在对数 据的分析大概方法就是密度估计、分析、分类、检测等等,他表示数据算法以后也会有很多很多,但是这些算法能否有通用的机制进行性能质的改进,本质上他做一 些提升,有没有这样的机制?这是一个非常大的挑战。 程学旗认为算法和数据的一些认识和方法能否产生价值和作用可以从两个方面考虑:第一现在的算法网络化之后我们要重新思考这个算法机制的问题,第二,云计算 能不能对这些算法进行有效的支持。

针对算法问题程学旗也举了两个技术,第一个是推荐技术,比如说一个人从行为的开发性买了啤酒、尿布、 牛奶,从网上处理的时候这个规模非常大,但实际上放到我们模型上非常的稀疏。这个时候以计算的视角,大规模的系统空间里面要从不同的视角考虑怎么样去移植 云计算,如果说最优化的方法是按方的话,那么在多视角情况下可能要按立方求解。第二个是网络社区,比如说在QQ群里面有不同的社区,有一些社区是显示存在 的,有些是隐性的,而且交织在一起的。所以社区现象是网络信息的分布,网络形态的一个基本的现象。这个基本的现象为什么要进行研究?从商业价值来看,对这 种产品的推广,提高朋友的推荐,环境的推荐、用户黏性增强都很有价值。但是做一个社区分析如果把它变成一个简单从物理来看是一个很简单的思路,比如说一个 网络的点,这些最简单的办法就是用有效的方法去连接稠密给它找出来。当然在互联网里面,在Web情况下,它实际上也是一个大规模稀疏这样一个网络。在稀疏 网络里面去发现社区,实际上它是一种指数型的方法。程学旗认为算法自身也面临一些困境,这些都需要大家一起来解决。

大规模数据处理的维度问题

程学旗说到的第二个问题就是维度问题。最简单的就是搜索,在搜索中,下一个空间模型,一个文本下一个空间可能是十万以上,高维度就可能带来维数灾 难,而 随着维数的增加,就会极大地增多问题的处理难度,同时也会大大降低时效性。对于这种高纬度数据,压缩技术也显得很重要,程学旗认为可以参考基于有效的纬度 的约减的压缩,该压缩方式本身也可以去噪音。除此之外数据挖掘也是一项重点,挖掘就包括:广告挖掘、文本挖掘、图象检索、入侵检测、电板设计等等。

Hadoop存在三个方面的挑战。

程学旗认为Hadoop现在还是不够成熟,主要表现在以下三个方面:首先在数据存储方面,低成本可扩展的问题。程学旗从公开的数据看到就是在 Hadoop目前集群中裸数据的容量12P左右,每天的增加的商业数据是20T-30T。这样每天的更新就带来存储管理上的挑战与压力。第二是文件和数据 的管理方面,程学旗介绍说我们在Hadoop上看到一些老的数据,比如说Flicr的文件是30亿张图片,Facebook是600亿张图片。怎么样做到 这种大规模小文件和大文件的并存的情况下如何做到管理的灵活性、方便性和性能高效,这实际上是目前我们很多商业化云计算平台需要重点要解决一个问题。也就 是说如何构建支持高效率存储访问的大规模的小文件管理,以及大文件和小文件如何共同管理,这是目前海量数据存储面临一个问题。最后就是基于MR数据计算的 问题。程学旗介绍在大的任务分发的时候,每一个MAP需要传输一个文件过去,每次都需要一个磁盘的I/O和一次网络传输,当多个Reduce同时读取同一 个节点上的MAP输出数据时磁盘带宽将形成瓶颈,极大的降低通信性能。所以如何在支持运行时容错的同时进行高效数据传输,分布式数据处理平台如何更好的支 持复杂算法?

程学旗的演讲中主要讲了两个圈子里的人:做算法、分析的圈子和做架构、设计的圈子。这两个不同的圈子现在已经开始在思考他们怎么样结合了。当然至少现在还没有很好的突破点,未来的话也许是一个巨大的挑战。最后程学旗表示中科院计算所将大力支持开源。

阅读(345) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~