大家一定很奇怪,为什么把百度的“阿拉丁”和谷歌的“云计算”摆在一起说,但是经过笔者的仔细分析,发现两者确有相似之处。
什么是百度“阿拉丁”?
李彦宏说:“在互联网上,有很多信息并没有被网页化,我们根本没有触及到,也就是所谓的‘暗网’,‘阿拉丁计划’正是瞄准这些未知世界。”
李一男说:“阿拉丁是一个开放的搜索引擎平台,它是百度的,更是面向所有人的。我们希望未来的搜索引擎,能像阿拉丁神灯那样,在瞬间满足用户所有的搜索需求。”
由此我们可以看到两个关键:一、“阿拉丁”计划将大大增加百度的信息量,包括抓取“暗网”信息;二、将整合百度庞大的信息数据库,满足所有的搜索需求。
什么是“暗网”( Hidden Web)?百度并没有给出明确的答案。笔者所能想到的“暗网”有四种情况:一、网站在建设过程中由于代码不合理导致搜索爬虫无法检索的网页;二、为了保护信息安全和隐私设置了robots协议屏蔽爬虫的站点;三、大量存在于互联网但未被网页化的信息。四、即时更新的互动类信息,如BBS的即时交流,垂直行业的供求信息,电子商务的商品信息等,百度无法第一时间抓取到的更新。
“暗网”究竟有没有像百度说的这么神秘?李彦宏表示目前能被搜索引擎检索到的信息只占人类所有信息的千分之二,果真如此,那暗网占了多少?没有WEB化的暗网信息,为什么不愿意WEB化?这里涉及到一个很重要的问题,暗网里,有多少信息是私密的,有多少是可公开化的?“阿拉丁”能在暗网里获取多少比例的有用信息?这是一个玄之又玄的问题,估计百度自己也弄不清楚。
相对而言,李一男的解释更直观,也更靠谱:百度希望通过对“阿拉丁”平台的构筑,超越现有web内容的限制,对包括“暗网”在内的所有信息进行更深一步的分析、融合、处理,确保为用户提供零成本、无障碍、无时差的精准搜索结果。
看到这里,我们才恍然大悟,原来百度“阿拉丁计划”最终的目的是为了整合所有信息,再把这些信息加以分析处理,让用户在同一个搜索框架下,实现多元化的搜索需求。什么是多元化的需求?比如在在生活服务领域,用户搜索分类信息,百度显然比不上雅虎口碑;在电子商务领域,用户搜索商品信息,百度比不上阿里巴巴;在社区即时信息搜索方面,百度显然比不上奇虎和大旗……“阿拉丁计划”就是要把这些庞大的信息量,从无序变成有序,从复杂转化为简单,快速、精确的满足不同的用户需求,这才是“阿拉丁”的目的所在。
如何实现对庞大信息量的处理?我们剥开“阿拉丁”的层层面纱,终于看到事情的本质,原来“阿拉丁”就是包装过的“云计算”。要应对每天数十亿次的搜索请求,要同时满足各个领域不同类型的数据分析,要把杂乱无章的信息整理为精准的搜索结果……这一切,就必须有服务器群的并行计算,也就是我们常说的“云计算”。
百度“阿拉丁”和谷歌“云计算”
是谁炒热了“云计算” (Cloud Computing)的概念?当然是谷歌!为了彰显强大的技术优势,谷歌提出“云计算”时代的到来。正是这个概念,令许多崇拜者如坠云里雾里,在公关宣传的文章里,“云计算”为未来的计算机应用描绘了一幅幅美好的蓝图。但是在实际应用上,“云计算”究竟带来了什么?
谷歌告诉我们,您可以使用谷歌提供的相册,可以使用Gmail收发邮件,可以使用Google Docs编辑文档,因为这些文件都是放在谷歌的服务器上,谷歌分布式、并行式的服务器“云计算”将为您提供专业的维护、管理,您不用担心储存的文件会丢失……这些就是谷歌“云计算”的运用?这是“云计算”还是“云存储”?谷歌没有告诉我们的是,他们事实上是用庞大的服务器群组来并行处理谷歌海量的信息数据中心,并最终提供搜索服务。
整合信息,并且把检索到的信息以最快速,最精准的方式展现给搜索用户,这是下一代搜索引擎所要实现的目标。“云计算”的概念尽管有点炫,但它提出了一个核心问题,那就是如何实现拥有海量信息的搜索引擎可以更快更准处理数据的方法。
我们透过现象看本质,无论是百度的“阿拉丁”,还是谷歌的“云计算”,都是为搜索引擎技术服务的。那为什么要用这么炫这么神秘的名词?其中的道理不言自明。