Chinaunix首页 | 论坛 | 博客
  • 博客访问: 180174
  • 博文数量: 148
  • 博客积分: 2615
  • 博客等级: 少校
  • 技术积分: 1645
  • 用 户 组: 普通用户
  • 注册时间: 2008-05-23 13:43
文章分类

全部博文(148)

文章存档

2010年(1)

2009年(111)

2008年(36)

我的朋友
最近访客

分类:

2009-01-20 19:37:43

在法律上合法以后,Google就开始了技术设计。 这地儿技术人员太少,所以我不做更深入的探讨,只描述个大概。 前面说了,有个WEB的监视设备,那么下一步就是对web的内容进行剖析,分解,和分布。 在设定web剖析的策略之前,我们需要明确我们要剖析什么? 比如,一段Video,其中有萨朗私通不穿内裤接受询问的镜头,我想看,能找到不? 对不起,google的回答是:不能。 ok。我是一个音乐迷,我无意中听了一歌,唱到,”。。。欺骗之后的疲惫。。。”,别的嘛也不知,那么我想找到这首歌,行吗? 对不起,google的回答是:不能。但是,google可以让你搜索歌词库,然后找到歌名。 这就明白了,google的搜索是基于文本的,而不是流媒体–就是指音频、视频等。 其实,流媒体搜索是很复杂的事情,其复杂性不在技术上,而在于商业模式,无法统一,也无法实施。至于技术方面,早就风行世界的mpeg-7,mpeg-21标准,很容易就可以保证流媒体的可搜索性。 按布林的说法,当时google如此决定完全是因为成本的原因:他不可能有钱做流媒体搜索。 分析完文本之后,google将数据结果打包分类分布,他们用术语数据Barrel来形容,就是数据筒,每个桶里都放着打包分类的数据。以加快搜索相应速度。 除此之外,完全依赖于操作系统本身自带的输入输出系统,无法做到高效率,于是Google又开发了基于磁盘数据影射的搜索方式,绕过操作系统,直接搜索。这也并不困难,无法就是缓冲磁盘阵列,然后进行代码的模式匹配-就好比你拿个筛子,合适尺寸的走,不合适的留。 为了相应更高端的搜索要求,他们又做了仿射-也就是说,可以通过不同的途径找到同一的内容。这个更是简单,如果你学过比较好的数学的话。 在这些基本的架构思想敲定后,google开始了服务器的布置,并实现了冗余部署。这个很重要,冗余是保证效率的关键,其目的很简单:让最需要的人在最快的时间内存取最需要的数据。 就这么简单。 为了管理冗余和分布式部署,google开发了全球的文件系统,每一个节点可以mount,也可以卸掉ummont-就好比是需要的时候上车,不需要的时候下车。 这就是google的生蛆原理。不动声色的监视、蠕动、繁殖和分布。 技术上OK就可以了?就可以赚钱了? 可笑!记住,这世界,想赚钱,你得先有钱,所有那些记者们写的如何白手起家的故事都是编排给穷人看的,好让他们有了生活的希望。 要玩钱了,这时候,拉姆·西里亚姆就出马了,这个天才的不折不扣的王八蛋该演戏了。 于是,演出正式开始了。 …to be continued Technorati : google, 架构 Del.icio.us : google, 架构 Zooomr : google, 架构 Flickr : google, 架构
阅读(209) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~