google的生蛆原理（Google架构之四）-netroby-ChinaUnix博客

智者见远netroby.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

netroby

博客访问： 180174
博文数量： 148
博客积分： 2615
博客等级：少校
技术积分： 1645
用户组：普通用户
注册时间： 2008-05-23 13:43

文章分类

全部博文（148）

私言（107）
python（0）
ajax（0）
xhtml（0）
sql（0）
freebsd（0）
network（2）
windows（0）
mysql（0）
js（0）
css（1）
PHP（2）
未分配的博文（36）

文章存档

2010年（1）

2009年（111）

2008年（36）

我的朋友

最近访客

推荐博文

google的生蛆原理（Google架构之四）

分类：

2009-01-20 19:37:43

在法律上合法以后，Google就开始了技术设计。这地儿技术人员太少，所以我不做更深入的探讨，只描述个大概。前面说了，有个WEB的监视设备，那么下一步就是对web的内容进行剖析，分解，和分布。在设定web剖析的策略之前，我们需要明确我们要剖析什么？比如，一段Video，其中有萨朗私通不穿内裤接受询问的镜头，我想看，能找到不？对不起，google的回答是：不能。 ok。我是一个音乐迷，我无意中听了一歌，唱到，”。。。欺骗之后的疲惫。。。”，别的嘛也不知，那么我想找到这首歌，行吗？对不起，google的回答是：不能。但是，google可以让你搜索歌词库，然后找到歌名。这就明白了，google的搜索是基于文本的，而不是流媒体–就是指音频、视频等。其实，流媒体搜索是很复杂的事情，其复杂性不在技术上，而在于商业模式，无法统一，也无法实施。至于技术方面，早就风行世界的mpeg-7，mpeg-21标准，很容易就可以保证流媒体的可搜索性。按布林的说法，当时google如此决定完全是因为成本的原因：他不可能有钱做流媒体搜索。分析完文本之后，google将数据结果打包分类分布，他们用术语数据Barrel来形容，就是数据筒，每个桶里都放着打包分类的数据。以加快搜索相应速度。除此之外，完全依赖于操作系统本身自带的输入输出系统，无法做到高效率，于是Google又开发了基于磁盘数据影射的搜索方式，绕过操作系统，直接搜索。这也并不困难，无法就是缓冲磁盘阵列，然后进行代码的模式匹配-就好比你拿个筛子，合适尺寸的走，不合适的留。为了相应更高端的搜索要求，他们又做了仿射-也就是说，可以通过不同的途径找到同一的内容。这个更是简单，如果你学过比较好的数学的话。在这些基本的架构思想敲定后，google开始了服务器的布置，并实现了冗余部署。这个很重要，冗余是保证效率的关键，其目的很简单：让最需要的人在最快的时间内存取最需要的数据。就这么简单。为了管理冗余和分布式部署，google开发了全球的文件系统，每一个节点可以mount，也可以卸掉ummont-就好比是需要的时候上车，不需要的时候下车。这就是google的生蛆原理。不动声色的监视、蠕动、繁殖和分布。技术上OK就可以了？就可以赚钱了？可笑！记住，这世界，想赚钱，你得先有钱，所有那些记者们写的如何白手起家的故事都是编排给穷人看的，好让他们有了生活的希望。要玩钱了，这时候，拉姆·西里亚姆就出马了，这个天才的不折不扣的王八蛋该演戏了。于是，演出正式开始了。 …to be continued Technorati : google, 架构 Del.icio.us : google, 架构 Zooomr : google, 架构 Flickr : google, 架构

阅读(209) | 评论(0) | 转发(0) |

上一篇：IT运维管理

下一篇：老二永远为老大服务–关于Google架构的前言

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6