Google是怎样工作的

linda1168 2007-08-26

展开全文

在过去的12个月,Google的员工数目增加了一倍,并完善了自己的搜索引擎来提高搜索的速度,而且现在响应的查询超过了Microsoft和Yahoo的总和.但有一个查询我们必须要自己回答:Google是怎样工作的?

都是拼写检查的错.十年以前的这个九月,故事就是这样发生的.一些斯坦福毕业生在帮助Larry Page为他的搜索引擎选名字."Googolplex(巨大的数字),"Sean Anderson说.(他们已经察觉到这玩意能变得多大.)"Googol","Page回应.Anderson在检查这个名字是否被使用的时候,把g-o-o-g-l-e输入了他的浏览器并犯了自p-o-t-a-t-o-e[1]以来最有名的拼写错误.Page在几个小时内注册了这个名字,而今天,Google不再是打字错误,它已经成为一个动词,一个有着$160,000,000的市场的动词.

下面是一个导引,来看看在一个常规搜索的过程中所发生的一切--当然,有用自动的拼写检查.

1.查询框

故事由某人敲入对某种信息的查询开始,比如说最安全的狗粮,交管局什么时候停业,或者中国的优惠利率是多少.

2.DNS

"Hello,这里是接线员..."

Google的域名服务器软件运行在全世界Google租用的或者是公司所有的数据中心上,包括一个位于曼哈顿港务局的总部.它们唯一的任务就是尽可能高效的把搜索请求引导到一个Google集群,其中会考虑到哪个集群离搜索者最近以及当时哪个最空闲.

3.集群

搜索请求接下来来到至少两百个集群中的一个.这些集群在Google在全世界拥有的数据中心里.

4.Google网页服务器

这个程序把一个搜索请求分散到几百或上千的机器上以让它们能同时工作.这跟独自一人在食品店购物和让100人同时找一件物品并扔进你的购物车的差异是一个意思.

5.索引服务器

Google所知道的东西都被保存在一个很大的数据库里.但与其等一台电脑筛选那么多G的数据,Google让几百台电脑同时扫描它的"卡片目录"来寻找任何相关的条目.热门的搜索条目被缓存起来--保存在内存里--几个小时而不是再次从头执行.布兰妮,就像你一样.

6.文档服务器

在索引服务器生成了它的结果以后,文档服务器把所有相关的文档(包括链接和文章片断)从那个很大很大的数据库中拉出来.Google做了什么让搜索Web变得这么迅速?其实它没有.它保存有互联网上(被保存在它文档中心的)所有信息的三份拷贝,而所有这些数据都已经被整理好了的.

7.拼写服务器

Google不懂阅读语句;它会查找字词的模式,可以是英语的也可以是梵语的.如果它根据你的搜索请求的模式得到1,000个结果但却找到一百万个由一个类似模式得到的结果,那它将把那些点连接起来并礼貌的询问你是否原本想要查询这些词语,甚至当它已经提供结果的时候也会发生.比如你的肥胖的手指输入"hwedge funds"[2]的时候.

8.广告服务器

任何搜索查询同时也会通过一个广告数据库,之后匹配的结果将会提供给Web服务器,来把这些广告放在结果页上.广告团队其实在和搜索团队赛跑.Google发誓让所有的搜索都能尽快的执行;所以如果广告结果需要比搜索结果更长的时间来生成,那么这些广告就不会被放到结果页上--Google也就没法从那次搜索中赚钱.

9.页面生成器

Google网页服务器把几千条为这次搜索查询生成的结果收集起来,整理组织所有的数据,然后把Google简洁可爱的结果页展示在你的浏览器窗口里,所有的一切都发生在比看着条句子短的时间内.

10.搜索结果显示完毕

一般在0.25妙,或者更短.

集群控制

Google的天才体现在它的网络软件上,这软件帮助几千台便宜的电脑在一个集群内能像一个超大的硬盘工作.那些不贵的电脑让Google不用把停止整个表演就能替换部件:如果一台电脑罢工,只要有一个工程师弄走那台坏掉的机器,旁边就有至少两台电脑能去顶替它的位子.

电力

制约Google性能的东西只有一个,那就是这家公司能买多少电.位于达拉斯Columbia River附近的最近建造新数据中心Oregon已经用掉了18亿瓦的水电;不巧的是,这里是亚洲与美国的网络的连接处.这家生产字节的工厂有两个运算中心,每一个都有一个足球场那么大.

容量(Petabytes)

基于一些Google发布的数据,专家们猜测至少20P(译者注:两万万亿)[3]字节的数据被存储在它的服务器里.但是Googleytes就是以不公开而闻名;《连线》杂志说Google可能有200P的容量.那么那到底是多少?如果你的iPod能有1P(一百万G)那么大,那你将能播放两亿首歌.而如果你从现在开始通过你的高速网络连接下载1P的数据,那么你的曾曾曾曾孙可能还在那守着,到那时候最后一点字节还在传输,在2514年.

Page Rank

Google决定一个网站有多可靠--还有在Google生成搜索结果列表的时候,这个网站的内容有多重要--这需要考虑超过两百个因素,就跟它分析内容的时候一样.但秘密在于Google的专利公式.这个公式是通过页面上所有的链接来使Google了解被连接站点的不同之处.这也意味着一个网站的可信度很大程度上是根据连接到这个网站的站点的质量.

Google机器人

Google使用叫蜘蛛的程序来生成互联网的拷贝.在热门站点,Google机器人在一个小时内可能沿所有的连接爬行几次.当它们通过页面时,爬虫保存文本或代码的每一个字节.这些原始数据被拉回集群,通过磨坊,然后按计划渐进的替换原本保存在索引和文档服务器中的旧数据,来保证结果是新鲜的,而不会变为化石.

[1]1992年6月15日,作为前副总统的Dan Quayle在一个小学的活动中,把12岁孩子William Figueroa原本正确的拼写potato加上e而出丑.详细情况

[2]在键盘上e与w相邻.如果手指太粗就可能同时按下.(汗...)

[3]1P=1,000,000,000,000,000,一百万G