
Google機器人:Google部署了一項稱之為蜘(spiders)的項目,為的是建立它自己的互聯網副本。在一些熱門的網站,Googlebots可能一小時內要跟蹤若干次該網站的所有鏈接。每一次搜索,“蜘蛛們”就會把第一篇文章或代碼的每一個字節都保存下來。原始數據將會被送入集群中,穿過整個工廠,并且有計劃地加速替換掉那些在索引服務器和檔案服務器中的舊數據,從而保證搜索結果都是新鮮的,而非靜止的。
網頁排序:當Google形成了一個搜索結果的清單時,通過對內容中200多個因素的分析,Google會決定一個網站有多可靠,這個網站的內容有多重要。Google's方程式的秘密是,它會通過每一個網站被其他不同網站鏈接的情況,對該網站的重要性做出評估,換言之,一個網站能否被視為可靠,很大程度上取決于鏈接它的那些網站的質量。
容量:基于一些Google發布的極有限的數據,專家猜測,Google的服務器至少存儲了20個perabytes的數據(1pb等于100萬G)。不那么保守的《連線》雜志則說,Google可能有200個pb的容量。至底有多少呢?如果你的iPod只有1petabyte,你就能存儲大約2億首歌。如果你要在高速互聯網上下載1petabyte大小的東西,你的曾曾曾曾孫可能在2514年最后一個字節傳完時仍守在電腦左右。
集群控制
Google天賦表現在它的網絡軟件上,它能幫助一個集群中的成千上萬臺廉價電腦像一個巨型硬盤一樣工作。那些便宜的電腦允許Google在不停止整個“表演”的情況下替換局部組件;如果一臺電腦死機了。至少有兩臺其他的電腦做好了替代它的準備,此間,工程師會把那臺壞了的電腦換下。
1、搜索框
一切以任何人在網絡上展開搜索為起點。任何關鍵詞,比如:環球企業家
2、域名服務器
Google域名服務器上的軟件,運行于公司在全世界租用的或白有的數據中心上,其中包括在曼哈頓老港務局的一臺電腦。它們唯一的目的,是計算出哪些集群離搜索者最近,哪些集群此刻最不繁忙,以便盡可能高效地“指引”這些搜索進入Google的集群。
3、集群
這些搜索請求一刻不停地留入Google分布在全球各地數據中心的至少200個集群中。
4、網絡服務器
這個程序把一個查詢分攤給成千上萬臺機器,以便它們能在同 時刻為此次搜索服務。這種差異好比以前是你自己一個人去雜貨店買東西,而現在有100個人同時幫你找這件東西,然后把它扔到你的手推車里。
5、索引服務器
Google所知道的一切都存儲于一個巨大的數據庫中。Google有上百臺電腦同時掃描它的“卡片目錄”以找到每一個相關的條目,而不是僅用一臺電腦篩選這些十幾億的字節。熱門的搜索詞語會被緩存儲在內存中幾個小時,而不是重新再搜一遍。
6、檔案服務器
在索引服務器把所有的結果部匯編后,檔案服務器抽出所有相關的文件——巨大數據庫里的鏈接和文章摘錄。Google如何做到如此快速地搜索頁面?其實它沒有。Google在它已建立了索引的檔案服務器中保存了三份互聯網上的所有資料,這些資料都已經分門別類,做好了被使用的準備。
7、拼寫服務器
Google并不閱讀詞匯。它尋找這些文字的模式,或者是英文或者是梵語。如果它根據你的搜索請求的模式得到1000個結果,但卻找到一百萬個由一個類似模式得到的結果,它會把這些點連接起來,并禮貌地詢問你是否原本想要查詢這些詞語,盡管你的肥手指可能把“對沖基金”錯拼成“對蔥基金”。
8、廣告服務器
每一個查詢都同時通過一個廣告數據庫,與之相匹配的數據將會被送至頁面服務器,以便它們能出現在結果顯示頁。廣告團隊在跟搜索團隊賽跑。Google立志盡可能提高搜索速度。如果廣告配匹的結果所花費的時間比搜索結果用時更長,它就不會呈現在網頁上,Google也就不能在此項搜索上賺到錢。
9、頁面生成器
Google的頁面服務器把它對某一項查詢的成千上萬次搜索結果收集起來,組織所有的數據,然后把這些機靈而又簡單搜索結果呈現在你瀏覽器的窗口中,整個過程比你讀這個句子所花費的時間還短。