岳國慶 彭少杰
摘要:21世紀人類社會進入了網絡時代,搜索引擎已成為Internet的第一應用。文章從功能服務、特色服務、排序技術和網頁搜索結果四個方面對目前中國使用率最高的兩大搜索引擎——Google和百度進行比較分析,以期為更好地掌握和使用搜索引擎提供借鑒意義。
關鍵詞:搜索引擎;Google;百度
中圖分類號:G354.2
文獻標識碼:A
文章編號:1674-1145(2009)-02-0018-02
一、搜索引擎概述
因特網在全世界以史無前例的速度和規模不斷發展壯大,而因特網上的信息也像原子裂變一樣迅速膨脹。如何檢索和查詢這些信息資源已迫在眉睫,在這樣的背景下搜索引擎的發展應運而生。自從1994年網絡搜索引擎yahoo公司成功開發并應用于網絡信息檢索以來,搜索引擎的研究與發展非常迅速。幾乎所有上網的人都會用到搜索引擎來查找信息。因此,搜索引擎已成為大家查找網絡信息不可或缺的得力助手。
機器人搜索引擎一般由搜索軟件、索引軟件和檢索軟件三部分組成。搜索軟件通常稱為機器人(Robot)、爬蟲(Crawlers)或蜘蛛(Spiders),它們可以運行在互聯網上,能夠沿著網站的鏈接從一個頁面跨越到另一個頁面,自動追尋和發掘網上的各種文獻信息資源,采集新出現的信息,確認網頁之間的鏈接是否有效并剔除死鏈的一種軟件。索引軟件將采集的網頁信息進行自動標引,建立索引數據庫。檢索軟件決定搜索引擎的檢索功能和返回結果的相關性。在檢索過程中,該軟件還會利用特殊的計算機算法對文獻與檢索詞的相關性進行計算和評估。目前,常用的網絡搜索引擎主要有獨立搜索引擎、元搜索引擎、網絡搜索軟件。
CNNIC2007年搜索引擎市場調查報告顯示,全國搜索用戶的首選搜索引擎集中度加大。報告顯示,中國搜索市場目前是兩強多極競爭的格局,百度和Google市場份額太大高于其他公司,二者合計在北京和上海占有超過80%的市場份額。在這樣的背景下,我們有必要對在中國使用率最高的兩大搜索引——Coogle和百度進行比較研究。
二、Google和百度的簡介
(一)Google簡介
Coogle公司成立于1998年。Coogle富于創新的搜索技術和典雅的用戶截面設計使Coogle從當今的第一代搜索引擎中脫穎而出,Coogle目前是全球最大的搜索引擎。Coogle還獨創了多種語言搜索技術,支持世界上幾十種主要語言。Google已儲存超過80G的網頁,1億3千萬張圖片,以及超過1億的新聞組訊息,總計大概10億4千萬個項目。它也緩存了編入索引中的絕大多數網頁的內容。Coogle每日透過不同的服務,處理來自世界各地超過2億次的查詢,這一數字還在不斷增長。Google數據庫存有30億個web文件。官方網站:www.google.com。2006年1月25日針對中國用戶的谷歌www.google.cn上線;2007年10月29日,谷歌最簡網址www.g.cn上線。
(二)百度簡介
百度公司(Baidu,Inc)1999年由李彥宏以及其好友徐勇在美國硅谷創辦。百度是目前中國大陸訪問使用量最高的搜索引擎。公司名稱“百度”二字源自中國宋代詞人辛棄疾《青玉案》的一句詞:“眾里尋他千百度。”百度公司立足國內、專注中文搜索市場,研究漢語特點和國內網民的上網習慣,百度自己研發并較早地推出國人喜愛的MP3搜索,吸引了大量的年輕網民。2003年12月,百度推出了“貼吧”這樣的個性搜索服務來聚集人氣,因而逐步奠定了百度成功的基石。在中文搜索支持方面有些地方甚至超過了Google,是目前國內技術水平最高的搜索引擎。中文版:www.baidu.com,日文版:www.baidu.jp。
三、Google與百度的對比分析
(一)功能服務比較
Google與百度的基本服務情況如下表:

(二)特色服務比較
Google和百度的網頁搜索功能是網民使用最多的功能。在個性服務方面,Google和百度都推出了不同的產品。
Coogle的特色服務有:翻譯功能、電子信箱Gmail、Coogle地球;針對中國市場,cooke推出了一些個性化服務,例如,Coogle拼音輸入法、Google生活搜索、Coogle正版音樂搜索。
Cooggle翻譯(http://translate.google.cn/),支持多語言互譯,便捷高效的翻譯網站更多段落、網頁翻譯功能。Gmail(http://gmail.google.com)是Google公司在2004年4月1日愚人節推出的世界第一個1G的免費電子信箱,每天的空間大小不斷增加。通過它可以使用Coogle的很多服務。Google地球(http://earth.google.com/)可帶您飛往地球上的任何地方,您可以在Coogle地球上看到衛星圖像、地圖、地形和3D建筑,包括外太空的銀河系以及大洋峽谷。您可以探索豐富的地理知識,保存您游覽過的地點,并將其與他人分享。
Google拼音輸入法是針對中國大陸推出的中文拼音輸入法。雖然在時間上比搜狗拼音輸入法晚一步,但在智能組句和英文提示方面比搜狗拼音輸入法強。Google生活搜索專門針對中國市場,搜索內容包含房屋、工作、火車票、物品、餐飲、招聘、影訊的信息搜索。Google音樂是2008年8月6日Google和合作伙伴巨鯨音樂網推出的正版音樂搜索,提供試聽和下載功能。
百度的特色服務有:百度知道、貼吧、百度百科、百度空間、百度有啊、百度Hi。
百度知道是基于搜索的互動式知識問答分享平臺。用戶可以根據自身的需求,有針對性地提出問題;同時,這些答案又將作為搜索結果,進一步提供給其他有類似疑問的人,真正為用戶創造一個匯聚無數人經驗、智慧的互動式知識分享平臺。百度貼吧自從誕生以來逐漸成為世界最大的中文交流平臺,這里為您提供一個表達和交流思想的自由網絡空間。
百度百科是百度2006年4月20日推出的一部內容開放、自由的網絡百科全書,旨在創造一個涵蓋所有領域知識、服務所有互聯網用戶的中文知識性百科全書。截至2009年1月,詞條總數已超過145萬條。百度空間是百度提供的免費Blog空間服務,可發表文章,發布照片,進行個性展示,與網友分享交流。百度有啊(http://www.youa.com)是百度2008年10月推出的網上個人C2C交易平臺,已對淘寶產生了很大的威脅。百度Hi是百度推出的一款類似QQ的即時通信軟件,可以很好地整合百度的相關服務。
(三)排序技術比較
Google應用了多項排序技術,其中最核心、最關鍵的是Page RankkTM技術(網頁級別)和“超文本匹配分析”技術(Hy-pertext Matching Analysis)。Page RankTM技術根據網頁之間
的鏈接結構對網頁的重要性進行客觀的評價,并將網頁的PageRank值應用于檢索結果的排序。Google在排列其檢索結果時,都會考慮每個網頁的Page Rank值,將重要的、高質量的網頁排在結果列表的前面。這樣,Page Rank技術在很大程度上避免和減少了人為因素,客觀地把最恰當的檢索結果呈現給用戶。即使網頁的Page Rank值再高,如果不能滿足用戶的檢索需求也是毫無意義。因此Coogle將Page Rank算法與“超文本匹配分析”技術結合在一起。一般的搜索引擎僅僅考慮檢索詞出現的次數,而Google還在此基礎上分析關鍵詞的字體、字號以及關鍵詞在網頁中出現的精確位置,并且對該網頁的鄰近網頁(包括鏈入網頁和鏈出網頁)的內容加以分析。Google認為,關鍵詞在網頁中出現的位置以及字體等因素都體現了該關鍵詞在該網頁中的重要程度,比如說,如果檢索詞出現在網頁A的標題中,而不只是出現在網頁B的正文中,那么在不考慮其他因素的情況下,說明網頁A與用戶需求更匹配。
百度搜索引擎應用的排序技術其核心技術是“超鏈分析”技術(Link Analysis),百度總裁李彥宏是“超鏈分析”專利的惟一持有人。“超鏈分析”技術與Page Rank技術的內容相似:統計每個網頁被其他網頁鏈接指向的情況,次數越多則級別越高,排名也就越靠前。因此,“超鏈分析”就是通過分析鏈接網站的多少來評價被鏈接的網站質量,這保證了用戶在百度搜索時越受用戶歡迎的內容排名越靠前。此外,“超鏈分析”技術將情報學中的引文索引技術同Web中最基本的東西——“超級鏈接分析”的技術相結合,在查找的準確性、查全率、更新時間、響應時間等方面與其他技術相比都有很大的優勢;同時,百度應用“內容相關度評價”技術,并且運用了中文智能語言的處理方法,依靠字與詞的不同切割方法。彌補了單純依靠字或詞的引擎技術的缺陷,并且能夠在不同的編碼之間轉換,這就使得簡體字和繁體字的檢索結果可以自然結合。
(四)網頁搜索結果比較
為了全面地比較分析Google和百度的網頁搜索功能,從以下幾個方面進行對比:相關搜索、搜索結果摘要、搜索用時、搜索建議、網頁快照、網頁翻譯功能、高級搜索、顯示索引時間、廣告顯示位置。
有關數據和功能對比情況如下表:

從綜合實力來看,兩大搜索引擎可說是各有千秋。旗鼓相當。Google的優勢在于信息量大、支持語種多、功能多,廣告和搜索結果分開顯示。百度的優勢在于對中文的理解較好,速度快、網頁搜索結果更詳細,更貼近中文用戶的搜索習慣。用戶可根據各自的需要和使用習慣選擇使用。