百度阿拉丁：下一代搜索引擎的目標

2009-01-01 00:00:00閆旭

互聯網天地 2009年2期

所謂的“阿拉丁計劃”不過是拿搜索圈子里一個古老的話題炒冷飯，它的本質就是擴大搜索數據庫，這是搜索引擎的常規工作，“最多就是優化過的蜘蛛加上一個新的競價排名表現界面”。

百度“阿拉丁”平臺的推出，是為解決現有搜索引擎無法抓取和檢索暗網的信息而來。所謂暗網（Hidden Web）是指目前搜索引擎不能檢索到的信息，百度認為大量的信息仍然處在“未知世界”當中。

暗網究竟有沒有像百度說的這么神秘？李彥宏表示目前能被搜索引擎檢索到的信息只占人類所有信息的1/500。果真如此，那暗網占了多少？沒有Web化的暗網信息為什么不愿意Web化？這里涉及到一個很重要的問題：暗網里有多少信息是私密的，有多少是可公開化的？“阿拉丁”能在暗網里獲取多少比例的有用信息？這是一個玄之又玄的問題，估計百度自己也搞不清楚。

相對而言，李一男的解釋更直觀，也更靠譜：百度希望通過對“阿拉丁”平臺的構筑，超越現有Web內容的限制，對包括暗網在內的所有信息進行更深一步的分析、融合、處理，確保為用戶提供零成本、無障礙、無時差的精準搜索結果。

什么是暗網？“阿拉丁計劃”到底是什么？要想了解“阿拉丁計劃”，首先就要了解什么是暗網，因為這個計劃是宣稱要照亮暗網、完全改變搜索體驗的。

暗網這個概念對于大眾很新鮮，但已經是搜索圈里的老話題了。早在2003年，美國人C#8226;謝爾曼就有一本學術專著專門討論這一問題，只不過通常把它翻譯成“看不見”的網站，這本著作已經被譯成中文—《“看不見”的網站：Internet專業信息檢索指南》，成為信息檢索專業的必讀書目。

“看不見”的網站就是被搜索引擎覆蓋不到的網站，用更加通俗的分類來說，“看不見”的網站只有兩種。一種是技術的原因，很多網站本身不規范，或者說互聯網本身缺少統一規則，導致了搜索引擎的爬蟲無法識別這些網站內容并抓取，這不是搜索引擎自身就能解決的問題，而是有賴整個網絡結構的規范化，谷歌正在嘗試的云計算就是要從根本上解決這一問題。從這個意義上說，谷歌更符合“阿拉丁計劃”，只不過谷歌沒有這樣提而已。

另一個原因則是很多網站根本就不愿意被搜索引擎抓取，比如考慮到版權保護內容、個人隱私內容等等，很多網站都在屏蔽百度。比如最近視頻分享網站優酷宣布屏蔽百度，之前的淘寶網也屏蔽了百度，這就不是搜索引擎能解決的問題了。

所以說，所謂的“阿拉丁計劃”不過是拿搜索圈子里一個古老的話題炒冷飯，它的本質就是擴大搜索數據庫，這是搜索引擎的常規工作，“最多就是優化過的蜘蛛加上一個新的競價排名表現界面”。

事實上，百度“阿拉丁計劃”最終的目的是為了整合所有信息，再把這些信息加以分析處理，讓用戶在同一個搜索框架下實現多元化的搜索需求。什么是多元化的需求？比如在生活服務領域，用戶搜索分類信息，百度顯然比不上雅虎口碑；在電子商務領域，用戶搜索商品信息，百度比不上阿里巴巴；在社區即時信息搜索方面，百度顯然比不上奇虎和大旗……“阿拉丁計劃”就是要把這些龐大的信息量從無序變成有序，從復雜轉化為簡單，快速、精確地滿足不同的用戶需求，這才是“阿拉丁”的目的所在。

如何實現對龐大信息量的處理？我們剝開“阿拉丁”的層層面紗，終于看到事情的本質，“阿拉丁”就是包裝過的云計算。要應對每天數十億次的搜索請求，要同時滿足各個領域不同類型的數據分析，要把雜亂無章的信息整理為精準的搜索結果……這一切就必須由服務器群的并行計算或者云計算模型來實現。

整合信息并且把檢索到的信息以最快速、最精準的方式展現給搜索用戶，這是下一代搜索引擎所要實現的目標。云計算的概念盡管有點炫，但它提出了一個核心問題，那就是如何實現擁有海量信息的搜索引擎可以更快更準處理數據的方法。透過現象看本質，無論是百度的“阿拉丁”，還是谷歌的云計算，都是為搜索引擎技術服務，為用戶提供更加深入的搜索體驗。

互聯網天地2009年2期

互聯網天地的其它文章: 陜西省互聯網協會舉辦“２００８年度陜西省互聯網業界峰會”; 廣東省互聯網協會召開２００８年理事會（年會）暨新春聯誼活動; 盤點２００８信息化十大熱點關鍵詞; 政府門戶網站亟需注意信息安全保護問題; 鄉鎮域名的廣闊未來; 天馬行空的企業名稱