通用搜索引擎在某些方面的表現越來越差強人意,一種全新的基于對象的垂直搜索技術更加一目了然。
小李要買一部智能手機,想了解幾款產品的介紹、價位和評價等信息。但是當他用通用搜索引擎查找信息時,卻得到了五花八門的結果。令人頭疼的是,他必須挨個點進鏈接,注冊一堆論壇賬號,還要自己把各種看到的信息綜合起來,才能獲得關于這部手機的完整資料。
是的,通用搜索引擎在某些方面的表現越來越差強人意。那么,如何讓搜索結果變得更加一目了然?微軟亞洲研究院的聶再清和文繼榮研究員,向《互聯網周刊》介紹了一種由他們研究成功的“對象級別的垂直搜索技術”(Object-level Vertical Search)。

一目了然的結果
這個聽起來有點學術化的技術其實并不難理解。當你使用這種搜索引擎時,它列出的結果將是最終對象的集合,而不是雜亂的網頁列表。一切的一切都圍繞著你所搜索的那個對象。
比如,當你搜索“多普達”時,系統列出的不是包含此信息的各種頁面標題、內容檢索,而是一個個多普達手機—除型號、圖片等直觀信息外,每個產品下還列出介紹、價格、用戶評價等相關信息,就像我們在購物網站中看到的陳列頁面一樣,但內容要遠比某個網站所陳列的豐富,因為是來自整個互聯網。搜索引擎所列出的對象內容并不是通過人工來整理的,而是計算機通過自動抓取、自動分類而形成的“虛擬”頁面。
這項技術目前已經獲得初步應用。在微軟亞洲研究院作為實驗的學術搜索(http://libra.msra.cn/)中,當你輸入“Data Mining”(數據挖掘)這一關鍵詞,便可獲得相關論文的排名列表。結果以論文為對象進行排列,每篇論文下都可列出被引用次數和作者;點進每篇論文的鏈接,可以看到該論文的介紹、可供瀏覽和下載的原始鏈接,以及相關的參考論文。
與此同時,在論文的結果列表左側,還有相關作者、會議、期刊的排名。如果再按“作者”(Author)搜索,系統會自動排列出“數據挖掘”領域內最權威的科學家名單,與此類似的,你還可以進行相關的會議、期刊和學術社區等方面的搜索。目前,微軟的該學術搜索還僅限于計算機領域。
與基于文字的搜索結果相比,基于對象的搜索結果顯然更加一目了然,實現更加垂直而專業的搜索效果。目前,這項來自微軟亞洲研究院的技術,正在應用到Windows Live產品搜索引擎(Http://products.live.com)的測試版開發中。以產品作為對象的搜索結果中,用戶還可以按照相關度、價格進行排名,或按照一些熱點針對某家網站進行搜索。
據聶再清研究員介紹,經過第一個月的試運行,該系統已經自動地找到了10萬家電子商務網站和數千萬個網頁,并從這些網頁中抽取出了上億條商品對象信息—這一數字是任何一個商家平臺無法獨立實現的,在未來它有可能成為世界上最全的產品目錄庫。面向對象的搜索引擎無疑充當了跨越眾多購物網站的基礎平臺。
核心技術
那么,這項技術是如何實現的?細心的讀者可能從前面的介紹中看出端倪,這是區別于傳統搜索引擎思路的一個新的體系結構。
首先,它要依靠網頁爬蟲技術,抓取某一個特定領域(比如一個照相機產品)中的所有相關網頁。在獲得這些頁面后,系統要對這些網頁中所包含的對象信息類型進行分類,也就是說,它要分辨某個網頁究竟是一篇論文、一個博客頁面,還是一個商品信息頁面。
在完成了這項工作后,系統就可以分門別類地將內容集成到對象信息倉庫中。而這項工作需要事前進行大量的訓練和模型組建。比如,在一個商品頁面的訓練中,要告訴系統什么情況下是商品名稱、商品圖片、價格;通過此類學習之后,系統就可以自動找到它所要的關鍵內容。
在這一領域的研究中,曾有人在HTML代碼上做過嘗試,卻都不太成功,因為代碼的編寫總是千差萬別的,但最后它們所實現的頁面顯示卻幾乎大同小異。在發現了這一點后,微軟亞洲研究院的研究員們在這一過程中巧妙地結合了視覺分析技術,設計一些算法讓計算機能夠像人類一樣,看到一個頁面的“興趣中心”,并智能地做出判斷。
在進行了抓取、分類、抽取之后,垂直搜索引擎就可以利用這些結構化的對象信息,來應對用戶的提問,進行各種智能分析和挖掘工作。
推翻現有架構
這樣一種技術是具有革命性的。用戶可以利用它進行各種垂直類的深度搜索。它在推翻即有架構之后,無疑要比傳統搜索引擎經受更多的考驗。
比如,要保證結構化信息的高質量、全面性、準確度。并且,由于這一搜索引擎的數據庫,要存儲互聯網上以及各地離線數據庫中的相關對象信息,對存儲和運行規模的可伸縮性也提出了挑戰,這一技術必須擁有一個能夠存儲數以十萬計的“超級數據庫”,并且保證其算法能夠足夠快速地進行檢索。
在給用戶帶來便利的同時,新的搜索引擎帶來了一系列圍繞技術規則改變而衍生的商業模式潛在變化。比如,在基于對象的搜索引擎中,傳統的網頁排名方法(PageRank)已不適用。微軟亞洲研究院的研究員們提出了流行度排級(PopRank)。
這項所搜即所得的技術具有很強的通用性,除了產品搜索、學術搜索外,還可以應用到黃頁、博客、人物、工作職位、飯館、機票搜索等多種垂直搜索領域,而其與電子商務的結合、新廣告形式的衍生,將是一個嶄新的話題。