〔摘 要〕垂直搜索被普遍認為將是下個潛力市場,是搜索引擎的細分和延伸,是對某類網頁資源和結構化資源的深度整合。本文綜合分析了垂直搜索的特性,并從信息采集、信息索引和信息處理方面分析其同通用搜索引擎的差異,然后通過垂直搜索在電子政務上的強勢進入的案例來分析其應用發站的特性。
〔關鍵詞〕垂直搜索;數據處理;案例分析
〔中圖分類號〕TP391 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)03-0143-03
1 垂直搜索產生的背景和現狀
1.1 產生背景
搜索引擎重組和整合了互聯網內眾多網站的無序信息,起到了信息導航的作用。它將所有網站上的信息整理在一個平臺上供用戶使用,互聯網的意義才得以充分體現和發揮。據調查,84.6%的中國網民,通過搜索獲取信息,為此其迅速成為互聯網中最有價值的領域。
但是搜索引擎的查詢的海量結果存在信息量大、查詢不準確、深度不夠等缺陷,用戶感覺到很難在短時間內準確的篩選出需要的內容找到符合的信息。而在另一方面,正如微軟研究院負責搜索的一名技術專家說:75%的內容通用搜索引擎搜索不出來。這里面包含2層含義:(1)網站結構不合理,網頁對搜索引擎不友好;(2)由于信息在互聯網是海量的,非結構化的信息需要經過結構化的梳理后才能更好的展現。同時,市場需求的多元化也導致了搜索引擎的發展格局必然是行業化和細分化,垂直搜索被普遍認為將是下個潛力市場。從Yahoo推出旅游搜索、Goolge的本地搜索、Baidu的地圖搜索,可以看出這些通用搜索巨頭所面臨的競爭和搜索引擎的發展趨勢。通過關鍵字:“垂直搜索引擎”在Google查一下,在返回結果中可以看到不少的投資公司很看好這一領域,即使百度的發言人也在演講中提到垂直搜索引擎,而一些國外軟件巨頭例如Google和Microsoft也在這一領域有所動作,據說微軟最近就推出了一個購物垂直搜索引擎。因此垂直搜索成為了搜索引擎發展的另一種選擇。
1.2 發展現狀
在國外,looksmart曾一下子推出19款內容涉及各個細分市場的垂直搜索引擎;Answers.com、Indeed.com等垂直搜索引擎也備受青睞;連Google、Yahoo!等也紛紛搶灘細分市場。
國際趨勢如此,國內垂直搜索引擎的先行者也悄然搶占了某些細分市場,比如酷訊、Accoona中國等,都集中精力做好某一細分行業,盡可能的作精、作細、作到最好。以酷訊(www.kooxoo.com)為例,作為國內第一家生活信息搜索引擎,盡管初創不久,卻依靠其專業化服務而異軍突起,迄今已發展成為集住房、招聘、票務、旅游、汽車、購物、餐飲等為一體的行業領袖,業務量逐漸穩居國內垂直搜索三強。據統計,酷訊現在每日訪問的獨立用戶數已接近百萬人,總體訪問量遙遙領先于競爭對手。
垂直搜索如此的蓬勃發展的最主要原因就是滿足了用戶對某一特定信息準確搜索的需要。
2 垂直和通用搜索在信息檢索上的差異
垂直搜索引擎是針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務的搜索工具,它不僅僅是普通的網頁索引,而且包括信息的加工,結構化的信息,尤其是針對特定的行業的內容做了專業和深入的分析挖掘,精細分類,過濾篩選等,信息定位更精準。它是搜索引擎的細分和延伸,是對某類網頁資源和結構化資源的深度整合的產物。我們可以聯想起商業中的利基市場戰略。利基市場指市場中通常為大企業忽略的某些細分市場;而利基市場戰略則指企業通過專業化經營來占領這些市場,從而最大限度的獲取收益所采取的策略。
垂直和通用搜索在信息檢索上的差異主要體現在:
(1)從計算技術來講,還是遵循馮#8226;諾依曼的體系,也即是說還是依靠圖靈未實現的人工智能之下的計算機邏輯來處理信息,在搜索收錄的分析過程中,如果不加上行業特點和特性進行分析,很難說會更準確分析到網頁的重要性和分析的準確。這個也是垂直的意義所在。當然,并非你垂直了,你的搜索收錄和搜索結果就一定比通用搜索更準確。
(2)從信息搜索的實踐來分析,用戶輸入某個關鍵字而不結合其他補充信息,搜索引擎很難準確分析和判斷其真正的信息需求,造成了大量的無用的搜索結果,而這類信息垃圾會影響用戶的感受,以及繼續試用搜索的興趣。
(3)從信息搜索及時性來分析,垂直搜索引擎需要獲取的信息來自于某一特定領域的,這比起通用搜索引擎漫無邊際的信息抓取,具有實時性優勢。由于互聯網上的信息量非常巨大,通用搜索引擎的數據更新周期短則十幾天,長則幾個月,而垂直搜索引擎的數據更新完全可以以秒為單位。酷訊(kooxoo.com)的火車票搜索就是典型的實時性垂直搜索。
(4)從信息搜索結果來分析,通用搜索引擎由于自身巨大,他做不到更深入分析后給出更符合行業、用戶需求的搜索結果。例如,用戶輸入“三星數碼相機”,通用搜索一般會給出大量的結果,但是都是有關的新聞、網頁等相關線索,而此時用戶關心的是關于該產品的型號,配置、功能、價格、外觀甚至相關比較信息。
(5)從信息搜索用戶來分析,垂直搜索引擎還可以通過物以類聚形成搜索社區,在個性化服務上做得更完善,使用戶逐漸形成某類信息到某個網站上去的概念。就如現在越來越多的用戶搜索生活信息正逐漸從Google和Baidu轉到“酷訊”上去搜索。
3 垂直和通用搜索在信息處理上的差異
3.1 在信息采集方面
通用搜索引擎主要是利用一個spider程序到網絡上爬行,一般是某個特定的周期派出一次將網頁更新,垂直搜索引擎同樣應有一個spider程序,但該程序只在一些特定的網絡上爬行,并不會對每一個鏈接都感興趣,相對來說,垂直搜索引擎的收錄范圍大大縮小了,但并不意味著內容的縮小,通用搜索引擎對一些動態腳本是不敏感的,例如asp?id=之類的網頁一般不被收錄,而恰恰是這類動態網頁包含了豐富的內容,垂直搜索引擎是必須收錄這些動態腳本的,這就需要在技術上做一些特殊處理,另外由于目前網頁中的鏈接形式非常多,不但有動態腳本也有flash做的鏈接,這些鏈接方式通過傳統的spider程序是很難解析出來的,在垂直搜索引擎中也應該解決。
3.2 在信息索引方面
在這一方面最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然后將這些數據存儲到數據庫,進行進一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。
舉個例子來說明會更容易理解,比如購物搜索引擎,整體流程大致如下:抓取網頁后,對網頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本簡介細分成“品牌、型號、CPU、內存、硬盤、顯示屏、……”然后對信息進行清洗、去重、分類、分析比較、數據挖掘,最后通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理后以非結構化的方式和結構化的方式返回給用戶。
3.3 在數據處理方面
垂直搜索引擎的數據來源于所處行業的相關站點和自身平臺。通過對這些數據的重組和整合后使數據有了結構化和格式化的特性。比如在某個購物類的垂直搜索引擎上輸入“三星數碼相機”出現的不再是大量的關于“三星數碼相機”的新聞、評論和網站,而是關于該產品的相關屬性如:內存,尺寸、大小、電池型號、價格、生產廠家等相關技術屬性,有的還提供比價服務,這就把搜索服務專業化、細致化、個性化了。
為了能夠達到這個搜索效果,垂直搜索引擎在數據處理上所做的就深度挖掘,數據再整合,這種數據再整合的特點就是元數據模型再組織、再整合、深度數據挖掘、互動性。通過對元數據信息進入深度加工,該類垂直搜索引擎為用戶提供網頁搜索引擎無法做到的專業性、功能性、關聯性、有的加入了用戶信息管理以及信息發布互動功能,能很好地滿足了用戶對專業性、準確性、功能性、個性化的需求。
以althline為例,進入healthline的網站,你會發現他簡直就是一個無所不知的醫生。Healthline的醫療垂直搜索平臺使用組合語義查尋技術和全面消費健康分類學,分類數據由超過850 000項醫療相關元數據,和50 000條相互關連的醫療概念組成。這些獨特地資源使Healthline翻譯每天用戶使用語言以便精確地匹配醫療術語,使得消費者能迅速從結果中判斷確切的需要信息。比如,當你點擊疾病分類“高血壓”進入搜索結果頁面后,他把高血壓的定義、文章、圖片,高血壓評估、治療方法、高血壓相關疾病、醫生反饋信息等有高血壓的所有信息都全部專業的分類列出來了。如果你你得了高血壓,通過這些信息加上互動完全可以知道你目前的狀況,以及怎樣治療,怎樣調整生活、飲食習慣,預約附近的醫生,各種藥物的特點,最終你完全解決了你所有的問題。
healthline專業的元數據屬性構造背后有著一個強大的醫療領域專業人物組成的團隊。這些醫療領域的專業人物對該領域的元數據模型進行專業的分析、關聯整合、再通過搜索技術按這些元數據模型把這些信息組織呈現給用戶。公司的HealthMaps(健康關系導圖),是由超過1 100位主要的醫師和醫療信息學專家共同開發的,用戶直接在healthmap上點擊相關圖標就能搜索所有與該的疾病所有相關的信息。

再如用戶進入ChinaEC.com,輸入關鍵詞進行搜索或從目錄、主題購物中進入時,就可以瀏覽到上萬電子商務網站經營的相關產品,除了可以看到產品的圖像、價格和詳細介紹外,同時提供給用戶的還有價格比較、區域選擇、品牌識別和產品排序等一系列全方位的服務。在搜索過程中,中商網獨具特色的動態定向歸類搜索技術會對其搜索結果進行分門別類,不斷提供更細化、更進一步的提示選擇,這種歸類性的搜索結果一目了然,既不遺漏也不淹沒,讓用戶更能準確的找到自己要的商品,具有“精確制導”的效果。要能夠達到這樣的檢索效果,系統必須有一個區別于傳統搜索引擎思路的一個新的體系結構。
4 案例分析:垂直搜索引擎在電子政務的應用
垂直搜索在電子政務上的應用特別的強勢,我們可以通過剖析國內外兩個典型案例來闡述。
4.1 國外案例分析(1)——美國聯邦政府網站FirstGov
美國聯邦政府網站FirstGov提供公眾、企業、國家和地方機構了解美國政府所有動態的搜索入口。firstgov.作為聯邦政府惟一的政府服務網站,整合了聯邦政府、州與市縣三級的所有服務項目,并與許多政府部門如立法、司法和行政部門建立了鏈接,同時也與各州政府和市縣政府網站都有鏈接。用戶通過該網站可以鏈接向任何政府網站,包括州和地方政府,允許用戶同時搜索全部2 700萬網頁,它的強大的搜索引擎系統由Vivisimo為主的4家搜索引擎開發企業、微軟和聯邦政府一起開發的高性能搜索引擎,個人通過關鍵詞、主題分類或機構分類進行搜索,可以在不到1/4秒的時間內搜索到半兆的文件。從這個意義上講,它與聯邦各職能部門、州及市縣級政府網站實際上就構成了一種前臺與后臺的關系,任何企業和公民,通過前臺網站,可以搜索到所有美國政府部門提供的所有服務。很多人把FirstGov看成是“政府門戶”,可事實上在它的首頁,你看不到任何一條新聞,也根本沒有任何有關新聞的欄目,有的僅僅是分類除了分類還是分類。從這點上講,公眾更愿意將它看成是一個提供政務報務的專業搜索引擎。
4.2 國內案例分析(2)——央網搜索
中央人民政府門戶(簡稱央網)是各部委及各地方政府信息資源的匯聚點,是政務信息發布和提供在線支持的綜合服務平臺。其搜索主頁包含了國網網站搜索、國務院公報搜索、政府網站搜索、圖片搜索、文檔搜索、服務搜索等搜索分類。國網網站搜索是指對國家門戶網站http:∥www.gov.cn自身發布內容的搜索功能;國務院公報搜索是指對國務院公報內容進行搜索;政府網站搜索是指對各級政府網站的網頁內容搜索;每一種分類搜索,系統都提供“高級搜索”功能。
同時央網搜索制定了政府網站內容格式規范,把搜索引擎建設和各級政府網站的標準化建設緊密結合在一起,能夠按照標準進行內容分析,提高了網頁分析的準確性,實現了更好的搜索效果。目前各級網站發布的新網頁一般在30分鐘之內就可在央網門戶搜索引擎中搜索到。
央網搜索引擎是對各級政府網站的全部網頁內容進行采集和索引,提供完整的搜索結果集,搜索到的所有網頁都是可瀏覽的,采用的是精確檢索技術。
我們可以看到該系統整合了部委和各省市的政務服務,以及相關的政策資源。用戶通過輸入關鍵詞,就可以在頁面上一并獲得網上辦事的鏈接入口和相關政策信息,大大方便了用戶的同時,提高了政府的辦事效率和服務水平,凸顯電子政務價值。
5 結束語
人們對互聯網的信息需求正逐步從最初的娛樂、聊天轉為更加實際的衣、食、住、行、求醫、求職等。人們獲取信息的渠道從習慣使用Google、Baidu、Yahoo這些通用的搜索引擎逐級轉向能提供更專業、更直接、個性化的垂直搜索。所以,垂直搜索引擎還是有空間,問題是垂直搜索引擎需要搜索技術以及互聯網理解能力,還要掌握行業特點,這兩方面是目前垂直搜索引擎的生存的關鍵。
參考文獻
[1]http:∥www.fullsearcher.com/n20071112144420735.asp[EB].
[2]吳曉,等.個性化搜索引擎中用戶興趣模型的研究[A].第三屆全國信息檢索與內容安全學術會議論文集[C].2007.
[3]吳麗輝.個性化的Web信息采集技術研究[J].情報雜志,2007,(3).