摘 要:本文以垂直搜索為主題,介紹搜索引擎的發展及其現狀,對比通用搜索引擎和垂直搜索引擎的優缺點,論述了垂直搜索引擎技術及其發展潛力。
關鍵詞:搜索引擎;通用搜索;垂直搜索
Internet的發展,給人類社會帶來了翻天覆地的變化,將人類文明推向一個新的高度的同時,也給人類提供了無限的商機。它的到來,使信息技術成為當今世界各國發展的主題。Internet的普及,網民數量的猛增,web資源的指數增加,都激勵著人們探索新的突破。以服務大眾出名的通用搜索引擎為我們指引了方向。它們為無數的網民提供了從無底的web中尋找資源的機會。然而,隨著Internet的發展,通用搜索引擎有時很難在龐大的信息庫中搜索到準確的信息。它的缺陷,給垂直搜索引擎提供發展的空間,以及無限的潛力。垂直搜索的出現,便是對通用搜索引擎的補充,在未來的時間里,它將與通用搜索引擎相輔相成,服務人類的同時,共享新的金礦。
一、搜索引擎的涵義
所謂搜索引擎,是指在Internet下,網站根據用戶輸入的查詢條件(關鍵字),自動從web資源里提取出與用戶輸入條件相關的信息的一類網站。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而達到信息導航的目的。
隨著Google(谷歌)、baidu(百度)等搜索引擎在Internet上經營的成功,越來越多的IT企業開始進軍搜索市場,經過IT精英的不斷開拓新領域,創造新價值。搜索引擎從廣義上可以將其劃分為通用搜索引擎和垂直搜索引擎。
二、通用搜索引擎與垂直搜索引擎的對比
隨著網絡的發展,它一方面讓我們更容易獲取到信息,另一方面,信息的爆炸發展,也徹頭徹尾地使我們陷入了無邊無際的信息海洋之中。在海量的信息頁面之前,我們想要找到自己需要的信息簡直就如“大海撈針”。搜索引擎的橫空出世讓我們有了探索信息海洋的指南針。
(1)通用搜索引擎的最大優點是,實現全文搜索,檢索到的信息量大,信息覆蓋范圍廣,同時引擎更新信息速度快。目前Internet上搜索引擎可索引到的網頁數量已超過110億頁,由于通用搜索引擎搜索范圍的廣,導致搜索的匹配度低,命中率低,層次結構不清晰,而且重復連接較多,查詢結果信息量大,用戶很難在海量的鏈接結果中找到想要的信息。
(2)垂直搜索引擎是針對某一個特定行業的專業搜索引擎, 是通用搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點是“專、精、深”,且具有行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。
三、垂直搜索引擎的原理及組成
搜索引擎主要由搜索器、索引器、檢索器組成。基本原理和主要功能組件方面,垂直搜索引擎與通用搜索引擎基本相同。兩者主要的區別在于Spider爬行范圍和網頁信息處理深度兩方面。通用搜索引擎Spider爬行的范圍是面向幾乎所有網頁,而垂直搜索只爬行跟主題相關的網頁。因此,垂直搜索引擎能夠比通用搜索引擎更快速地找到相關主題的信息。
搜索器(Spider):也稱網絡蜘蛛、網絡機器人等,是搜索引擎的靈魂。它根據特定算法負責抓取網頁,從抓取到的網頁里采集信息,對信息進行分詞,分詞根據詞語的特殊屬性選擇分詞算法,并將信息與其關聯的URL保存進服務器數據庫。搜索器必須保證及時的發現新網頁,定時的重新采集已有網頁信息更新保存數據庫數據。
索引器(Indexer):根據搜索器,即網絡蜘蛛采集后經過分詞等處理后產生的關鍵字(keyword),建立從關鍵字到網頁URL(統一資源定位器)的關系索引倒排文檔,即建立索引數據庫。檢索器的功能是根據用戶輸入的查詢詞,在索引數據庫中進行查詢詞與索引數據庫的匹配算法,然后將查詢結果按相關程度排序并輸出到瀏覽器上。
除了考慮核心的技術以及采用高效的算法外,必須在用戶體驗上下功夫如結構化的顯示搜索到的結果。比如,Google所使用的Ajax(異步JavaScript)技術,用戶輸入查詢時能夠自動提示,還有Google查詢后顯示的數據,界面上字體等要比Baidu細致一個檔次。這些細節的原因,某種程度關系到搜索引擎在市場的占有額。
四、垂直搜索引擎的相關技術
1.頁面解析與頁面顯示排序。
網頁地址都是用URL(Uniform Resource Locator統一資源定位器)來表示,獲取網頁信息,必須找到URL,讀取該URL頁面的HTML、特定標簽,高級的搜索引擎還能對JavaScript語句進行解析。這是因為許多網站直接用JavaScript構建出來,而且隨著Ajax技術的流行,很多信息包含在JavaScript標簽里,為了提高采集信息的準確率,提高搜索引擎的競爭力,搜索引擎必須提供JavaScript解析器。
頁面排序是針對根據用戶關鍵字,查詢到的網頁列表,采用何種策略將網頁列表顯示在用戶面前,使用戶最想知道的結果顯示在最前面頁數發生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),則加入收費這一方式,使排序成為搜索引擎的一大盈利模式。
2.數據存儲及分布式技術。
盡管垂直搜索引擎保存的網頁數量相對通用垂直搜索引擎小很多,但是,作為一個優秀的商業垂直搜索引擎,必須在提高性能的同時減低成本,提升競爭力。可以采用數據壓縮的技術對數據進行壓縮存儲,采用數據庫技術,如索引等提高數據讀取速度,也可以采用分布式技術,通過多臺服務器相互合作,以提高數據采集和更新速度。
3.網絡蜘蛛的爬行策略。
網絡蜘蛛(Robot或Spider)的搜索策略是指當網絡蜘蛛搜索到一個文檔之后,下一步應該轉移到哪一個文檔的方法問題。目前比較常見的搜索策略有以下幾種策略:(1)IP地址搜索策略;(2)深度優先搜索策略;(3)廣度優先搜索策略;(4)深度-廣度結合搜索策略。
4.中文分詞技術。
在Web應用中,文本處理的速度往往是性能的關鍵,快速分詞具有很大的現實意義。Web文本分詞是Web信息處理的基礎,如信息檢索、摘要形成、網頁過濾等都需要對Web文本進行分詞處理。Web文本的正文主要由英文和中文構成,由于英文的單詞與單詞之間有空格,所以不存在分詞問題。而中文的每一句中詞與詞之間是沒有空格的,因而必須采用某種技術將其分開。
分詞的方法很多,基本上分為兩類:第一類是基于字符串的匹配,將漢字串與一個機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二類是基于統計的方法,從概率角度出發,單字出現在詞匯中聯合概率是比較大的,因此當相鄰的字越常出現,則越有可能是一個詞。基于上述引,對處理的材料進行分析,得到相應的單字出現的概率,然后對相鄰的字出現概率進行統計,若遠大于單字出現的概率之和,則可能成為一個詞。實際應用中,統計分詞方法都是與字典結合著來使用的,這樣既發揮匹配分詞的切分速度快、效率高的特點,對利用了無詞典結合上下文識別生詞,并能消除歧義等優點。
五、垂直搜索引擎的發展空間
“確解用戶之意,切返用戶之需” “用戶無法描述道他要找什么,除非讓他看到想找的東西”,這是消費者(網絡使用者)對搜索引擎提出的更高要求。以盡可能多地收集到與專業相關的信息為主要目標的垂直搜索引擎,比通用垂直搜索引擎在Internet上更加貼切消費者的要求。專業化的集中特定領域的垂直搜索引擎有效地彌補了綜合性搜索引擎對專門領域及特定主題信息覆蓋率過低的問題。市場需求的多元化,決定著搜索引擎服務的多元化;通用搜索引擎開拓市場上的成功,為垂直搜索引擎的市場戰略提供了寶貴的借鑒經驗,垂直搜索引擎的特點,決定著它在Internet上占有一席之地,必將成為搜索行業的一大力量。
(作者單位:廣州市機電高級技工學校)
參考文獻:
[1]王曉偉. 垂直搜索引擎若干關鍵技術的研究[J].浙江大學學報,2007,(5).
[2]孫衛喜.搜索引擎分析[J].高校實驗室工作研究,2007,(3).
[3]李副銘.垂直搜索引擎的研究與設計[D].電子科技大學學報,2009,(9).
[4]劉世濤.簡析搜索引擎中網絡爬蟲的搜索策略[J].阜陽師范學院學報,2006,(9).
[5]鄒海山,吳勇,吳月珠,陳陣.中文搜索引擎中的中文信息處理技術[J].計算機應用研究,2000,(12).
責任編輯 朱守鋰