宋金平 馬曉娟
集寧師范學院計算機系
垂直搜索引擎的研究現狀綜述
宋金平 馬曉娟
集寧師范學院計算機系
垂直搜索是針對某些特定應用、特定任務或者特定領域的結構化內容的搜索技術,是對Web信息中的某類專門的信息進行整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶的搜索方式。垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,針對某一特定領域、某一特定人群或某一特定需求,提供有一定價值的信息和相關服務。相比較通用搜索引擎的海量信息無序化,垂直搜索引擎更加專注、具體和深入。本文主要探討垂直搜索引擎的研究現狀。
垂直搜索;定向搜索;數據集成
基于主題的定向搜索又叫主題信息采集,并不是一個新的研究課題,它針對的是某一具體的主題信息,主題信息采集試圖去辨別與主題最相關的信息而舍棄那些不相關的信息,從而達到縮小信息采集范圍、降低信息容量、減少系統開銷和提高數據更新率的目的。同時,由于主題信息采集著重考慮被采集信息的主題,具有針對性強、專業性強的特點,從而能更好地滿足建設特色信息資源,專業性較強的信息資源的需要。
互聯網上的Web數據近年來呈爆炸式發展,就Web數據蘊含信息的“深度”來說,一般將其分為Surface Web和Deep Web兩大部分,Surface Web通常是指通過Web上的HTTP超鏈接能夠直接訪問到的靜態頁面的集合,目前搜索引擎的工作基本集中在淺層Web上。而Deep Web指的是可以通過Web在線訪問數據庫的集合。Deep Web不僅規模巨大,覆蓋了現實世界的所有主題,而且對Deep Web的訪問量要高于Surface Web一半以上。對于Deep Web,即使是Google這樣的搜索引擎,也僅僅只爬取了約5%的最新內容。對于Deep Web的研究主要是要解決如下的問題:
(1)發現并抽?。横槍eep Web數據的抽取方法一般而言有四類方法,第一種是基于字符串的方法,把整個網頁文本看成線性的字符串,然后通過相應的方法歸納出對字符串中目標數據的抽取規則;第二種是基于DOM Tree的工具,將網頁轉換成DOM樹,然后抽取出DOM樹中相應數據;第三種是利用類似視覺信息或者Web頁面腳本信息來進行頁面信息抽取的方法;第四種是利用語義標注或者本體Ontology的方法。
(2)結構化集成:Deep Web同時被稱為Web Database,大部分Deep Web的動態內容是由結構化的數據庫底層提供的。由于Deep Web的數據規模過于龐雜,內涵的數據模式(schema)也是多種多樣,對于Web底層數據的集成,是否結構和模式越多,數據所表現的特征就越“無結構化”。垂直搜索引擎面向的正是單個領域內的Deep Web數據,結構化處理相對簡單。
(3)去除噪音和重復數據:在Crawler抓取網頁,從中獲取所需信息的同時,還會常常獲取大量和本文所關心內容無關的“噪音”內容,有效的去除和網頁主題內容無關的噪音內容,提取網頁的元數據信息,如關鍵詞、摘要、網頁內容類別等,是Web信息處理的一項重要內容。在網頁搜集的過程中,通過URL的MD5摘要計算,我們可以完全避免對相同的URL執行多次網頁抓取過程。但這并不保證抓到系統中來的網頁都是不同的。Web上大量的網頁鏡像和轉載現象使得內容真正“獨立的”網頁要比實際搜集到的網頁數量少很多。將相似的網頁識別出來,當查詢發生時只返回一個代表,這同樣是整合Web數據時的重要工作。
數據采集和用戶查詢的效率是垂直搜索引擎系統至關重要的性能指標。垂直搜索引擎系統和傳統的通用搜索引擎系統相似。這里有三個需要重視的要點:
(1)可以接受的時間
一般指垂直搜索引擎的響應時間,有研究指出,作為Web公共服務,大型搜索引擎的響應時間不應超過3秒,垂直搜索引擎由于返回的網頁信息、列表與用戶感興趣的領域知識相關度較高,用戶可以接受的系統響應時間也相對較長,但是響應時間也應保持在“秒”的量級,本文認為,一個高效的垂直搜索引擎系統響應時間不應超過5秒。
(2)最新領域內網頁信息
垂直搜索引擎的信息和數據都是從互聯網上采集并集成的,如何盡量保證這些信息數據是最新的,就要求垂直搜索引擎的信息采集系統數據采集是高效、增量式的。對于垂直搜索引擎來說,信息采集的效率非常重要,而采用怎樣頻度的“重新抓取”要取決于垂直搜索引擎所專注的領域。除新聞網站外,許多網頁的內容變化并不是很經常的,這樣做每次搜集的網頁量不會很大。因此,與新聞相關的垂直搜索引擎可以提高“重新抓取”的頻率,而與學術文章類相關的垂直搜索引擎可以相應降低“重新抓取”的頻率。
(3)與用戶查詢匹配的有序列表
在傳統的搜索引擎中,“與用戶查詢匹配”一般就是指網頁包含用戶查詢的關鍵詞。然而垂直搜索引擎由于數據源較為單一,數據與領域信息高度相關且高度集成,可以適當調整“與用戶查詢匹配”的定義,在一定的語義范圍內,不包含用戶查詢關鍵詞的網頁或是數據條目也可以返回給用戶,以自動擴展用戶查詢的語義。此時,我們需要一個完全不同的“用戶查詢匹配度”的排序方法,而且這個排序方法必須同時是高效的。
垂直搜索引擎面向的是海量的領域Web網頁數據,與現代大規模、高性能的搜索引擎相同,采取三段式的工作流程,即網頁數據采集、預處理和查詢服務。
因此,高效的垂直搜索引擎必須具備以下的三個特征:
(1)具備高穩定性和高效率的數據采集模塊。
(2)高效的解析和存儲網頁數據。
(3)高性能的用戶查詢模塊提供快速的系統響應。
對于高性能的垂直搜索引擎來說,以上三個階段的工作都應當是并行、分布式完成的,典型的樞架結構。
某個行業領域的歷史發展、最新動向、趨勢都是行業從業人員非常關注的話題。垂直搜索引擎集中了行業領域內海量的信息和數據,基于這些信息和數據的數據挖掘、智能分析以及可視化展示,將為行業創造非常有價值的信息增值服務。
[1]王文鈞等,垂直搜索引擎的現狀與發展研究[J].情報科學,2010(28):477-480
[2]楊皖蘇等,垂直搜索引擎發展策略探討[J].商業時代,2009(23):94-95
項目名稱:基于云計算的教學資源垂直搜索研究,項目編號:NJZC14291,批準單位:內蒙古教育廳,姓名:宋金平,單位:集寧師范學院
項目名稱:基于TCPN的SIP協議形式化驗證與分析,項目編號:NJZY283,批準單位:內蒙古教育廳,姓名:馬曉娟,單位:集寧師范學院