謝安裕
(廣東省梅州市工業學校,廣東 梅州 514000)
搜索引擎是對www站點資源和其他網絡資源進行組織和檢索的一類檢索機制。其機制一般包括數據采集和標引機制、數據組織機制、用戶檢索機制。其中,數據采集機制按照一定規律和方式對網絡上www站點進行搜索。并將搜索到的www頁面信息存入搜索引擎的臨時數據庫;搜索引擎的數據組織機制對www頁面信息進行整理以形成規范的頁面所以,并建立相應的索引數據庫,搜索引擎的用戶檢索機制幫助用戶以一定方式檢索引擎的索引數據庫,以獲得符合用戶需要的www站點或頁面。
2.1 目錄式搜索引擎:是一種網站級搜索引擎。目錄式搜索引擎由分類專家將網絡信息按照主題分成若干個大類,每個大類再分為若干個小類,依次細分,一般的搜索引擎分類體系有五六層,有的甚至十幾層。先由程序自動搜集信息,然后由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務和直接檢索服務。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準確度是相當高的,缺點是需要人工介入、維護量大、信息量少、信息更新不夠及時。Yahoo就是這類搜索引擎的代表。
2.2 機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。但是該類引擎返回信息過多,有很多無關信息,用戶必須從結果中進行篩選
2.3 元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個預先選定的獨立搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。元搜索引擎的搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。
因特網搜索引擎的結構及工作方式的缺陷,沒有一個搜索引擎包含的WWW頁超過了全球總WWW頁面的16%,而對因特網資源的覆蓋面還明顯下降,也受限于數據庫更新的速度,可能導致搜索引擎有價值的信息。
搜索引擎自動巡視軟件在搜集因特網信息時,通常要將網頁內容全部或部分下載到本地,然后才能進行索引處理,下載的頁面中有許多無用或暫時的信息,影響索引速度,也浪費系統通信資源。各種搜索引擎使用的檢索符號和對檢索式的要求不一樣,給用戶檢索帶來了困難。搜索引擎的局限性還主要表現在信息丟失、返回過多無用信息及信息無關等方面。造成現狀的原因在于傳統搜索引擎隊要檢索的信息僅采用機械的關鍵詞匹配,缺乏知識處理能力和理解能力,即使搜索引擎無法處理用戶看來非常普通的常識性知識,更不能處理個性化知識,因地區不同的區域性知識,因領域不同的專業性知識。
還有原因在于整個檢索過程中,客戶端的計算機知識起著一個終端的作用,強大的運算能力和存儲空間無法發揮作用,就造成以下的問題:搜索結果很難精確匹配;無法對檢索結果進行提煉;無法對不同的搜索引擎的結果進行綜合比較與提煉;搜索引擎使用方法不同造成用戶理解和使用困難;搜索結果手工下載效率低下;增加用戶的網絡通信費;搜索結果中的匹配文檔不可能快捷地下載。
智能搜索引擎:智能搜索引擎是結合了人工智能技術的新一代搜索引擎,它使因特網信息檢索從基于關鍵詞提高到基于知識或概念,并對知識有一定的理解和處理能力,能夠實現分詞技術、同義詞技術、概念搜索、短語識別及機器翻譯技術等。比如在表單中輸入的問題,返回的答案,這樣就要把所有的問題全部添加到數據庫中,每當用戶提問的時候,數據庫將會在數據庫中檢測查詢結果,百度知道就是把用戶的問題和正確答案添加到數據庫中了,當你在知道中查詢答案,那么將會檢測到相關的詞匯。智能搜索引擎實現數據挖掘、知識發現、智能代理等。智能搜索在研究機器翻譯(MT)的領域中,使用戶可以用母語搜索非母語的網頁,并以母語瀏覽搜索結果。檢索機制:垂直化專業領域搜索、關聯式的綜合搜索、檢索結果自動聚類。垂直搜索是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。垂直搜索引擎和普通的網頁搜索引擎的最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然后將這些數據存儲到數據庫,進行進一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理后以非結構化的方式和結構化的方式返回給用戶。垂直搜索引擎的應用方向很多,比如企業庫搜索、供求信息搜索引擎、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業各類信息都可以進一步細化成各類的垂直搜索引擎關聯式的綜合搜索。關聯式綜合搜索,就是這樣一種一站式的搜索服務,它使得網民在搜索時只需輸入一次查詢目標,即可在同一界面得到各種有關聯的查詢結果。這項服務的關鍵在于有一架構在XML基礎上的整合資訊平臺自動聚類可對檢索結果進行自動聚類并構建樹狀結構,以構建企業知識地圖、檢索者快速定位所需信息。應用中可實現對新聞稿件或大數據量文檔的自動聚類,實現輔助專題制作等。類似方正智思知識管理平臺軟件那樣特色搜索引擎:(包括可視化檢索和多媒體信息檢索的綜合運用)檢索結構可視化方法實現檢索結果可視化。搜索結果的呈現方式,結果可視化,可以先看到每個網頁長什么摸樣,再決定是否訪問它。多途徑的多媒體檢索、多種媒體信息庫的結合、多特征的綜合檢索、采用相關反饋和自動標注技術、高維索引技術、用戶查詢接口實現多媒體信息綜合檢索在網絡信息多樣化和網絡用戶多樣化的呼喚下,人們希望在網絡上找到更豐富更實用的資源,不再漫無目的地查找,特色搜索引擎便應運而生了。
(1)圖像搜索引擎。圖像搜索引擎雖然還沒有成熟的產品,但是這項研究工作卻緊鑼密鼓的進行著。據稱,美國Purdue大學的研究人員已經開發出了一種新的搜索引擎,這種搜索引擎不再使用關鍵詞文本進行搜索,而是使用圖像或者草圖進行搜索。不就的將來,用戶自己畫一幅草圖,搜索引擎就可以對數據庫進行搜索,并找到所有與草圖類似的圖像。不過,這要求圖像搜索引擎能夠快速處理超大容量數據庫。這種技術不僅為網民提供了方便,在生物、化學、醫學等領域都可能發揮極大的作用。
(2)多媒體搜索引擎。FAST是國外著名的多媒體搜索引擎,很多同類搜索引擎都會引用此引擎的內容。在FAST搜索多媒體文件,可以同時搜索圖像、音頻、視頻等多種格式的多媒體文件,圖像支持JPEG、GIF、BMP三種格式,音頻支持MP3、Wave、AIFF、RealAudio、MIDI五種格式,視頻支持AVI、DivX、QuickTime、MPEG 四種。FAST為每一個搜索結果提供預覽和說明,同時還有下載的直接鏈接,以及該文件所在網站的地址。
(3)搜索在線攝像頭監視畫面:眾所周知,如果要與對方通過攝像頭進行連接的話,必須對方同意才可以。但是利用Google卻可以突破這個限制,因為它可以搜索網絡上未經加密的網絡攝像頭(機)監視到的畫面。
(4)房產地圖搜索引擎。房產地圖搜索引擎是結合地理信息系統(GIS)、數據庫系統(DBMS)和動態Web軟件技術開發研制,可以通過智能化地理信息分析查找特定范圍內的特定目標。例如用戶可以選擇購房愿望:價格、面積、戶型、房屋布局、地理位置、周邊商業、交通、自然環境、小區狀況等,在互聯網上進行查詢。引擎立即會將所有滿足條件的房源顯示出來,并可以任意放大、縮小、移動房源地圖。
總之 ,隨著計算機技術和網絡技術的不斷發展 ,網絡檢索將逐步朝著簡單化、人性化方向發展 ,檢索界面會越來越簡潔友好。用戶可以很容易地進行網上自動標引、自動文摘、自動跟蹤、自動漫游、機器翻譯、多媒體檢索、動態連接、數據挖掘等操作 ,方便、及時、準確地獲得所需信息。
[1].徐謙.網絡信息檢索的智能化趨勢[J]圖書館理論與實踐2006,2:63-65
[2]柳群英.網絡信息檢索技術現狀及發展趨勢[J]情報探索 2005,4:66-68
[3]張興華.搜索引擎技術及研究 [J].現代情報,2004,(4)