于會弟
摘要:網絡的發展日新月異,以網絡為媒介的網絡信息檢索也異軍突起,在眾多的傳統和現代檢索方式中脫穎而出,并以其共享性、動態性和更新迅速等優點日益發展成為占據主流的檢索方式。文章針對這一發展趨勢,對網絡檢索作了較為詳細和全面的分析闡述,著重從網絡檢索的概念、網絡信息資源的特點、網絡檢索的工具、網絡檢索存在的一些問題以及網絡檢索的發展前景展望等幾個方面展開了論述。
關鍵詞:信息檢索;網絡檢索;搜索引擎;Internet
中圖分類號:G354文獻標識碼:A
文章編號:1674-1145(2009)12-0139-02
信息檢索是指從文獻集合中查找出所需信息的程序和方法。所謂文獻集合是指有組織的文獻整體。它可以是數據庫的全部記錄,也可以是某種檢索工具,還可以是某個文獻收藏單位收藏的全部文獻,當然也可以是某個單位通過Internet發布的各類信息集合。信息檢索發端于19世紀前期,主要以手工檢索方式為主,其發展速度較為緩慢,檢索效率普遍不高。到20世紀50年代,1951年世界上出現了最早的計算機系統,這可稱得上是信息檢索發展史上的一個里程碑。隨著計算機技術的不斷進步,進入20世紀90年代,網絡技術開始進入社會生活各個領域,計算機檢索也逐步由脫機檢索、聯機檢索發展到如今的Internet環境下網絡檢索。網絡檢索以其低廉的費用、迅速的存取等多種功能對傳統的檢索造成了強力的沖擊,與此同時,一些新的理論、新的課題也應運而生,加速了現代情報學和信息學的發展。網絡息檢索是指對利用Internet信息發布技術,通過 Internet發布的信息進行的檢索,主要利用搜索引擎、網絡機器人和門戶站點等來完成。
隨著Internet的迅速發展,網上信息以爆炸性的速度不斷豐富和擴展,其信息數量之大、類型之多,已經給人們的工作、學習和生活方式帶來了巨大影響。為了充分發揮網絡信息的重要作用,并能迅速在上百萬個網站中快速有效地查找到想要得到的信息,必須對網絡檢索的特性進行研究分析,并掌握網絡信息資源的特點、基本方法和檢索技巧和檢索工具等重要內容。
一、網絡信息資源的特點
網絡信息資源的分布主要以網站為單位,數以千計的網站在Internet上形成了犬牙交錯的信息資源庫。但總體來講,網絡信息資源相比其他信息資源具有如下主要特點:
1.離散性與共享性。WWW是受TCP/IP支持的應用協議集,它采用HRL,HTM,HTTP和CGI進行信息定位、存取和顯示。在靜態上,WWW是一個全球范圍內的的相互鏈接的多媒體信息網,同時在邏輯上它也可被看作是用HTML書寫的分布式超文本結構。這種超文本結構使得文檔之間用熱鍵鏈接,這種自由度使得信息交換與分享潛力無窮。也正是由于這種離散性,使得網絡信息資源能為所有網絡用戶共享,這一優越性是其他信息資源所不具備的。
2.動態性和及時性。網上信息資源的瞬息萬變,極其豐富,信息的更新也很迅速。
3.不均勻性。有兩重含義,一是網絡信息的質量不均勻,二是網絡信息分布不均勻。
4.潛在的失控性。任何個人團體只需具備上網條件能夠使用HTML,就可以把任何信息放到網上,這種信息經過種種檢索工具的標引,就可供用戶檢索,中間沒有任何形式的質量控制,勢必影響檢索效果的查準率,從而導致檢索效率的失控。
二、網絡檢索的基本方法和技巧
網絡檢索的基本方法有兩種:一是通過分類搜索引擎檢索;二是通過關鍵詞檢索。
分類搜索引擎可以清晰方便地查找到某一大類信息,比較符合傳統的信息查找方式,尤其適合那些希望了解某一方面(或范圍)信息,并不嚴格限于查詢關鍵字的用戶。但目錄式搜索引擎的搜索范圍較全文搜索引擎要小許多,尤其是當用戶選擇類型不當時,這樣有可能遺漏某些重要的信息源。
分類搜索引擎的分類方法有學科分類和圖書分類兩種。學科分類由各搜索引擎將搜集來的信息按照學科類型分門別類地進行排列,大多數搜索引擎都提供這種檢索方法,只是它們采用的分類標準各不相同。大多分類搜索引擎不提供圖書分類搜索,因為圖書分類的分類標準來源于圖書分類法的基本大類,如我國的《中國圖書館圖書分類法》、國際上通用的《國際十進分類法》和《杜威十進分類法》等,要求相對比較嚴格。CERNET網絡中心的網絡指南針提供圖書分類搜索。關鍵詞檢索是直接在搜索引擎提供的檢索對話框中輸入要檢索的關鍵詞進行的檢索。輸入的關鍵詞可以是單個詞匯,也可以是多個詞匯,通過組配的方法進行比較復雜的檢索。
關鍵詞檢索是網絡信息檢索的主要方法。下面詳細說明關鍵詞檢索的方法和技巧。
關鍵詞組配檢索是根據關鍵詞之間的邏輯關系,利用邏輯運算符把關鍵詞連接起來,構成檢索表達式進行的檢索。正確的掌握和利用此方法是有效提高網上信息資源檢索利用的關鍵。邏輯運算主要有三種:“邏輯與”、“邏輯或”和“邏輯非”。邏輯與(通常用“AND”或“*”表示)檢索式為:A AND B或 A*B。可用來表示其所連接的兩個檢索項的交叉關系,也即交集部分,表示讓系統檢索同時包合檢索詞A和檢索詞B的信息集合。邏輯或(通常用“OR”或“+”表示)檢索式為:A OR B(或A+B)表示讓系統查找含有檢索詞A、B之一,或同時包括檢索詞A和檢索詞B的信息。邏輯非(通常用“NOT”或“-”表示)。檢索式為:A NOT B(或A-B)。表示檢索含有檢索詞 A而不含檢索詞B的信息。即將包含檢索詞B的信息集合排除掉。
三、網絡檢索工具
隨著WWW站點的增長,Internet上的信息數量和種類越來越多,為了解決信息利用的難題,互聯網建立了許多專門的信息檢索工具——搜索引擎,使用戶可以通過關鍵詞或分類的方法找到所需信息。
網絡檢索工具大致可分三大類型:
1.字典型檢索工具。類似字典、電話簿和人名錄的功能,用于檢索網上用戶人名、E- mail、URL、服務器地址等。這類工具有查地址:White Pages Directory,Internet Yellow Pages,whois,Fred,X。50 0,Netfinder,IAF,Four1 1,Finger,Who Where;查用戶組:Deja News,FAQ Archive等;查軟件:shareware.com。
2.索引型檢索工具。為網上信息資源建立索引,這類工具有:FTP資源的索引:Archie等;Gopher資源的索引:Verronica,Jughead等;網上服務器的索引:Wais等。
3.交互型檢索工具。提供類似商用聯機檢索的網絡信息檢索服務。這類工具基本可分Gopher和WWW兩大類:Gopher:采用客戶機/服務器結構,把Internet上分散和各自獨立的信息源聯成一體,以簡單的菜單選擇方式提供遍布全球的Gopher信息資源的檢索。Gopher是較早期的網絡檢索工具,發展勢頭不如 WWW;WWW(World Wide Web)中文譯名環球網、全球網或萬維網,同樣采用客戶機/服務器結構,以其聯網簡單(http)、超文本連接(Hyperlinks)、標準格式、規模大小可伸縮、多媒體、瀏覽界面(browser)、易用等特點,大到美國國會圖書館、小到任何個人都可入網,從而構成當今世界上最大、最普及的網絡信息檢索系統。
四、網絡信息檢索中存在的問題
盡管國際互聯網檢索工具的發展已具有一定規模和達到一定層次,然而,作為一個整體,還存在著準率差的問題。總的來說,Internet搜索引擎存在如下問題 :
1.缺乏網絡信息質量控制。任何個人團體,只要具備上網條件,知道如何使用超文本標識語言,就可以把任何信息放到網上。這些信息經過種種檢索工具的標引,就可供用戶查詢,中間沒有任何形式的質量控制。未經質量控制的信息,必然影響檢索結果的查準率。
2.網絡檢索工具的功能尚待完善。與傳統計算機檢索工具相比,網絡檢索工具尚不能修改原有檢索結果,每次檢索都是重新開始,不能對原有結果加以利用。由于網絡文件的結構特殊(如超文本),且不按傳統意義(如著者或篇名)的字段進行檢索。目前還沒有任何一個網絡檢索工具可在檢索功能上與傳統計算機化的檢索工具相媲美。
3.缺乏檢索詞匯控制。幾乎所有的網絡檢索工具都采用自然語言標引和檢索,其必然結果是同義詞和近義詞得不到控制,詞間相互關系得不到揭示,最終影響檢索效果。
4.自動標引的局限性。自動標引雖然省時省力,但不可避免地給檢索帶來一些問題和困難。這些問題和困難最突出地表現在自動標引不可能像人工標引那樣進行智能甄別和選擇,而只能依賴關鍵詞詞頻等標準判斷網絡文件的價值。
5.邏輯運算無統一標準。搜索引擎中有的用AND、OR、NOT;有的用“+”、“-”號代替AND、NOT,而將邏輯或OR設為缺省值;有的則是AND、NOT兩種符號都采用。
6.支持功能不統一。有的搜索引擎具備完整的邏輯檢索功能,有的則只支持部分邏輯檢索功能,比如有的檢索工具能與圓括號()結合進行復雜的課題檢索,而有的檢索工具則不能。
7.使用途徑不統一。有的搜索引擎必須在其高級檢索方式中才能使用(如只能用AND而不能用“+”,只能用NOT而不能用“-”);有的必須在一般檢索方式中才能使用,有的則可在兩種檢索方式中混合使用。為了提高WWW搜索引擎的檢索質量,在搜索引擎的開發中應注意完善搜索引擎的功能,增加檢索途徑和限定提高查準率;同時在信息標引時采用詞頻和詞表相結合的辦法,加強對檢索詞匯的控制,并提高標引速度。
五、網絡檢索前景展望
目前網絡信息檢索技術雖然取得了很大進展,卻仍面臨以上諸多困難和問題。可喜的是,當今出現的一系列新型檢索模式,包括網絡信息規范控制標準等為網絡檢索的未來展現了新希望。
1.多種技術的整合將使網絡變得更加豐富多彩。目前,網絡檢索(Web search)從總體上還停留在對網上全文、索引、目錄等基于關鍵詞的檢索。對網絡檢索的概念僅局限于對具獨立 URL網址的網頁的檢索。實際上,借助于計算機處理能力、存儲能力的大幅度提高以及網上數據通訊帶寬的急劇擴大,再加上更多新類型信息將由更多的網上用戶通過不同的網絡設備提供上網,人們對網絡檢索的概念將發生戲劇性的變化,將要展現在我們眼前的是網上各種信息載體的“百花齊放”;待檢索的網絡信息存儲在“動態”管理的數據庫中而非“靜態”的網頁中。
2.搜索引擎將實現從檢索“出發點”向“目的地”的轉型。對絕大多數搜索引擎來說,盡管檢索服務向用戶提供帶有超文本鏈接的檢索結果仍是目前服務的重點,但在充滿競爭的現實中,最成功的應該是那些本網頁提供的信息就能使用戶受益匪淺,而不是僅能提供引向其他網頁的鏈接。目前,更多的搜索引擎正致力于通過加強對用戶檢索需求的滿足實現從檢索“出發點”到“目的地”的轉型。Hot Bot的Truher認為:“對絕大多數用戶來講,并不是為了找尋信息而找尋信息,檢索的最終目的是要真正能解決問題。”未來的網絡檢索服務將盡可能地了解用戶的真正需求并據此將檢索結果進行分門別類的處理,而不是對每一個檢索提問都一古腦兒輸出大量的結果。
3.智能化的進程將會跨上新臺階。Intelli- Seek的執行總裁 Mahebdra Vora預言“未來的網絡檢索軟件將更智能化,它能理解不同用戶的實際需求并提供主動服務”。而Hot Bot的Truher預測“今后的檢索界面將更具有檢索‘助手功能,這種助手比現有搜索引擎要出色得多”。
4.嶄新的標準將為消除網絡的混雜局面帶來生機。網絡檢索質量保證最大阻礙之一是網絡結構的混亂嘈雜,缺乏統一標準化的描述方法和手段。目前人們正在研究新的統一的標準和描述方法以期能改善這種混亂的局面,也取得了一些階段性成果和進步,我們拭目以待新的標準能盡早出現。
參考文獻
[1]湖北省圖書館.湖北省圖書館湖北名勝風景數據庫
[EB,0L].[2007-06-23].http://www.library.hb.enI 8080/
was40/search?channelid=51986..
[2]Elisa Lanzi,Ann Bmrd Whiteside.CCO Commons[EB/OL].[2007—07—26].hap://www.vraweb.or~eeoweb,co/about.html.
[3]劉佳.基于內容的圖像瀏覽與檢索系統研究[D].西安:西安科技大學計算機科學與技術系,2006.