李鴻飛
中國人民大學,北京市 100872
網絡信息檢索工具的現狀分析與發展方向研究
——以搜索引擎和網絡資源目錄為例
李鴻飛
中國人民大學,北京市 100872
本文將主要闡述目前主要網絡信息檢索工具的特點,搜索引擎和網絡資源目錄的對比分析以及網絡信息檢索工具的發展方向,并根據上述內容提出一些看法和建議。
信息;檢索;信息檢索;檢索工具;搜索引擎;網絡資源目錄
根據中國互聯網絡信息中心2012年1月16日發布的《第29次中國互聯網絡發展狀況統計報告》顯示,目前我國網民規模已突破5億。由此可見,互聯網已經在網民生活中占據一定的地位。與此同時,互聯網上的信息已是海量,搜索引擎則是網民在汪洋中搜尋信息的工具,是互聯網上不可或缺的工具和基礎應用之一。
從廣義的角度講,信息檢索包含信息存儲和信息獲取兩個過程。狹義的信息檢索是指廣義信息檢索的信息獲取過程,相當于人們所說的信息查詢等。具體來說,狹義的信息檢索指通過一定的方法,從已存儲的信息中檢索出與用戶提問相關的文獻、數據和事實的過程,即根據用戶的特定要求查找所需信息的過程。
全文搜索引擎在國外代表有Google,國內則有著名的百度。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。
網絡資源目錄雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶可以通過分類目錄找到所需要的信息,而并不進行關鍵詞的輸入查詢工作,網絡資源目錄中最具代表性的莫過于大名鼎鼎的Yahoo。
(1)門戶搜索引擎:如目前國內的四大門戶網站——新浪、騰訊、搜狐、網易。這些門戶網站并非從出生之日起就是這樣,如新浪原本為網絡資源目錄的形式,但隨著時代的發展,新浪將以前網絡資源目錄的形式逐漸轉變為了門戶網站。這樣做可以大大增加網站內容的豐富度,更能滿足網上沖浪的用戶,同時更多廣告欄的設置也可以增加網站的盈利。但這樣做也就不可避免地降低了網站的規范性,檢索功能也被大大削弱,適合于漫無目的的上網者,同時很多內容排列混亂,條理性不強。
(2)元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。
目前最重要的兩類網絡檢索工具就是搜索引擎和網絡資源目錄了,搜索引擎和網絡資源目錄的主要區別有:
搜索引擎屬于自動網站檢索,檢索快捷,直接輸入關鍵詞即可得到結果,而網絡資源目錄則完全依賴手工操作。用戶根據自己的意圖首先去考慮自己需要檢索的內容屬于哪個類別,然后再去一個個嘗試。
搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以從用戶的角度看,我們擁有更多的自主權,這是一種主動的檢索,能夠檢索到大量與我們檢索意圖相關的內容;而目錄索引則要求必須手工選擇網站信息,而且還有各種各樣的限制,而網站的管理人員劃分出來的類別有時候并不包含我們想要的,因此這是一種被動的檢索方式,但是這樣檢索出來的內容更為準確。綜合以上特征對比,可知搜索引擎的特點是查全率比較高,網絡資源目錄的特點是查準率比較高。
美國著名的市場調查公司StatCounter發布了2011年4月份搜索引擎排行榜前五名。全球范圍內,搜索引擎排行和所占份額:
①Google - 90.2%;②bing -4.06%;③Yahoo!- 3.84%;④Baidu -0.53%
中國范圍內,搜索引擎排行和所占份額:
①Baidu - 73.31%;②Google -24.33%;③Yahoo!- 1.08%;④bing -1%
由此可見,在全球范圍內,google依然是網絡檢索工具第一大巨頭,其他網絡檢索工具只能望其項背,而在中國,由于google撤出中國大陸,加上百度作為中文搜索引擎的獨特優勢,成為中國第一大搜索引擎。
目前,搜索引擎與網絡資源目錄有相互結合的趨勢。目前很多的全文搜索引擎現在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢,而像Yahoo則通過與Google等搜索引擎合作擴大搜索范圍。當對于檢索內容的概念比較模糊時,可以通過網絡資源目錄選擇準確的方向,一旦找到合適的詞匯便可以通過搜索引擎擴大檢索范圍,這樣就把兩種檢索工具做了一個很簡單的集成,但用戶卻輕松地獲得了很好的使用體驗。
從上述的分析可以看出,搜索引擎和網絡資源目錄這兩種信息檢索工具,用戶更傾向于選擇搜索引擎這種主動、便捷的檢索方式。在進行信息檢索的過程中,很多時候,搜索引擎能夠幫人們完成信息檢索的任務,但有的時候,特別是當人們自己無法明確“檢索詞”具體是什么的時候,可以現在網絡資源目錄中進行瀏覽,從中得到啟示,確定自己檢索的類別,從而摸索出檢索詞具體是什么,這樣將兩種網絡檢索工具靈活運用可以幫人們提高檢索效率。
隨著計算機技術的快速發展和信息檢索需求的不斷增加,網上檢索工具也將更加完善。通過對目前國內外搜索引擎特點的觀察和歸納,網上檢索工具的將主要朝著以下幾個方向發展:
4.1 實現搜索引擎和網絡資源目錄的同步支持。正如前文所述,目前大多數網絡資源目錄和門戶網站都有內置的搜索引擎,這些搜索引擎既可以由外部公司提供,也可以由自己公司制作。通過這樣的實現方式,能將搜索引擎和網絡資源目錄的優勢結合起來,用戶可以根據自己對檢索課題的熟悉情況來選擇檢索方式。
4.2 網絡檢索工具的功能多樣化。當前的網上檢索工具已不僅僅只是提供搜索功能,隨著用戶需求的多樣化,各大網絡檢索工具提供公司正致力于提供更多其他方面的服務,以滿足用戶不斷增加的多樣化需求。如可以提供天氣預報、新聞報道、股票點評、免費電子信箱等。
4.3 實現多媒體檢索。當前的網絡檢索工具一般或者說廣泛使用的只有文字檢索,而網絡資源豐富多彩,除了文字內容還有視頻、圖片、音樂等,未來的網絡檢索工具應實現對圖表、圖形、圖像、聲音、視頻等多媒體進行檢索的功能。而具體的技術實現以及用戶體驗等問題還有待進一步研究。
4.4 多語言檢索。這是當前時代給檢索工具帶來的印跡,隨著各國人們之間交流的簡便化、密切以及人們對掌握多語言的追求,人們對多語言檢索的需求將會不斷增加。網絡檢索工具要響應時代的號召,不但能實現多語種檢索,同時對語言之間翻譯的智能化也要不斷增強。
4.5 商業化發展趨勢。網絡檢索系統擁有全世界數量眾多的用戶,吸引了大量的廣告,為電子信息的增值服務提供了廣闊的空間。在這里匯集了最新的思想、最先進的技術和最大的潛在市場。
搜索引擎,它就像一只神奇的手,從雜亂的信息中抽出一條清晰的檢索路徑。在這條路徑上的檢索和信息提取是什么呢?是我們的閱讀和大腦的判斷,也就是做搜索引擎的最后一步是我們的大腦。隨著互聯網的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會朝著知識型搜索引擎的方向發展,為搜尋者提供更準確及適用的資料。
[1]王立清.信息檢索教程.北京:中國人民大學出版社,2008
[2]于彩云.搜索引擎Yahoo的性能評價及評價指標的選擇.現代情報,2007(2)
[3]焦玉英等.信息檢索.武漢:武漢大學出版社,2008
10.3969/j.issn.1001-8972.2012.15.035