李玲
【摘要】信息時代信息更新速度不斷加快,人們能夠使用的信息量極其巨大。面對紛繁的信息,如何提取有用的知識是面臨的一個非常現實的問題。隨著網絡應用的深入,網絡信息檢索技術不斷發展,同時也面臨著諸多挑戰,其總的發展趨勢為多功能化和智能化。
【關鍵詞】網絡信息 信息檢索 搜索引擎
一、引言
當今世界是互聯網飛速發展的信息世界,因特網作為傳遞信息的橋梁,發揮著越來越重要的作用。據中國互聯網信息中心2018年1月發布的《第41次中國互聯網網絡發展狀況統計報告》數據顯示:截至2017年12月,我國網民規模達7.72億,網站數量為533萬個,年增長率為10.6%,網頁數量為2604億個,年增長10.3%,且仍在以每天百萬級別網頁的速度增加。網絡信息數量的海量化、形式多樣化、內容的復雜化使得網絡用戶如何在信息的海洋中,有效地獲取和利用信息與知識變得極其重要。網絡檢索技術已成為最普遍、最受關注的研究領域之一。
二、網絡信息檢索技術現狀
(一)信息檢索概述
信息檢索(Information Retrieval),通常指文本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心是文本信息的索引和檢索。在現代人們的認知觀念中,人們總是把信息檢索與搜索引擎畫上等號。但是信息檢索并不等于搜索引擎,只不過現階段搜索引擎是網絡信息檢索的主要手段。
(二)搜索引擎技術分析
搜索引擎是指利用網絡搜索技術對因特網信息資源進行標引,并為檢索者提供檢索的工具。搜索引擎具有普通檢索功能(如詞組檢索、字段檢索)和特殊檢索功能(如自然語言檢索、多語種檢索等)。因為不同的搜索引擎其收集信息的方式、信息覆蓋面廣度、標引方式和檢索軟件的具體功能不同,相同的檢索在不同的搜索引擎中存在的差異也很大。
(三)搜索引擎類型
(1)索引式搜索引擎,又稱為基于Robot的搜索引擎。是利用一個Robot(也叫Spider,Web Crawler或Web Wanderer)的程序自動訪問、提取各個網站網頁上的信息。如www.altavista.com即為這種檢索式搜索引擎。
索引式搜索引擎的特點體現在兩方面:一是交互性強,基于客戶機服務器模式從客戶端獲取用戶提問,經過轉換構造可操作數據庫的查詢語句,從數據庫中查找匹配記錄,并通過Web反饋結果;二是檢索功能強大,一般可進行詞組檢索、位置檢索、相關詞檢索等。
(2)元搜索引擎,又稱為集合式搜索引擎,是將多個搜索引擎集合在一起,提供一個統一的檢索界面。元搜索引擎自身沒有實際的數據庫來保存網上眾多的網站、網頁、FTP等信息,而是間接處理其他搜索引擎檢索的結果,進行再次篩選評價后統一反饋給用戶。
元搜索引擎的特點體現在兩方面:一是檢全率高,但是檢準率不能保障;二是一般元搜索引擎只支持“與或非”的簡單操作,因為元搜索引擎連接的站點各自擁有自己的一套檢索語法,故若想統一結構具有較大難度。
(3)目錄式搜索引擎(Directory或Catalog),是指由人工發現、抓取、辨別網上信息,依靠編目、標引人員的知識,按照圖書分類、學科分類或其他分類依據建立主題樹分層目錄,并將采集篩選后的信息分門別類地放到各大類或子類目下,在Web界面上呈現錯落有致的上下級關系,用戶通過層層點擊,逐步縮小范圍,最終滿足用戶的查詢需求。
目錄式搜索引擎的特點體現在三方面:一是比較適合主題瀏覽,一般主題檢索都為檢索用戶的查找提供有價值的提示;二是檢準率較高,因為該搜索引擎介入了人工來評價網站內容,因此搜索結果準確率較高;三是檢全率有限。
三、網絡信息檢索技術瓶頸及發展趨勢
(一)網絡信息檢索技術的瓶頸
(1)圖像音頻視頻檢索。信息化社會的今天,圖文并茂的多媒體信息已逐步成為Web信息的主流。如何對圖像特征進行準確提取,使用精準表達方式表達圖像特征是圖像檢索待解決的問題。
(2)漢語自動切分。語詞是信息表達的最小單位,是信息檢索技術中匹配的基本元素。漢語字詞之間沒有分隔符,而對信息資源的標引與對用戶檢索輸入的“理解”都必須進行正確的語詞切分,語詞切分已成為全文檢索技術的瓶頸。
(3)搜索引擎缺陷。目錄式搜索引擎采用人工干預技術,信息分類不規范,信息遺漏不可避免;站點、網頁信息內容經常變化,現有搜索引擎在信息維護、網絡及站點負載方面存在很大不足,索引數據庫大但檢索查準率低。
(二)網絡信息檢索技術發展趨勢
(1)網絡檢索智能化趨勢。從某種程度上說,科技發展的目的是為了滿足人們的“懶惰”習性。同樣,用戶希望用簡單的檢索步驟獲取高效準確的檢索結果。網絡檢索順應用戶這一要求,通過模擬人腦的思維方式,分析用戶自然語言表達的檢索請求,進行快速高效的信息檢索。其中較有代表性的如FSA、Eloise和FAFinder,通過模擬傳統檢索服務的咨詢來獲取相關的檢索數據。
(2)網絡檢索多樣化趨勢。網絡檢索多樣化表現在網上檢索信息、檢索工具及其服務的多樣化。多樣化趨勢具體表現在:網絡檢索信息的形態多樣,包括文本信息、聲音、圖像和動畫等。目前,已有高性能的語音識別系統和人臉圖像識別系統相繼問世,相信隨著科技的高速發展,該類系統將會越來越普及,幫助人們進行網上檢索。
(3)網絡檢索個性化趨勢。網絡檢索個性化包括網絡站點提供內容的特色化和服務的個性化。各網站針對不同用戶需求提供有特色的服務內容,用戶可以利用檢索工具以自己喜歡的方式來檢索信息,以提高檢索的效率和質量。