摘要:目前,隨著信息技術的迅猛發展,信息已發展成整個社會的主要資源,要衡量一個國家或地區的現代化程度,主要看其信息的占有度和信息處理水平的先進程度,豐富的網絡信息在很大程度上改善了人們的工作及生活方式。Internet是當前覆蓋面最廣、規模最大、信息資源最豐富、發展最迅速的信息網絡,對Internet網絡信息檢索的研究,有著很強的現實性和實用性。
關鍵詞:網絡信息檢索 搜索引擎 局限性
1 網絡信息檢索簡介
1.1 信息檢索的概念 信息檢索指的是將信息按照一定的方式組織、存儲起來,根據信息用戶的需求查找所需信息的過程和技術。信息檢索主要通過以下幾種途徑來獲取信息:①傳統的信息檢索,即利用人工查詢的方式,查詢圖書館等文獻豐富的機構,并獲取文獻;②聯機信息檢索,它和傳統的信息檢索比起來具有廣泛性、實時性、完整性和共享性等特點;③網絡信息檢索,即信息用戶利用網絡信息檢索工具檢索Internet信息空間中的各類網絡信息資源。
1.2 網絡信息檢索的原理 概率模型、布爾邏輯模型、模糊邏輯模型是應用比較廣泛的幾種網絡信息檢索模型主要有:①概率模型。該模型是在貝葉斯概率原理的基礎上提出來的,對詞條和文檔間的內在聯系進行研究之后,通過詞條和詞條之間和以及詞條和文檔之間的概率相依性來檢索信息。②布爾邏輯模型。根據檢索項在文檔中的布爾邏輯關系提交查詢,搜索工具按照提前組建的倒排文檔結構來確定查詢結果。③模糊邏輯模型。處理查詢結果的過程中引入模糊邏輯比較,同時根據先后次序將查詢結果排列出來。
2 搜索引擎
搜索引擎,又稱檢索引擎,指的是在Internet上運行,通過對信息資源進行檢索來提供所需數據的服務系統。當前,大部分人們都利用搜索引擎來檢索網絡信息。和其他檢索工具比起來,它這種檢索工具的檢準率、檢全率遠遠高于其他檢索工具,具有極強的利用價值,且就目前情況而言,它的市場強勁非常廣闊。
2.1 搜索引擎的功能 ①模糊檢索。對網絡資源進行檢索時,系統檢索用戶提供的關鍵詞以及與冠軍按此相似的詞語,同時返回包含關鍵詞,或這些相似詞的檢索結果。②布爾邏輯檢索。用戶可通過NOT、AND、OR進行關鍵詞的搭配檢索。③截詞檢索。截取詞條的某一部分來進行檢索。在搜索引擎中,用戶提供包含“?”、“*”通配符的檢索項進行檢索。④限定詞檢索。它用來規定檢索項中必須出現或是必須不出現某些關鍵詞。
2.2 搜索引擎的工作原理 搜索引擎的檢索機制一般包括數據組織機制、數據采集和標引機制和用戶檢索機制。
①數據組織據組織機制是對www頁面信息進行整合,使其更加簡單、規范,同時構建相應的索引數據庫。②數據采集和標引機制根據相關規律及一定的方法來搜索網絡上的www站點,同時將搜索結果存入搜索引擎臨時的數據庫內。③索引數據庫是信息檢索的先決條件,檢索結果是否符合要求在很大程度上去覺與索引數據的準確性,數據庫質量主要取決于搜索引擎的數據采集及標引機制。④用戶檢索機制通過相應的方式對引擎的索引數據庫進行檢索,從中獲取有價值的網頁或站點。
2.3 搜索引擎的分類 目前的中文搜索引擎主要有三種類型:目錄式搜索引擎、機器人搜索引擎和元搜索引擎。
①目錄式搜索引擎,是通過半人工、人工的辦法采集信息,組建數據庫,編輯對某一web站點進行訪問以后由編輯人員在訪問以后描述這個站點,同時按照站點的性質、內容對該站點歸類處理。②機器人搜索引擎是目前運用較廣的搜索引擎。這個搜索引擎采用自動采集軟件Robot,對網頁信息進行檢索,同時將其下載并儲存在本地文檔庫中,然后自動分析文檔內容,建立索引。根據用戶的檢索需求,對索引進行檢索,分析出相應的文檔并反饋給用戶。③元搜索引擎主要通過調用其他搜索引擎的引擎來完成信息檢索。它在一個統一的用戶界面上,以用戶需求為目的,在多個搜索引擎中尋找合適的引擎來檢索信息資源。
3 網絡信息檢索的局限
用戶都是通過網絡信息檢索工具在網絡信息資源進行查找自己需要的信息,因此,檢索工具的優劣會對檢索效率產生很大的影響。近些年,網絡信息檢索工具的確有所發展,但仍然存在著這樣或那樣的局限。
3.1 文本信息檢索的局限 ①搜索引擎的查全率低。網絡信息資源庫在持續擴充,信息資源的增長的速度要比搜索引擎采集數據的速度快的多,這會大大降低搜索引擎的檢全率。②搜索引擎的查準率低。一是當前的搜索引擎中普遍存在反饋信息;二是信息重復反饋。同一信息源有時在檢索結果中產生不同的組成部分,不同的信息源也有相同內容信息出現的情況。③網絡信息標引準確度不達標。大部分檢索工具標引的準確度都無法達到設計要求,檢索工具往往在反饋垃圾信息的過程中也會將部分有價值的信息丟掉,某些情況下,垃圾信息會覆蓋所有有價值的信息。④查詢方式較少。當前的很多搜索引擎,在查詢方式上都過于單一,而且都需要用戶提供關鍵詞來查詢或采用分類查詢的方法。這樣,只能就某一關鍵詞或概念進行籠統檢索,因此使查詢結果相關性很差。⑤檢索對象的數據結構單一。由于現在大多網站使用傳統的關系數據庫對信息進行組織和存儲,因此其使用的搜索引擎也是基于關系數據庫的,這種數據庫非常擅長處理結構化的數據,但對非結構化的數據的處理能力很弱。⑥交互性不夠。大部分搜索引擎和用戶之間無法建立其很好的交互性,在協作方面比較欠缺,對用戶信息很陌生,不對用戶查詢的信息進行記錄,無法對用戶的反饋信息進行處理,也就無法與用戶之間達成良好的交互來提高檢索效率。
3.2 多媒體信息檢索的局限 雖然眼下已經存在只針對聲音、視頻和圖像等媒體的檢索技術,但仍未研究出能檢索多媒體信息的搜索引擎,具體體現在以下幾點:①檢索效果不好。就目前情況而言,大部分多媒體搜索引擎的查準率都無法滿足用戶的需求,用戶不得不從眾多圖像結果中自己篩選出所需的信息資源。這很費時,而且有時根本檢不出想要的東西。究其原因,一是查詢方式少,二是在于對圖像的標引深度不到位,所以,必須進一步完善圖像檢索及相關的索引機制。②用戶查詢接口單一??茖W的多媒體檢索系統,人處于主動地位,用戶的查詢接口直觀易用,可提供足夠的交互能力,用戶能可以對檢索參數進行適當的調整之后,將圖像的語義感知準確的表達出來,并從中取得較好的結果。當前,多媒體搜索引擎用戶查詢接口呈現單一的發展趨勢,很多引擎僅能通過關鍵詞或提問框進行查詢。③信息的自動加工與人工標引不夠。目前多媒體搜索引擎的研究剛剛起步,尤其是圖像信息的加工,人工干預雖能提高查準率,但可被人工標引的非常有限,同時,因為人工標引需要付出很多勞動而使檢索范圍受到限制,因此,當前亟待解決的一個問題是快速標引圖像信息,并對其進行合理的分類。
當前,基于內容的檢索技術多應用于對靜態圖像的檢索,對動態圖像的檢索還沒有多少行之有效的方法。但隨著寬帶網絡的逐步實現,動態多媒體信息在網絡中將會越來越多。
參考文獻:
[1]孫建軍,成穎.信息檢索技術[M].北京:科學出版社,2004.
[2]王豐.國內中文搜索引擎研究[J].網絡通訊與安全,2007,(8).