文 / 李曉艷 陳曉媛
網絡檔案信息檢索是檔案信息化建設中的重要環節。良好的網絡信息檢索技術是檔案信息檢索效率和質量的重要保障。自1990年代計算機網絡逐漸普及以來,網絡檔案信息檢索的檢索效率和檢索質量都有了明顯提升。新媒體的日益發展以及大數據技術的不斷進步,極大地豐富了檔案信息系統的數據資源,同時也給網絡檔案信息檢索帶來一定的挑戰。
網絡檔案信息檢索是在傳統檔案信息檢索的基礎上,引入互聯網信息技術,實現信息檢索方式、檢索理念以及技術支持的轉變。網絡檔案信息檢索與傳統檔案信息檢索相比,利用計算機的快速處理能力,在檢索方式和檢索效率上,均有顯著提升。
信息檢索技術最早出現在文摘索引和圖書館參考資訊工作中。1970年代,手工檢索仍是檔案信息檢索的主要形式,這一時期檢索的主要對象是文獻和各類工作性書籍。計算機問世后,由于初期的使用成本和使用效率都不太理想,計算機技術并未在信息檢索中獲得廣泛的應用。直到1990年代,計算機網絡廣泛普及,計算機技術的使用成本明顯降低,不少檔案機構引入計算機技術,由此進入了網絡檔案信息檢索時代[1]。
在互聯網技術影響下,我國檔案信息檢索真正實現了網絡技術的創新,檔案信息資源平臺也由此呈現出全新的面貌。網絡圖書館作為提供網絡檔案信息檢索的主要平臺之一,在網絡檔案信息檢索的發展中發揮了重要作用。比較著名的網絡圖書館有中國國家圖書館、南京大學圖書館等[2]。目前,越來越多的檔案資料開始以電子檔案形式保存,網絡檔案庫存資源日益豐富,也給網絡檔案信息檢索帶來更為廣闊的發展前景。
網絡檔案信息檢索主要采取語義檢索,通過輸入檢索關鍵詞,在資源系統中檢索出與關鍵詞相匹配的檔案資料。檢索技術和檔案資源庫建設的不足使得檔案信息檢索中經常出現無效檢索。大數據技術的發展,使各個檔案信息檢索平臺的檔案資料得到了很大的豐富,檔案形式也更加多元化。圖片、影像以及音頻等多媒體形式為載體的檔案信息,逐漸被納入到檔案信息資源體系中,給當前網絡檔案信息檢索提供了更加優質的檢索內容與服務形式。
信息查全率是反映檢索質量的重要指標。信息查全率越高表明網絡檔案信息檢索成功率越高[3]。當前信息檢索系統所使用的布爾邏輯檢索常用孤立的詞匯作為檢索入口,對標題、詞匯的識別產生遺漏,容易出現信息檢索不出的現象,給網絡檔案信息檢索的發展帶來了很大的阻礙。
信息查全率存在技術障礙,會降低網絡檔案檢索的效率,還可能因為檢索詞匯的相關性不高導致信息檢索出錯。在進行網絡檔案信息檢索時,用比較熱門的檢索詞匯檢索,得到的檢索內容會比較全面;用冷僻、偏門的孤立詞匯進行檢索,由于詞匯間相關性不高,很難檢索出有效的檔案信息。
網絡檔案資料系統為檔案信息檢索提供了重要的數據支撐,但其中的信息查全率技術障礙問題很容易導致檢索內容產生遺漏。一般網絡檔案資料系統越大,信息檢索遺漏的可能性越大,信息查全率也越低。信息查全率技術的不成熟,影響了檔案信息檢索的質量,成為我國檔案信息檢索平臺發展受限的主要原因之一。
網絡檔案信息檢索的出現,使人們獲取檔案信息資源更加便捷。人們在檢索檔案信息時常用關鍵詞檢索法,通過輸入檔案信息的關鍵詞,檢索出符合要求的檔案資源。關鍵詞檢索可以滿足用戶對于文字檔案信息的檢索需求。由于檢索內容技術的局限,在檢索內容中加入圖片、音頻以及影像等仍存在障礙,用戶的檢索需求難以獲得良好的滿足。
通過圖片、音頻以及影像等檢索內容進行檔案信息檢索,可以提高檔案檢索的精準度,提升檢索效率。在當前網絡檔案信息檢索系統中,對圖片、音頻以及影像等檔案信息資源進行檢索,需要先開展文字詞匯轉化,再利用關鍵詞進行檔案信息檢索,這直接影響了檔案信息檢索的效率和質量。部分網絡檔案信息檢索平臺已經開放了圖片檢索功能,但由于技術上的不足,導致信息查全率及查準率出現明顯的偏差,嚴重影響網絡檔案信息檢索的發展。
進行網絡檔案信息檢索時,從輸入關鍵字到獲取檢索內容,存在一定的時間間隔,這被稱為響應時間。響應時間的長短與信息檢索技術有關,還受到檢索設備的影響。在信息檢索技術不成熟的階段,響應時間比較長。隨著網絡設備的發展,信息集成處理能力的增強,目前已實現將檢索響應時間控制在1秒左右,但是仍然存在很大不足。
檔案信息資源越多,數據庫越龐大,信息檢索的響應時間也會越長。網絡檔案信息系統資源量日益增加,使得在信息檢索時需要對大量的同類型信息進行集成處理,影響了檢索響應時間。此外,響應時間還受到硬件設備的影響。硬件設備對高強度、高數量的數據信息承載能力存在不足,會延長響應時間。由于信息集成處理能力不足以及網絡硬件設備落后,延長了系統響應時間,甚至導致系統崩潰。響應時間的長短既影響了網絡檔案信息檢索的質量,也制約著網絡檔案信息檢索的整體發展。
創新網絡檔案信息檢索首先要在搜索引擎上入手。目前,檔案信息搜索引擎具備一定判斷識別關鍵詞的能力,但在檔案信息內容篩選和使用者需求判斷上,缺乏智能性,因此對檢索效果和質量造成一定影響[4]。
智能搜索引擎具備一定的思維能力。它可以對用戶的使用意圖進行判斷。在檢索過程中,通過對用戶的檢索關鍵詞、檢索圖片等進行精確分析,實現檢索內容向檢索需求的轉變,使檔案信息檢索的效果和質量得到提升。2009年,美國推出阿爾法搜索引擎,實現搜索語義的智能判讀,成為網絡檔案信息搜索引擎智能化發展中的重大技術突破。
智能化搜索引擎的智能性不僅體現在語義搜索上,還體現在搜索內容、搜索需求以及個性化搜索等方面。搜索引擎智能化對數據庫、信息檢索系統、數據挖掘以及自然語言處理提出了更高的技術要求,以達成通過簡單的檢索操作獲得高質量信息資源的目標。關于智能化搜索引擎,技術人員已經取得了不少研究成果,如微軟的“群體搜索”、谷歌實驗室的“羅盤搜索”和“整合搜索”等。這些智能化搜索引擎技術的出現,促進了網絡檔案信息檢索的發展和進步。
基于內容特征的多媒體檢索技術與傳統檔案信息檢索相比,更加注重與多媒體技術的結合。多媒體技術的應用使得在檢索內容中加入圖片、語音、音頻以及影像片段等成為可能,增加了網絡檔案信息檢索內容的多樣性,有利于人們對各種檔案信息資源進行多種檢索形式的嘗試[5]。
過去,由于檢索內容技術的限制,利用關鍵詞進行信息檢索占了絕大多數。在此背景下,只能滿足用戶對文字檔案信息的檢索需求,對于影像、音頻等高級檔案信息的檢索需求,難以獲得滿足。目前,不少網絡檔案信息檢索平臺開放了語音和圖片檢索功能,但由于語音識別和圖片識別技術的不成熟,并沒有取得很好的檢索效果。基于內容特征的多媒體檢索技術可以對各種檔案信息進行同源檢索。比起傳統檔案信息檢索,它在檢索效率、檢索速度和檢索質量上都有明顯的提升。
基于內容特征的多媒體檢索技術,需要在現有技術基礎上,增強語音識別能力,提高對圖像、音頻和影像等檔案信息的處理識別能力。多媒體檢索內容在容量大小上比關鍵詞檢索內容要大很多。在進行多媒體內容檢索時,不僅需要加強多媒體檔案信息數據庫的建設,還需要提高多媒體檢索內容的處理速度,減少響應時間,促進多媒體內容檢索的質量和效果提升。
網絡檔案信息檢索實質是在龐大的檔案信息資源系統中,利用用戶給定的限制條件(關鍵詞等),來篩選出符合檢索需要的內容。整個檢索過程包含對大量數據的處理。因此,信息處理能力的高低直接影響到檔案信息檢索的效率和質量。隨著網絡技術的不斷發展,信息在容量和數量上都有明顯的提升。檔案信息資源系統中,檔案信息的數量日益增多,檔案容量越來越大,給檔案信息檢索帶來了很大的壓力。信息處理能力不足,會增長檔案信息檢索的系統響應時間,如果在同一時間需要處理的信息內容過多,甚至可能導致系統崩潰。
信息集成處理能力的大小主要體現在同一時間內不同信息的處理上。同一時間內信息處理的數量越多,檢索的速度越快,用戶等待的時間也會越短。信息集成處理能力的運用主要是為了減少信息檢索的響應時間,為用戶提供更高質量的檢索服務體驗。大數據時代下,檔案信息化程度不斷擴大,網絡信息數據數量日益增多。在執行信息檢索指令時,系統需要處理更多數量的信息數據,這給網絡檔案信息檢索帶來了不少挑戰。信息集成處理技術在網絡檔案信息檢索中的應用,加快了信息處理的速度,提高了信息檢索的效率和質量。
從過去以KB為計算單位,逐步發展到以MB、G甚至TB為計算單位,信息處理能力得到了很大的提高。信息處理集成化、系統化作為未來發展的重要趨勢,可以很好地解決過去信息處理不足的問題。信息集成處理能力的提升,最終也將促進網絡檔案信息檢索效率和質量的提升。