摘要:本文通過考察檔案信息檢索技術的應用性狀,對引入智能檢索技術在檔案信息檢索建設中的創新應用作了可行性研究,并分析了三種可改善檔案信息檢索系統用戶體驗的方法,有助于實現高效的檔案信息檢索。
關鍵詞:信息檢索檔案信息智能檢索
面對大數據的挑戰,探究檔案信息智能檢索技術的應用方法,既是檔案管理理論創新的內在要求,也是檔案管理實踐創新的迫切需要。本文從剖析現階段智能檢索技術在檔案信息檢索系統建設中的應用性狀入手,提出運用智能檢索技術需要采取的創新措施。
一、檔案信息智能檢索技術的基本概念
檔案信息檢索技術源于人們對文獻的文摘索引與咨詢工作需要,這一領域相關的理論研究和技術應用,大致分為手工檢索、計算機檢索、網絡檢索和智能檢索四個階段。
所謂“檔案信息智能檢索技術”,是指由抽詞檢索與全文檢索發展而來,能夠融合檔案學、圖書館學、情報學、計算機科學等相關領域的先進理念,應用計算機和網絡等先進的技術與方法,通過實施語義理解、邏輯推理與學習、數據挖掘、知識發現與關聯等諸多環節,對檔案信息進行智能化地存儲、處理、獲取與利用,實現在更高層次上模擬、應用人類的認知功能和智能活動,滿足用戶對檔案信息的各種個性化需求,為廣泛的應用領域提供高效率、高質量的檔案信息知識檢索服務。
二、檔案信息智能檢索技術的類型與特性
目前,檔案信息智能檢索技術的應用類型主要有四種:檔案布爾邏輯檢索技術、檔案全文檢索技術、檔案多媒體內容檢索技術和檔案搜索引擎檢索技術。實踐證明,這四種技術雖具有不同的特性優勢,但各自的應用效果都尚處于不斷探索和完善之中。
(一)檔案布爾邏輯檢索技術的應用特性
查詢文本類檔案信息,應用比較普及的檢索技術是布爾邏輯檢索,其屬于定性檢索技術,主要采用布爾邏輯表達式來表述用戶的需求。布爾邏輯檢索技術比較符合人們的思維習慣,且能表達復雜的檢索需求。其不足之處是,需使用不同的布爾邏輯運算符把多個檢索詞連接起來,才能表達檢索要求。為彌補布爾模型的缺陷,研究人員現已研發出一些新的信息檢索模型,如向量空間模型(簡稱VSM)檢索、擴展布爾模型檢索、概率模型檢索、超文本檢索、分布式檢索、P2P檢索、網格信息檢索等。
(二)檔案全文檢索技術的應用特性
檔案全文檢索技術,是從最初的字符串匹配、簡單的布爾邏輯檢索技術,逐步演進為可對文獻中任何字、詞、句進行綜合匹配的檢索技術。由于檔案信息資源主要以數據形式存儲在管理系統的“信息庫”(“資源庫”)內,這種傳統的高度專業化、規范化、結構化的信息組織與檢索方式,已不能滿足網絡環境下的檔案信息檢索需求。檔案全文檢索技術由此應運而生,并成為檔案信息檢索的主流應用模式。
所謂“檔案全文檢索技術”,是指對檔案信息的全文處理采用“一次掃描技術”即計算機索引程序順序掃描檔案全文,對每一個(字)詞建立一個索引,指明該(字)詞在文章中出現的次數和位置,用戶查詢時可根據自己的需要,采用布爾邏輯檢索等方法查找原文獻中任意字、句、段、節、章等細小單元的信息,還可進行各種統計和內容分析。自從沈陽市檔案館于1991年最早開始光盤原文存儲與檢索的應用研究以來[1],檔案全文檢索在我國已由實驗向實用化發展。目前,這項技術已與人工智能進行緊密結合,尤其在內容的分析理解、組織表達、知識學習和推理機制等方面,正在力求新的突破和發展。
(三)檔案多媒體內容檢索技術的應用特性
基于內容的多媒體檢索技術(Content-Based Retrieval,CBR),是指利用模式識別、語音識別、圖像理解等技術領域可能提供的方法和工具,直接對音頻、圖形、圖像、視頻等檔案信息進行內容分析,從中提取其聽覺、視覺等特征(如顏色、形狀、紋理、節奏、旋律、鏡頭等),并對這些特征加以組織形成索引,用戶將其作為檢索的依據,以期實現對這類形象化檔案信息的查詢與定位。
目前,已面世的多媒體檔案檢索系統,如清華大學檔案館技術部研制的“THDA-MIS多媒體檔案及辦公管理信息系統”等[2],雖已嶄露頭角,但效果不甚理想,研究人員仍在進行實驗探索。
(四)檔案搜索引擎檢索技術的應用特性
隨著互聯網信息技術的快速發展,搜索引擎在保留全文檢索技術優勢的基礎上,進行了脫胎換骨的革新,并得到廣泛的應用。但需要指出的是,搜索引擎的功能特性已不完全等同于全文檢索功能。它運用特定的計算機程序,不僅能夠搜集互聯網上的海量檔案信息數據,而且在對檔案信息數據進行組織和處理后,可為用戶提供便捷、高效的檢索服務。目前,根據搜索引擎對網絡信息進行處理的不同機制,我們將其分為以下三種類型:
一是基于Robot的檔案信息搜索引擎。該搜索引擎一般由蜘蛛程序、監控程序、索引數據庫和檢索程序四部分組成,是利用一種蜘蛛程序(Spider),也稱“機器人”(Robot),自動對檔案Web站點上的網頁進行訪問,并提供收集、索引等智能檢索服務。
二是主題目錄數據庫。它根據檔案Web站點的內容和性質,將信息集合到一個預先設定的類別中,并把站點的URL和描述歸入這個類別,當用戶查詢某個關鍵詞時,搜索引擎只在這些描述中進行檢索,以提高用戶所需信息的命中率。鑒于主題目錄的用戶界面多為等級結構,因而首頁設置了最基本的幾個大類的入口,可方便用戶對感興趣的主題逐級瀏覽。
三是Meta檔案信息元搜索引擎。它是一個可在統一查詢界面同時或分時跨庫查詢多個檔案管理機構搜索引擎的WWW站點。其本身并沒有存放網頁信息的數據庫,但能對同一個檢索詞同時調用、控制并優化其他多個獨立搜索引擎進行檢索,經合并、去重、排序、整理后,既能以統一的格式在同一界面集中顯示多個搜索引擎返回的結果,也可分別輸出單一搜索引擎的檢索結果。
三、檔案信息智能檢索技術的創新措施
(一)檔案信息檢索結果的優化聚類
提升檔案信息檢索結果的自動聚類能力,是推進檔案信息檢索技術提檔升級的迫切需要。目前,可改善檔案信息檢索系統用戶查詢結果頁面之間關聯度差的具體方法有三種。
一是提供檢索詞推薦和查詢修正功能。首先,我們要了解、研究“同義詞環”(Synonyms Rings,又稱同義詞表)[3]等概念,并根據“可替換性”(Substitut? ability)讓系統分析同義關系。其次,我們要利用同義詞自動識別技術(如字面相似度方法、特征模式匹配方法、PageRank鏈接分析方法等)將自然語言轉換為受控詞匯,幫助用戶構造檢索表達式(包含提供相關詞推薦功能)。最后,我們要利用服務日志分析功能,分析辨別不同用戶提交的查詢式,從中找出與用戶提交的檢索詞詞形相似、使用頻率較高的一組檢索詞,以利于用戶進行查詢修正。
二是優化檢索結果的輸出形式。首先,我們要應用超鏈接技術,為用戶提供與檢索具有相同或相近特征的一系列被查詢對象,讓用戶通過參考別人的檢索結果來獲得一些啟示。其次,我們要顯示每份檔案的著錄級別情況。再次,我們要將相關被查詢對象排布在檢索結果頁的下方,并采用“索引快照”(Snapshot)的模式,將“命中詞”標明不同的顏色,突出顯示用戶的“查詢串”,以便用戶隨時選擇是否閱讀檔案原文。最后,我們要運用“超媒體鏈接”模式,對檢索結果做全方位的“整合檢索”[4],以提升檔案信息資源的智能集成水平。
三是優化用戶詞典模塊。首先,我們要通過完善和提升檔案信息數據挖掘功能,加強對用戶在檢索中使用的檢索詞或檢索詞串等相關歷史記錄的聚類分析,不斷創新和優化具有高可塑性的檢索詞鏈接機制。如通過整合優化與檔案信息檢索詞相似(近義)的信息,部署被集成信息的顯示順序。其次,我們要通過“知識鏈接紐帶”聚集顯示關聯頁面,為用戶瀏覽感興趣的信息提供方便。最后,我們要通過切割分析用戶檢索語句中的關鍵詞與語法,來抽取其語義信息,并將此信息存入用戶詞典模塊,以擴充檔案信息詞匯數據庫的內容,實現不斷優化查詢語句精準度之目的。
(二)高級檢索技巧的組配應用
目前,在智能信息檢索技術尚未達到理想狀態的情況下,實現高效的檔案信息檢索除了要靠知識的合理分類和組織之外,還應充分掌握多種高級檢索技巧??少Y借鑒的技術措施有以下六種。
一是使用最簡單的表述方式。已有經驗證明,在多數檢索過程中,通常并不需要采用不同尋常的語法或高級操作,所謂簡單就是“精準”,即關鍵詞不宜過多、過長。若詞匯過長,反而會大大增加分詞過程中的時間消耗。
二是合理構造關鍵詞。我們要在分析用戶使用習慣性檢索詞語的基礎上,不斷規范和簡化關鍵詞構造方法,并通過強化系統的糾錯功能,幫助用戶避免使用多義詞、錯別字,尤其要主動提示用戶盡量使用截詞和大小寫字母,以及專指性強的語詞或短語。
三是巧構檢索表達式。運用邏輯運算符、位置運算符、限定符、通配符以及相關高級檢索語法來巧構檢索提問式,是提高檢索效果的有效途徑。如果用戶對查詢語法不熟悉,可根據系統高級檢索界面的提示來進行各種檢索查詢操作。
四是選擇描述性詞語。我們要幫助用戶在查詢時注意選擇更具描述性、更為具體的語義表達。此外,在精選檢索詞時,我們要提示用戶注意不使用過于通用的詞匯,并向用戶推薦一個特殊的檢索關鍵詞。
五是精確詞組檢索。所謂“詞組檢索”(Phrase Search),是指輸入兩個單詞以上的詞組,提交搜索引擎檢索并反饋結果,這也叫“短語檢索”。一般情況下,要使用詞組檢索,我們可用雙引號將兩個或更多字詞括起來進行精確匹配;如果要求檢索結果中必須包含特定查詢詞,可在其前面冠以“+”;如果要求不含特定查詢詞,只需在相關字詞前添加一個“-”,并在減號前添加一個空格即可,實現精準檢索。
六是利用“進階法”精煉檢索或使用同義詞、近義詞擴大檢索范圍。例如,用戶利用某些檢索工具提供的“Refine”或“二次檢索”鍵,可在前一次檢索產生的檢索結果基礎上進一步檢索,使檢索范圍縮??;使用同義詞和近義詞或某些搜索引擎所具備的自動擴檢功能進行相關檢索,可擴大檢索范圍。
*本文為2018年度江蘇省檔案科技項目“區塊鏈技術對高校檔案信息管理方式創新的可行性探究”(項目編號:2018-12)研究成果之一。
參考文獻:
[1]馬緒超.計算機管理檔案的成就、問題與對策[J].湖南檔案,1996(2):13.
[2]張旭旭.多媒體檔案管理系統的開發及應用[J].清華大學學報(哲學社會科學版),1996(1):93.
[3]馬張華,侯漢清,薛春香.文獻分類法主題法導論[M].北京:國家圖書館出版社,2009:348.
[4]張倩.依托智能搜索引擎構建檔案信息檢索系統的策略研究[J].檔案與建設,2011(6):33.
作者單位:南京藝術學院