文 摘:本文通過研究檢索語言的發展過程,發現傳統檔案檢索語言的檢索模式,逐漸不能滿足利用者對電子文件系統的檢索需求。新形勢下檢索語言要適應電子文件系統的檢索要求,必須走主題、分類語言一體化,自然語言向綜合語言發展等的發展趨勢,同時將檢索語言的傳統檢索模式的優點繼承下來。本文主要運用對比以及實例分析的方法,通過對國內外研究現狀的分析,總結出檢索語言在電子文件系統中的應用及發展趨勢。
關鍵詞:檔案檢索系統;檢索語言;電子文件
中圖分類號:C36
1 引言
檔案文獻檢索在檔案工作中起著重要作用。隨著網絡技術的高速發展,全球性的信息資源交流與共享正在變成現實。隨著電子文件的應用性不斷擴大,數量不斷增加,使其成為繼紙質文件后占統治地位的又一應用文件形式。將檢索語言應用于電子文件中,可以提高檢索系統的查全率與查準率,滿足廣大用戶的檢索需要,成為國內外檔案學家的重要研究課題。
2 檔案檢索語言的應用
2.1 對檢索語言的認識
“檢索語言是根據檢索的需要而創制的、表達文獻主題概念和檢索課題概念的人工語言。檢索語言由詞匯和語法構成,詞匯是表達主題概念標識,它可以是分類號、主題詞或代碼,全部標識的總和構成該語言的詞典;語法是規定如何創造和運用檢索標識以實現有效檢索的一整套規則。檢索語言主要包括分類檢索語言和主題檢索語言兩類。”
2.2 傳統檢索模式下檔案檢索語言的應用
傳統紙質條件下,檢索模式分為兩個環節:在整理過程中應用“館藏法”檢索;在檢索型編目中應用分類法和主題法。
“館藏法”檢索是現今檔案部門普遍使用的檢索方法,它以“檔號”作為檢索工具。即在一個檔案館內部全宗號不可重復,在檢索目錄中案卷號不可重復,在一本案卷中件號和頁號不可重復,從而使“檔號”成為單一且獨立的檢索標示。
分類法是將不同概念按照學科、專業等類目進行分類和系統排列,用來表達不同資源信息的概念,具有很強的系統性和邏輯性。主題法是以自然語言詞匯或規范化詞語對文獻的主題進行標識,本質是利用詞語表述資源信息的中心概念。
2.3 電子文件環境下檔案檢索語言的應用
電子文件下檢索語言應用分為,計算機輔助檢索中的應用和電子文件管理系統中的應用。
計算機檢索一般采用單機模式來對機讀目錄進行檢索,這些機讀目錄是將紙質文件目錄輸入到計算機后,成為檔案部門檢索的服務對象,以提高檔案管理的檢索效率。在計算機發展之初,是許多組織單位取代傳統目錄卡片的檢索模式。
電子文件系統中的檢索是將檢索工具的本質由紙質模式轉變為數字形式,不改變館藏文件本身形式。其通過復雜的網絡技術,以電子文件的目錄和電子文件全文為檢索對象,與單機模式檢索的區別在于工作基礎為電子文件原件,完全以用戶利用為中心,滿足廣大用戶“不出戶,知天下”的要求,是當今電子文件系統發展的趨勢和根本追求。
3 電子文件系統應用檢索語言的現狀分析
3.1 國外電子文件系統應用檢索語言的案例
2002年10月美國國家檔案館推出了全新的檔案目錄檢索系統( 全稱Archives Research Catalog,簡稱ARC),通過該系統用戶可以檢索到美國眾多檔案館,包括綜合性檔案館和總統檔案館所藏的全國范圍內的檔案內容。與其前身“美國國家檔案信息檢索系統(全稱NARA Archival Information Locator ,簡稱NAIL)”相比,ARC在檢索效率上有了很大程度的提高,使其查全率和查準率的功能更為完善,使用更加便捷省時。
通過分析得出,ARC系統成功的關鍵在于該系統不僅將更多的自然語言和檢索語言結合起來進行應用,提供出更完善的關鍵詞檢索、定位檢索和數字化副本的檢索,方便用戶利用;而且還將主題語言和分類語言靈活的相結合,以大量的人名、機構名和專題詞匯為檢索詞,形成廣泛全面的檢索語言。
3.2 國內電子文件系統應用檢索語言現狀的分析
經過十年的努力和發展,國內大部分檔案館建立了內部局域網,部分檔案館還把檔案信息接上了廣域網,同時陸續將檔案目錄、檔案指南甚至檔案全文搬上了網絡。一些部門已經開始重視開發檢索語言來提高電子文件系統的檢索效率。對分類主題一體化進行初步探索和研究。
與此同時,我國也重視開發網絡資源下電子文件系統的檢索語言。比較著名的有杭州市檔案館采用的CLS檢索系統。它將檢索語言的主題語言與分類語言結合起來,重視自然語言和人工語言相結合,內部嵌套IBM中文搜索引擎來支持整個系統平臺的文本分析、全文檢索和語言檢索等。應用該系統后,成功完成近70萬頁的紙質檔案的數字化影像加工,該影像可以直接在電腦、網絡中進行查詢與編輯,而不再用進行紙質館藏的調閱,大大縮短了外來利用者的查詢時間,既方便對用戶查詢利用,又提高了檔案人員的工作效率,推動了電子文件的良性發展。
3.3 國內外電子文件系統應用檔案檢索語言的比較分析
國內電子文件系統應用檔案語言與國外相比,相同之處是編制電子文件系統時都將電子文件按照全宗--案卷--文件的方向進行著錄;都將主題分類語言一體化,自然語言與人工語言的合理化結合作為開發電子文件系統的趨勢,重視電子文件系統的在網絡上的發展,以適應不同利用者的檢索需要。與國外不同的是中國的語言特點比較復雜,對與檢索語言中的關鍵詞檢索的要求也更為嚴格,在開發電子文件系統時比較重視對全文檢索。而國外在應用檢索語言開發電子文件系統時則更側重對定位檢索準確率的提高。
但是不得不承認,我國電子文件下的檢索語言的發展才剛剛起步,與國外的優秀系統相比,還處于模仿和學習借鑒的階段。存在著如起步較晚、結構單一、內容有限等不足之處。
4 檔案檢索語言在電子文件系統中應用的趨勢
4.1 檢索語言的發展趨勢
第一,分類語言和主題語言一體化。第二,自然語言向綜合應用方向發展。所以,自然語言應與檢索語言結合使用,運用檢索語言的“控制”原理,揚長避短,形成綜合性語言。
4.2 將傳統檔案檢索語言的優勢發揮到電子文件系統中
運用檢索語言編制檢索工具來檢索紙質檔案在我國已經形成了一套比較正規全面的檢索方法。手工檢索的檢索工具主要包括分類目錄、主題目錄、專題目錄等。以分類目錄為例,手工檢索的分類目錄基本以文獻單元方式編制卡片式目錄,同時根據著錄規則采用一文/多一卡和一卷/多卷一卡的形式,制成的卡片按照字母—阿拉伯數字的順序進行逐級排列。
由此,我們可以看出,根據分類檢索語言編制的分類目錄用于傳統檔案的檢索其優勢在于有較高的檢索查準率,內容排列比較連貫、整齊。這些都是電子文件系統中檢索語言需要借鑒之處。現今對電子文件進行檢索往往只注重信息的全面性而忽略了檢索內容的準確性與專指性,用戶要查找一個文件,系統會羅列出所有題目、內容中包含這個內容或內容相近的文件,用戶還要在檢索結果中進行再次查找,查準率較低。將一文一卡的手工模式應用到電子文件系統中會避免用戶浪費不必要的時間。
5 結束語
在電子文件檢索信息化方面,美國、加拿大等西方發達國家由于在技術上處于優勢地位,我們要采取“拿來主義”態度借鑒他們的先進經驗為我所用,以此帶動國內技術的發展。
檔案檢索人員首先要更新觀念,樹立“大信息觀”。檔案檢索人員應立足實際,解放思想,積極跟蹤,勇于創新,走技術引進與技術革新相接合之路,其主要工作就是為用戶設計出使用方便、功能強大、界面友好的檢索系統,并對用戶進行檢索語言使用的培訓和電子文件管理系統的操作培訓。
參考文獻:
[1] 馮惠玲.檔案文獻檢索[M].北京:北京高等教育出版社,2004.
[2] 馮惠玲.電子文件管理教程[M].北京:中國人民大學出版社,2001.
[3] 高潤芝.現代信息資源檢索與利用[M].北京:經理管理出版社,2002.
[4] 蘇新寧.信息檢索理論與技術[M].北京:科技技術文獻出版社,2004.
[5] 劉湘生.分類主題一體化是我國情報檢索語言的發展方向[J].北京圖書館通訊,1987(4).
[6] 潘艷.搜索引擎中情報檢索語言的現狀分析[J].現代情報,2001(4).
[7] 薛紅.試論受控語言和自然語言的發展趨勢[J].四川理工學院學報,2004(3).
[8] 劉湘生.分類主題一體化是我國情報檢索語言的發展方向[J].北京圖書館通訊,1987(4).
[9] David·H·Robert. How to Search the World Wide Web: a Tutorial and Guide for Beginners [M].Chicago:The University of Chicago Press,2002.