檔案文獻檢索系統,確切地說是檔案文獻的存貯和檢索系統。如果從信息交流這個大的范疇來看,是檔案用戶與檔案文獻集合之間相互交流的一部分,是檔案用戶與檔案信息資源的接口。
一、檔案文獻檢索系統的評價標準
檔案文獻的存貯和檢出系統,包括六個子系統,即:檔案文獻選擇子系統、詞 表子系統、標引子系統、查尋子系統、檔案用戶與系統之間交互子系統和匹配子系統。其中,存貯是檢出的基礎,檢出是存貯的目的;檔案文獻的存貯過程。就是要把有關檔案文獻的特征著錄下來,成為一條條的檔案文獻線索,并將它們系統排列。因此,檔案文獻檢索系統應該具有存貯和檢出兩方面的職能,評價某—檔案文獻檢索系統的標準也具有兩方面的含義。
(一)存貯的廣泛與全面
檔案信息的存貯過程,是搜集有關檔案文獻,著錄檔案的特征,并將檔案線索存貯起來的過程。檔案檢索系統只有對檔案信息搜集得較為廣泛全面,才能圍繞有關問題從各個角度提供較為豐富的檔案文獻信息,而不至于遺漏那些對研究有關問題比較間接,然而有一定意義的檔案,從而為檔案用戶開拓更廣泛的查詢領域,使他們有充分的選擇余地。影響這一標準的因素有以下幾點:
1.檔案信息的覆蓋面
所謂覆蓋面,是指檔案檢索工具對其所應有的著錄范圍的涉及面;這是衡量某一檢索工具的一個重要的質量指標,同時也反映了檢索工具作為—種信息資源的豐富性和完備性。檔案檢索工具對有關檔案信息的覆蓋面,實質上也是對檔案文獻檢索系統廣度方面的要求。檔案檢索工具的覆蓋面一般可以用百分比來表示。
2.檔案信息的摘貯率
所謂摘貯率,是指檔案檢索工具中有關專題的條目數氣該專即實有文件數的比率。與檔案信息的覆蓋面相比,檔案信息的摘貯率則更具有其深度方面的特點。摘貯率是就某—專題而設定的指標,它是衡量檔案檢索工具對著錄范圍內的某一個專題的檔案的涉及程度。摘貯率同樣可以用百分比來表示。
3.檔案信息的標引深度
所謂標引深度,是指對檔案的內容特征和形式特征描述時所達的深度、這也是決定檔案檢索工具質量的一個重要因素。標引深度也可以理解為分派給某一份文件的標引詞的數量,或者說每份文件的“標目”的數目,即每份文件能夠被查尋到的次數。如果某一份文件在檢索工具中只有一個標目,那么它在檢索工具中就只有一個位置,其被查到的可能性也只有一個。為提高檢索效率,現代的一些檢索工具都致力于標引深度的加深。往往將一份文件分析成幾個乃至十幾個主題;這樣,就可以降低由于查票者檢索檔案時角度的不同,造成的埋沒檔案的可能性。
(二)檢出的迅速與準確
檢出的迅速與準確,是對檔案文獻檢索系統的又一評價標準 檔案的數量浩如煙海,檔案檢索工具亦是種類繁多,如果檢索工具不能保證檢索過程的迅速,那就會延誤各項工作的進展,或者使檢索工具本身失去現實意義;因此,檢索速度的提高,是一個迫切的要求。正是由于這個要求,推動了各種機械檢索工具的出現以及各種計算機輔助編制的檢索工具的發展、其目的都在于盡可能地提高檔案檢索匹配的效率,提供更多的檢索入口和文件的存取點。
總之,在存貯檔案文獻方面的廣泛與全面和在檢出檔案文獻方面的迅速與準確,是衡量和評價檔案文獻檢索系統的標準。
二、檔案文獻檢索效率
(一)衡量檔案文獻檢索效率的基本概念
檔案文獻檢索系統的任務是:為滿足檔案用戶的要求,從某一部分檔案中找出與用戶需求相一致的檔案文件。因此,任何一種檔案文獻檢索系統都要進行一下兩種判斷處理:
(1)從檢索系統的角度看,參加檢索的所有檔案文件可以劃分為兩部分:凡是與檢索提問相一致的檔案,就被檢出,稱為檢出檔案;凡與檢索提問不相一致的檔案就不會檢出,稱為未檢出檔案。這種檢索系統對檔案是否與檢索提問一致的預測,可以稱為系統相關性預測。
(2)從檔案用戶的角度看,參加檢索的所有檔案文件,也可以劃分為兩部分:滿足用戶需要的相關檔案和不滿足用戶需要的非相關檔案。用戶按照自己的需要對檔案文件的判斷,可以稱為用戶相關性判斷。
(二)影響查全率和查準率的因素
查全率、查準率和檔案檢索系統的收錄范圍、檔案檢索語言、標引工作和查尋工作等都有非常密切的關系。
影響查全率的主要因素有:檢索工具收錄檔案不全面,漏報現象比較嚴重;檢索詞表結構不完善;詞間關系含糊或不正確;標引缺乏網羅度(詳盡比),即標引深度不夠;標引前后不一致;標引人員遺漏了重要的概念或用詞不當;查詢時不能全面地描述檢索要求;檢索策略過于簡單;檢索工具使用不當;檢索途徑與檢索方法過少;查尋人員缺乏靈活性與堅韌性等等。
(三)查全率與查準率的關系
由于影響查全率的主要因素是標引的網羅度,而影響查準率的主要因素是檢索詞的專指度。因此,查全率和查準率彼此具有反變的關系。
所謂標引的網羅度是指標識檔案文件主題的廣度而言,也就是標引深度。如果對檔案主題的分析越透徹,抽取的標引詞越多,那么在檢索時相關主題的檔案文件都可能被檢索出來,因而查全率就較高。另一方面,檢索出來的檔案文件并非全部適用,因而查準率就會相應降低。反之,如果標引時只標中心主題,檢出的檔案文件必然比較適用,即查難率較高,但漏檢則會增多,從而降低了查全率。檢索詞的專指度是指檢索詞典的適用性及其揭示檔案主題的深度,如果把檢索詞選得更狹窄、更具體、更專深的話,那么檢索出來的檔案就會更對口,因而查準率就顯得越高。但命中的檔案就會減少,即查全率降低了。相反,如果把檢索詞定得籠統寬泛一些,檢出的檔案就會增多(查全率提高),然而真正對口的檔案占的比例會減少。
(作者單位:青岡縣檔案局)