包海峰 彭 楨 徐濼燚 陳 剛
(南京大學檔案館,南京,210093)
隨著信息網絡技術的發展和普及,利用信息技術實現檔案的科學管理成為檔案管理部門和檔案學術領域共同關注的問題,而檔案元數據是對傳統檔案和電子檔案實現有序管理的基礎。
元數據(Metadata)是關于數據的數據。ISO/IEC 11179-3:2003(E)對元數據的定義為:元數據是描述數據的數據。它描述了數據的結構和意義,是連接數據和用戶之間的橋梁。元數據具有一些基本特征:元數據一經建立,便可以共享;元數據結構和完整性依賴于信息資源的價值和使用環境;元數據形式靈活;元數據的開發和利用環境是變化的分布式環境;任何一種格式都不能滿足不同組織的不同需要。檔案元數據是數字檔案館的基礎,江薇認為檔案元數據是用來描述數字檔案的內容、結構及背景特征的數據,它是一個結構化的標準體系。其目的是對數字檔案信息資源進行組織、管理、發現、識別、選擇、定位、開發利用和評價,追蹤檔案在管理和使用過程中的變化,有助于實現數字檔案信息資源的憑證價值、集成整合與長期保存。數字環境下的檔案元數據是描述數字檔案信息的一種數據格式,利用它可促進互聯網信息資源的組織和發現。楊杰認為對于檔案管理部門元數據具有四個方面的職能,即:揭示職能、檢索職能、管理職能和憑證職能。隨著檔案信息化建設的推進,檔案信息資源的整合研究及實踐的深入,檔案元數據作為檔案信息化建設工作的基礎勢必要跟上。
從研究文獻上來看,截至2012年底,在中文CNKI數據庫中用以“題名=元數據”為檢索式進行檢索,檢索結果的時間跨度從1989年到2012年底,共2594篇,可以看出(見表1),從2000年左右,研究文獻開始明顯增加,至2012年底,每年關于元數據的文獻數量基本穩定在200-300篇左右,其中(見表2)約50%集中在計算機軟件及應用領域,圖書情報領域的文獻占18%,檔案館及博物館領域的文獻僅占5%。這說明除了計算機軟件及應用領域,圖書情報領域對元數據的研究是最深入的,檔案館及博物館領域僅占5%,相對較少。實際上,圖書情報領域對元數據的理論研究起步是比較早的,實踐方面的探索和應用也取得了大量的成果。
如果以“題名=檔案元*數據”為檢索式進行檢索,截至2012年底,共檢索到140篇文獻(見表1),每年的文獻在10篇左右。從學科分布來看(見表2),除了計算機軟件及應用領域外,主要集中在檔案館及博物館領域,盡管如此,也僅有51篇。一定程度上可以看出國內在檔案元數據研究和實踐方面起步還比較晚,根據檢索出來的論文可以看出檔案元數據的研究成果相對比較零碎,多涉及基礎框架的研究和介紹,研究缺乏系統性,研究特定元數據標準或特定技術下元數據標準較多,關注元數據之間關系的較少。檔案元數據對于檔案管理部門的重要意義不言而喻,缺少成熟的檔案元數據標準體系的支持,數字檔案館建設必然會受到一定程度的影響。誠然,圖書情報和檔案有很多相通之處,檔案領域可以借鑒圖書情報及計算機軟件應用領域的許多成熟的研究和實踐成果,但是檔案管理與圖書情報的管理對象有所不同,檔案有其自身的特點,如檔案的真實性、完整性問題,檔案的憑據作用和檔案訪問權限等,解決這些問題需要根據檔案的特點,在充分借鑒其他領域研究成果的基礎上,針對檔案元數據進行深入研究和實踐,這樣才能進一步推動檔案元數據的理論研究,從而更好地服務于數字檔案館的實踐應用。

表1 文獻年代分布表

表2 文獻研究領域分布表
目前國際上常用的元數據標準有:都柏林核心元數據集合(DC)、CDWA、VRA、FGDC、GILS、TEI、EAD、《國際檔案著錄標準(總則 )》ISAD(G)。 其 中 ,DC是Sherman和Price在2003年引入的作為數據提供方的最低限度映射要求的目標元數據,是一種跨領域的信息資源描述標準,DC以其簡便高效的特點獲得了廣泛的認可和應用;CDWA用于數字圖像及藝術品資源的描述;VRA用于藝術、建筑、史前文物、民間文化等藝術類的三維實體可視化資源的描述;FGDC用于空間地理數據內容的描述;GILS用于政府公共信息資源的描述;TEI用于電子文本的描述;EAD用于檔案館博物館的檔案手稿資料的描述;ISAD(G)是根據國際檔案理事會與聯合國教科文組織達成的協議,由1990年成立的國際檔案理事會ICA(International Council on Archives)著錄標準特別委員會制定的,指導和規范檔案著錄描述的通則性標準,此標準適用于各種形式和載體的檔案資料。
國內現行的檔案行業的元數據標準《DA/T 18-1999檔案著錄規則》(以下簡稱《規則》)是由我國國家檔案局于1999年5月31日批準執行的檔案行業的元數據標準。總的來說,EAD、ISAD(G)、《規則》是目前檔案界應用最廣泛的幾種檔案元數據標準,對檔案界元數據的標準化起到了重要作用。《規則》于1983年10月擬定完成,再征求各檔案部門的意見,集思廣益,經過修改后,于1985年成為國家標準。現行的《規則》是1999年是由安徽省檔案局起草,國家檔案局批準的行業標準。《規則》所引用的標準有B/T3792.1-1983文獻著錄總則、GBT7156一1987文獻保密等級代碼、GB/T9704-1988國家機關公文格式、GB/T15418-1994檔案分類標引規則、GB/T3860一1995文獻敘詞標引規則、DDA/T1一1992檔案工作基本術語與DDA/T19一1992檔案主題標引規則。
ISAD(G)從嚴格意義上來說,并不完全是元數據標準,而是為編制元數據標準提供的總則性指南,它對于現在大部分通行的檔案元數據標準如EAD,都有著及其重要的指導和參考作用。國際檔案理事會這樣制定標準的初衷是盡可能地以檔案資料的元數據標準化來建立檔案信息智能控制與存取體系,協助以傳統和電子方式進行檔案資料的著錄和這些著錄間的轉換。
EAD是網絡環境下檔案館、圖書館、博物館處理檔案與手稿資料最常用的元數據,采用SGML(ISO8879)作為編碼標準。EAD正式文本的結構由EAD DTD(EAD Document Type Definition,EAD文檔類型定義)、EAD標簽庫、標簽使用范例及應用指南構成。其中,EAD DTD是主體部分,是EAD主要功能得以實現的結構基礎。目前,許多國家和地區已經針對EAD進行了實踐,其中影響較大項目的包括:美國加州遺產項目(California Heritage Project)、加 利福尼亞博物館和聯機檔案計劃(MOAC)、英國皇家委員會發起的核心執行項目(Core Executive Pilot Project)、臺灣“中央研究院歷史語言研究所”采用EAD1.0版本對其所收藏的內閣大庫明清檔案進行著錄轉化。通過對EAD應用機構的調查與統計,截至2013年2月,已有90個機構開展了EAD項目。其中檔案館占了大多數,解決了檔案信息遠程利用服務的問題。其次為圖書館,國外一些大學的圖書館設有特殊館藏室,如芝加哥大學圖書館的特殊館藏部,就進行了檢索工具的EAD格式轉換項目。還有些特殊館藏機構和博物館等,如歐盟手稿及信函網絡存檔項目,制作了EAD格式檢索工具也應用EAD來制作檢索工具,這些機構的比例較少。目前,這三類在所有機構中的所占份額分別為:54.44%、25.56%、20%。
EAD、ISAD(G)、《規則》作為在檔案界最為普及的幾種元數據標準,為檔案信息化建設做出了重要貢獻,得到了檔案學術界和檔案管理部門的充分肯定。但是由于它們制定的背景不盡相同,每種標準各有優勢,同時也存在一些不足之處。本文對上述三種檔案元數據標準進行比較分析,通過比較分析為今后檔案元數據研究提供一定的參考。
總體來說,ISAD(G)很好地實現了如下基本功能:如實地記錄和反映檔案形成、保管和利用過程以及控制信息;為檔案信息的組織和共享創造條件;滿足數據交換需求;為整合來源于不同保管機構的檔案信息提供便利。在當今的網絡環境下,使用ISAD(G)可以規范檔案的著錄,對檔案進行全周期標準化控制,從而實現檔案信息高效利用。ISAD(G)基于多維控制的視角,對檔案的內容、結構和背景信息都進行了完整的著錄,建立了著錄條目與檔案實體之間的準確映射關系,實現了對檔案整個生命周期的實時著錄,保障了檔案的真實性、可靠性、完整性和可用性。ISAD(G)具有以下特點:
(1)ISAD(G)有著深厚的實踐基礎,依循了需求導向原則。特別委員會在擬定初稿后,多次征求意見并修訂完善,并不斷參考各種新技術手段和利用工具。
(2)ISAD(G)訂制的專家將檔案工作中的前沿理論充分體現在標準之中,對全宗理論、多級著錄原則的體現,使得該標準能夠歷經十數年而不落后。
(3)ISAD(G)具有很強的指導性,標準中既有對規則的詳細描述,又有應用實例,從檔案信息著錄到實現機器可理解的形式化表述,均有較好的適應性,因而具有很強的應用性。
EAD是目前全球檔案界最有影響的元數據標準之一,其具有以下幾方面的特點:
(1)廣泛適用性。EAD可以提供詳細的全文描述和存取,除了能適應不同內容長度的著錄對象,也能描述不同載體上的不同類型的檔案,如電子文件、多媒體文件等。
(2)易用性和兼容性。EAD基于XML和SGML,該解決方案具有直觀、易用、靈活,不依賴于任何軟、硬件平臺的特點,因此EAD具有易用性和很強的可移植性,并且可以簡易地同現在許多其他基于XML 的元數據(如:DC、MARC、ISAD(G))相互轉化,其良好的通用性大大降低了在實際工作中文件信息共享的成本。
(3)良好的可擴展性。各檔案機構可以根據自身的工作需求,在給定的規則之下選擇相應的元素組合和標識層次,在
(4)便于檢索。EAD的元素是結構化、層次化的,除了支持對字段和全文一般的檢索如布爾邏輯檢索、截詞檢索、近似檢索之外,還可以在目錄中查找單個項目和離散的數據項,便于滿足用戶的具體需要。
我國現行的《DA/T 18-1999檔案著錄規則》,是一定時期內檔案著錄工作實踐經驗總結,對檔案著錄工作具有全局的規范指導作用。《規則》初步實現對國內檔案文獻的管理和利用,能夠簡便易行地實現與全球其他編目規則的檔案文獻的元數據交流和共享,滿足了不同內容的檔案的著錄的要求。與《規則》相配套的各種標準和輔助工具不斷涌現,對《規則》的施行提供幫助,以減輕使用難度,提高現實的適用能力。
隨著這些檔案元數據標準在檔案管理行業的普及以及網絡信息技術的不斷發展,這些標準在研究和實際應用中逐漸暴露出一些問題:
EAD是目前全球最有影響力的檔案元數據標準之一,但是在長期實踐使用過程中也存在一些不適應:
(1)軟件的選擇問題。源代碼開放軟件是一種允許他人運用、修改和重新編碼的軟件。目前還沒有商業性軟件用以支持源代碼開放的EAD工具,很多機構會選擇商業性軟件,因為其在質量及后續升級等方面更有保障。
(2)如何向網絡用戶提供EAD編碼檢索工具是影響EAD發展的主要瓶頸。
(3)EAD本身的復雜性。檔案機構在選擇標準時也必須評估軟件開發的復雜程度,而EAD本身的復雜性導致了部分檔案機構的望而卻步。
新《規則》是根據老版實行十多年中發現的問題和實際的需求情況進行了修改,雖是用行標頒發的,但在本質上是對老《規則》國標的修訂本。《規則》在元素設置方面的存在一些先天的缺陷。該標準分的元素分為題名與責任說明項、稿本和文種項、密級與保管期限項、時間項、載體形態項、附注與提要項、排檢與編號項7個大項,共計22個。但是相比ISAD(G)等元數據標準,99版本的《規則》的元素設置存在一些問題,因此存在著諸多的缺陷,主要有以下三點:
(1)題名相關元數據不完善。題名本身的復雜性,以及在檢索時的重要性,使得在題名著錄時需要完善的元數據加以描述。《規則》在題名項中只有正題名、并列題名和副題名及說明題名文字,這在實際應用中是不完善的,如在著錄叢書時不能體現總題名、分題名以及這兩者的關系,以及不能著錄別名,如不能揭示《紅樓夢》和《石頭記》的內在關系。
(2)在附件元數據過于簡單。附件是指文件正文后的附加材料,《規則》對于附件規定“只著錄附件題名”,其他要素則全部省略,同時補充規定“若附件題名具有獨立檢索意義時亦可另行著錄條目”,但“亦可”使得該條款不具備必要性和強制性,從而導致在實踐中流于形式。同時,“另行著錄條目”的檔號和正文檔號(主要是件號)沒有明顯的區別,因此由于“檔號重復”,計算機無法對附件進行著錄。在實際工作中造成的后果是,出現對附件不著錄,或著錄不全面、不準確,以及未將附件納入檢索體系,最終造成在檔案利用工作中的“死檔”現象,影響了查檔效果,也損害檔案本身的利用價值。
(3)著錄元素不全。在《規則》中,著錄的定義為“在編檔案目錄時,對檔案內容和形式特征進行分析、選擇和記錄的過程”,這個定義仍然是基于手工整理檔案編目和相應的管理過程,因而對于利用方式、相關背景以及獲取著錄信息的來源等方面相比傳統檔案發生了巨大變化的電子文件來說就過于狹隘了。如果按照上面的定義對電子文件進行著錄,連如何讀取該電子文件都未注明,信息技術更新換代之后,利用時的后續工作是很難展開的。除此以外《規則》沒有對檔案原始性方面的進行控制,這對傳統檔案(一般為紙質的文書)并沒有很大影響,但在確保電子文件的真實性、完整性等方面缺少必要的描述。在電子文件著錄方面缺失的元素有該電子檔案的處理軟件及相關版本、文件大小(字節數)、文件格式(后綴名)、加密格式以及載體相關等,這些對于電子檔案的利用和真實性、完整性的保證是不可或缺的。除此以外,該標準也缺少檔案層級著錄相關的元素,無法實現結構化的全宗細化到文件級別的著錄。
(4)缺少規范控制。早在20世紀初,美國圖書館學家卡特(Cutter CA)就在《印刷本字典式目錄規則》一書中首次提出了“規范控制(Authority Control)”的概念。規范控制又稱權威控制,是為確保標目在檢索目錄系統中的惟一性和穩定性而建立、維護、使用規范款目和規范文檔的工作過程。《規則》在檔案規范控制方面還有欠缺,這會影響到檔案著錄的標準化。
作為通則性標準,ISAD(G)更強調簡易性和互通性,而EAD則更注重語義和語法的細致化。EAD作為更具操作性的元數據標準應用于實踐領域,而ISAD(G)則作為指導性的原則為EAD等具體的檔案著錄規則提供指南和參照。
《規則》和ISAD(G)相比,還存在諸多差距,具體區別如下:
(1)ISAD(G)定義著錄范圍比《規則》更全面,能更好地適應網絡時代的電子文件著錄要求。
(2)ISAD(G)定義包涵了檔案整個生命周期,而不僅僅是在歸檔之后的進行分析、選擇和記錄,它在文件生成之初甚至在之前就開始了著錄工作,并持續至整個文件生命周期結束,可靠性、真實性、完整性得到了保證。它的定義中明確了檔案著錄是動態的過程,檔案的特征信息在檔案管理的每一階段(包括文件的形成、鑒定、收藏)都要不斷補充完善。而《規則》只是在保管期內進行一定范圍內的控制。
(3)ISAD(G)能夠實現多級著錄,《規則》最多只能進行案卷與文件這樣低級別的著錄,對全宗與類別這樣高級別的則是空白。因此,需要增加從全宗到所屬部分的著錄項,以便使檔案著錄能夠完整地體現檔案的各個級別層次。同時,多級著錄需要基于公認的理論原則,如由總到分的檔案著錄原則,就是“尊重全宗”原則的實踐結果。
每種檔案元數據標準的制定都有不同的側重,隨著檔案信息化建設的不斷深入,檔案元數據標準也需要做出相應的調整以適應不斷發展的檔案管理理論和實踐的要求。總體而言,在今后檔案元數據標準的發展過程中需要進一步拓展以下幾個方面的研究:
第一,多層次和多功能的結合。這里的層次除了著錄級別的多層次外,還包括元數據的選擇和組合可以根據實際的需要細化到不同的層次。選擇的層次不同,能實現的具體功能也不同。同時,元數據功能的整體趨勢由保管查詢擴展到了檔案的管理和利用規則方面,能更好地實現檔案的利用價值。
第二,時間跨度由保管期延伸到整個生命周期。在當今這個信息社會,電子文件所占的比重不斷增加,如果不能保留必要的電子文件背景信息,則電子文件的真實性、可靠性及可用性就會大打折扣。
第三,滿足個性化需求。電子文件是一種新的檔案形式,有多種載體形態和記錄方式。如果不去關注電子文件的特點并對相應的元數據標準進行適當的修改,那么標準很快就會落后于實際需求。同時,根據對象的特點做好元數據的個性化,就能更好地實現不同類型檔案管理和利用。總的來說,元數據標準的修改和制訂要以具體的應用為背景,針對某一特定類型的資源或實體的特點,不求標準可以包羅萬象,滿足具體需要即可。
第四,元數據的互操作。信息的交流和共享是大勢所趨,為了向用戶提供更為全面優質的檢索利用服務,必須實現元數據的互操作。
[1]張正強.論中國電子檔案著錄標準化的發展方向.圖書情報知識,2004(5):35-38.
[2]陳彩紅.國內外元數據標準宏觀比較研究.河北科技圖苑,2011(1):65-67.
[3]江薇.關于我國檔案元數據格式的建議.蘭臺世界,2008(4):24-25.
[4]楊杰.淺析元數據在檔案領域的應用.蘭臺世界,2009(2):48.
[6]包海峰,陳剛.基于OAI的檔案信息資源整合模式研究.檔案與建設,2012(12):13-16..
[5]Sherman,C.&Price,G.2003.The invisible web:uncovering sources search engines can’t see.Library Trends 52(2),282-298.
[7]宋凱,李剛.檔案著錄元數據標準.檔案與建設,2013(4):23-26.
[8]趙艷紅,康蠡.http://www.cnki.net/kcms/detail/62.1025.2.20130407.1704.012.html.2013-04-07.
[9]周銘,陳雁兵.《檔案著錄規則》發展的回顧與展望.蘭臺世界,2007(10):5-6.
[10]趙芳.對我國《檔案著錄規則》再修訂的思考[J].檔案管理,2009(5),37-38.
[11]朱嘉琪.網絡環境下書目數據的規范控制[J].中華醫學圖書情報雜志,2005(2):34-36.