嘎拉森 顧天榮



國家檔案局于2009年12月16日發布了《文書類電子文件元數據方案》(DA/T46—2009)(以下簡稱《方案》),該標準于2010年6月1日起開始實施,根據《中華人民共和國標準化法》(2017年11月4日修訂)的規定,該標準屬于行業標準中的推薦性標準,是國家檔案行政管理部門鼓勵采用的行業推薦性標準之一。本文就該標準的主要內容進行解讀,并對存在的問題進行探討,供大家在實際工作中參考。
隨著信息技術的普及和整個社會的數字化轉型,各組織機構的工作環境也在向電子環境遷移,數字化與原生性的電子文件大量形成與積累,支持著組織機構各項業務活動的高效推進。尤其是隨著單軌制時代的到來,電子文件已經逐步代替紙質文件,成為很多組織機構業務活動記錄的主要記錄形式,但原有的針對紙質文件的管理模式顯然已不能適應當前的管理需求,如何通過高質量的著錄增加精準的檢索點,保障電子文件的可檢索可利用,并維護其真實性、安全性、可靠性、可讀性及長期保存性,實現對電子文件的高效管理,成為電子辦公時代各組織機構都面臨的一大挑戰。
元數據作為描述文件背景、內容、結構及管理過程的數據,對其合理的采集管理能夠實現對電子文件信息內容的全面描述,進而為后續的信息組織、檢索、共享,乃至系統的互操作提供便利與支持。尤其對于檢測和保障電子文件的“四性”有著重要的作用,是電子文件管理活動中極其重要的一部分。
文書類電子文件作為反映黨務、政務、生產經營管理等各項管理活動的文件,是各級各類組織機構在日常業務活動中生成數量最多、應用范圍最廣的文件類型之一。因而我國在2009年率先針對文書類電子文件出臺了《文書類電子文件元數據方案》,以期為創建、管理和應用元數據建立統一的方案,以系統有效地記錄電子文件的內容特征、形式特征、背景和管理過程信息,為電子政務、辦公自動化、文件及檔案管理系統的設計提供依據,并全面實現元數據的多種功能和用途。
作為我國第一部元數據管理的行業推薦性標準,《方案》的頒布對于各組織機構文檔管理業務指導與我國電子文件管理標準體系建設方向引領都有著重要意義。
《方案》共分八章及一個資料性附錄,包括:“范圍”“規范性引用文件”“術語和定義”“元數據元素、結構及描述方法”“文件實體元數據元素的描述”“機構人員實體元數據元素的描述”“業務實體元數據元素的描述”“實體關系元數據元素的描述”,以及附錄A:“文書類電子文件元數據表”。
《方案》規定了以文件和案卷形式的檔案為對象的文書類電子文件管理全過程以及元數據設計、捕獲、著錄的一般要求。其中,前三章明確了該標準的適用范圍,界定了標準中涉及的重要術語及其定義。第四章將文書類電子文件所涉及的元數據從概念層次上區分為文件實體元數據、機構人員實體元數據、業務實體元數據、實體關系元數據四個域,并對應給出了每個域包含的元數據元素、結構及其描述方法。第五章至第八章對應第四章劃分設置的四個域包含的元數據元素的結構和描述方法詳細給出了每個元素的編號、名稱、定義、目的、約束性、子元素等16項詳細信息。附錄“文書類電子文件元數據表”將《方案》規定的88個元數據元素的主要內容進行了整理匯集。
(一)《方案》的適用范圍
《方案》適用的主體對象是:各級各類檔案館、機關、團體、企業事業單位和其他社會組織。以上主體均可參照本標準對計算機系統中直接生成的文書類電子文件(含紙質文件/檔案數字化圖像、文本)進行管理。
(二)術語及定義
《方案》對“電子文件Electronic Records”“文書類電子文件Administrative Electronic Records”“元數據Metadata”“實體Entity”等11個術語進行了定義。
《方案》對“電子文件”的定義是:“在數字設備及環境中生成,以數碼形式存儲于磁帶、磁盤、光盤等載體,依賴計算機等數字設備閱讀、處理,并可在通信網絡上傳送的文件。”現行的檔案行業推薦標準中涉及電子文件定義的還有2000年國家檔案局發布的《檔案工作基本術語》(DA/T1—2000),將電子文件定義為:“以數碼形式記錄于磁帶、磁盤、光盤等載體,依賴計算機系統閱讀、處理并可在通信網絡上傳輸的文件。”以及國家檔案局分別于2014年、2018年最新發布的《電子檔案管理基本術語》(DA/T58—2014)和《文書類電子檔案檢測一般要求》(DA/T70—2018),以上兩項標準均將電子文件定義為:“國家機構、社會組織或個人在履行其法定職責或處理事務過程中,通過計算機等電子設備形成、辦理、傳輸和存儲的數字格式的各種信息記錄。”對比以上三則定義,就可以看到,隨著信息技術的普及、電子文件來源和格式的日益復雜以及對電子文件憑證價值認可程度的提高,人們對于電子文件認識的變化。對電子文件的定義從最早強調其生成方式、存儲介質、傳輸識讀方式到側重關注電子文件的來源與生成背景,而不再過多強調其載體。
《方案》對“元數據”的定義是:“描述文件的背景、內容、結構及其整個管理過程的數據。”電子文件的元數據是描述其各項屬性的信息,即對于電子文件這一信息性對象做出的描述與記錄。根據《方案》,元數據具體描述的數據即各項元數據所包含的元素:“通過標識、定義、約束性、值域等一組屬性描述的數據單元”。早在1997年,國際檔案理事會電子文件委員會就已在《電子文件管理指南》中提出了文件的三要素觀,即文件由內容Content、結構Structure、背景Context這三個要素構成。其中內容指文件中所包含的表達文件形成者或形成機構的意圖的信息;組織方式是指文件內容的信息組織構成、表達方式;背景指文件所處環境,文件的背景信息包括文件之間的相互關系、形成文件的業務活動、文件的技術環境等[1]。此定義中也體現了對于文件三要素觀的貫徹,并強調要涵蓋整個管理過程的數據,這對于維護電子文件的“四性”具有重要意義。
《方案》對“實體”的定義是:“任何已經存在的、將要存在的或可能存在的具體的或抽象的事物,包括事物間的聯系。”實體是一個抽象的概念,此處不僅將各種存在狀態的事物定義為實體,并將事物間的聯系即“關系”也定義為實體。實體的存在與識別要依賴于事物的屬性,而實體間的聯系的識別要依賴于事物間的關系。映射到元數據中,就分別對應元數據的描述內容及關系。
(三)元數據元素、結構及描述方法
1.元數據元素與結構
《方案》參照了國際標準ISO23081《信息和文獻.記錄管理過程.記錄用元數據.第1部分:原則》,并結合我國電子文件管理實際,將文書類電子文件元數據從概念層次上區分為文件實體元數據、機構人員實體元數據、業務實體元數據、實體關系元數據四個域。這四個域實際上相當于四個實體類元數據集,內部又根據各域的屬性與內容劃分了不同等級和類別的元數據元素。
文件實體元數據是描述文件本身的來源、外部特征、內容、數字環境等信息的元數據,包含“M1聚合層次”“M2來源”“M7電子文件號”“M8檔號”“M21內容描述”“M40形式特征”“M46電子屬性”“M52數字化屬性”“M57電子簽名”“M65存儲位置”“M70權限管理”“M75附注”12個元數據元素和63個子元素共計75項,涵蓋了電子文件形成、交換、歸檔、移交、保管、利用的全過程,兼顧文件的背景、內容、結構、形式、安全保障等全方位信息。文件實體元數據是《方案》中包含元素項最多的一個域,這不僅充分體現了作為一項專門的電子文件管理標準,其對于文件本身的充分關注,也側面強調了文件本身的信息數據對于文件管理業務的重要意義。
機構人員實體元數據是指記錄開展電子文件管理業務過程中所涉及的責任人員和機構信息的元數據。具體包含“M76機構人員類型”“M77機構人員名稱”“M78組織機構代碼”“M79個人職位”4個元素。以上四項元素的設置均有助于記錄電子文件背景信息,提供電子文件業務活動的過程記錄,以及合法性與真實性證明。
業務實體元數據是描述電子文件形成、處理和管理等業務行為等具體行為信息的元數據。包含“M80業務狀態”“M81業務行為”“M82行為時間”“M83行為依據”“M84行為描述”5個元素。通過對業務活動的審計跟蹤描述提供電子文件背景信息,以維護電子文件的證據特性,為電子文件的控制、管理和利用提供便利。
實體關系元數據是指描述電子文件之間、電子文件不同實體之間以及電子文件實體內部各對象之間關系的元數據。包含“M85實體標識符”“M86關系類型”“M87關系”“M88關系描述”4個元素。通過對各實體文件內外部關系的描述,不僅有利于電子文件的管理、利用,更有助于對電子文件的理解。
以上四個域及其25個元素、63個子元素共同構成文書類電子元數據的基本結構框架。該框架的設置可以按照“主體—行為—對象”的邏輯進行理解,即主體在電子文件管理系統環境下,基于業務需求,在形成、交換、歸檔、移交、保管、利用等全業務流程中對電子文件加以管理和利用,再以“關系”為紐帶,將三個域聯系起來,實現整個業務活動的互聯。具體如圖1。
此外,還可以借鑒開發關系數據庫常用的“實體—屬性—關系”模型(Entity-Relationship模型)對各元數據元素及其關系的設計原理進行理解,實體對應上述文件、機構人員、業務三個域,屬性對應各元數據的子元素,關系對應實體關系元數據,通過對實體、屬性、關系的分層次描述和多級別著錄,實現對各份電子文件實體間,以及電子文件元數據著錄項中各子元素間關系的建立,構建多維立體的電子文件記錄。具體如圖2。
2.描述方法
《方案》參照國際標準ISO11179.3:2003《信息技術.數據元的規范和標準化.第3部分:數據元的基本屬性》,對88項元數據元素的描述方法進行了規定。
根據《方案》,本標準所描述的88項元數據元素有四個屬性相同:(1)注冊版本:1.0;(2)注冊機構:中華人民共和國國家檔案局;(3)字符集:GB 2312—1980、GB 18030—2005;(4)語言:中文。
除上述四項相同屬性外,《方案》為每項元數據元素設定了16項元數據元素描述內容:編號、中文名稱、英文名稱、定義、目的、約束性、可重復性、元素類型、數據類型、編碼修飾體系、值域、缺省值、子元素、信息來源、相關元素及注釋。
其中,約束性是說明該元數據元素的強制性程度,分為“必選”“條件選”和“可選”,在《方案》給出的88個元素及子元素中,有20項為必選項,25項為條件選項,43項為可選項。其中“條件選”是表示在特定環境和條件下必須采用。如文件實體元數據中的“室編案卷號”元素,當其滿足下列任一條件時,本元素是為必選項,條件有:(1)聚合層次(M1)的值為“案卷”且由檔案室著錄;(2)聚合層次(M2)的值為“文件”且文件按立卷方式整理并由檔案室著錄;(3)檔案館選擇著錄。“可選”則顧名思義,表示可采用也可不采用,由用戶根據需要確定即可,如“主題詞”“關鍵詞”“控制標識”等均為可選項。

可重復性是說明該元數據元素是否可以重復出現,《方案》中有79項元數據元素不可重復,9項可重復,如“M26主題詞“”M51信息系統描述”等。最大程度上保證了對文件著錄描述的完整性,同時也體現了《方案》的可擴展性。
元素類型是指元數據元素多屬的類別,《方案》將元素分為簡單型、容器型和復合型。簡單型是指不具有子元素的元素所對應的元素類型;容器型是指具有子元素且本身不能被賦值的元素所對應的元素類型;復合型則是指本身可以被賦值且在一定條件下可以具有子元素的元素所對應的元素類型。在《方案》給出的88個元素及子元素中,有79項元素為簡單型,8項為容器型,僅“M8檔號”一項為復合型。這是因為檔號是由管理電子文件的系統按照設定的規則生成的,根據檔案行業推薦標準DA/T13—1994《檔號編制規則》,檔號的結構可能存在以下三種:第一種結構為:全宗號—案卷目錄號—案卷號—件、頁(張)號;第二種結構為:全宗號—類別號—案卷號—件、頁(張)號;第三種結構為:類別號—項目號—案卷號—件、頁(張)號。因此在檔號已編制的情況下,系統可為元素可直接賦值對應檔號,或按照其結構細分子元素再進行賦值。若電子文件未經整理、立卷、歸檔,尚未形成檔號時,本元素則可以為空值。

數據類型是為表達元數據元素值而規定的具有相同數學特性和相同操作集的數據類別。《方案》將數據類別劃分為字符型、數值型、日期時間型三種。其中,容器型元素沒有數據類型。
編碼修飾體系,是指對元數據元素信息的描述應遵循的編碼規則,包括編碼修飾體系的標識和名稱。以“M8檔號”這一元數據元素為例,《方案》規定其編碼修飾體系標識參照DA/T13—1994實施,名稱為檔號編制規則。
信息來源,是指元數據元素值的來源,描述來源的方式有通過電子文件系統選擇著錄和手工著錄兩種。
相關元素,是指與該元素有密切聯系的元素。如“M5全總名稱”,其相關元素為“M6立檔單位”和“M9全宗號”。通過對以上三個元素的相關性指明,能夠幫助系統和管理人員更便捷高效地對電子文件的來源進行把握,并提供最齊全的檢索點,保證所描述信息的完整和全面。
在明確了元數據元素描述方法的基礎之上,《方案》的第五到八章依次對文件實體元數據、機構人員實體元數據、業務實體元數據、實體關系元數據四個域下設的88個元素一一進行了詳細的規定與說明。以5.4.4保管期限為例,其描述內容及要求如下表1所示。
(一)未來應考慮增設法規標準實體類元數據
《方案》參照了國際標準ISO23081《信息和文獻.記錄管理過程.記錄用元數據.第1部分:原則》,但將ISO23081元數據概念模型中的法規要求實體剔除,最終將文書類電子文件元數據從概念層次上區分為文件實體、機構人員實體、業務實體、實體關系四個元數據域。此舉可以理解是考慮和結合了我國電子文件管理的實際進行了必要的模型調整。但根據ISO15489的規定,文件是機構履行法定義務的記錄成果,文件真實性的本質內涵是指文件產生與既定法規要求相符,整個文件管理標準家族都是以文件法制化管理為契機出臺的。[2]而且隨著整個社會法制意識的增強,各組織機構都開始逐漸重視并強調法規遵從。這就要求組織機構不僅要在各項業務活動中切實遵守相關法律法規,還要能夠提供相關證明進行證實。檔案作為組織機構業務活動的原始記錄自然是提供相關憑證的最佳材料,這就更需要對檔案著錄工作中的法規遵從情況進行著錄與描述。因而增設法規標準實體類元數據是未來進一步完善元數據概念模型設計的題中應有之義。
(二)未來應考慮細化檔案內容描述的元數據元素
檔案作為組織機構信息資產的重要組成部分,其價值很大程度上體現在檔案內容的原始性、真實性,檔案中記錄的有價值信息能夠為組織決策輔助、文化建設等提供支持。但目前檔案管理工作還是更多地聚焦于通過信息著錄協助實現實體管理的有序化,而忽略了對檔案內容的關注。而且隨著面向機器智能的新互聯網時代的到來,未來的檔案管理勢必向著數據化、語義化、智能化的方向邁進,將會對檔案資源的信息組織程度提出很高的要求。這都需要在對檔案內容把握和精細化管理的基礎上才能夠實現。
《方案》中“M21內容描述元數據”的18項子元素通過對電子文件題名、主題詞、責任者、保管期限等外部內容信息的著錄為其文件級可檢索以及統計、利用等“粗顆粒度”檔案管理提供了便利,而真正的檔案內容卻處于“無人問津”的尷尬境遇。未來應進一步細化檔案內容描述的元數據元素,將描述層級真正深入到內容層面,實現電子文件的全文檢索和機器可閱讀可理解,為檔案管理的跨越式發展奠定信息組織基礎。
(三)個別元素的具體捕獲方式有待進一步明確
捕獲是指適時獲取電子文件及其元數據的方法和過程。《方案》中對于元數據元素的信息描述來源的方式,規定了通過電子文件系統自動著錄和手工著錄兩種。但由于電子文件生成環境與載體的特殊性,其中某些信息是人無法通過識讀直接著錄的,需要系統通過技術手段進行捕獲與著錄,或手工著錄和系統自動捕獲相配合。盡管《方案》已在每個元數據元素的信息來源中對其捕獲方式予以解釋,甚至對于某些較為復雜的元素,《方案》還在注釋中進一步進行了詳細的解釋和說明。但根據筆者的調研,在實踐過程中,數字檔案室系統設計人員在實際參照《方案》進行元數據方案設計時,由于有些元數據元素的捕獲方式還是介紹過于籠統,技術人員無法對其進行落地實現,這將導致電子文件元數據采集的不全,進而影響對電子文件信息的全面把控與管理保存。希望在未來的標準升級更新時,能夠對元素的捕獲方式進行進一步明確,為其有效實施奠定良好的基礎。

參考文獻
[1]馮惠玲.電子文件管理100問[M].北京:中國人民大學出版社,2014.
[2]劉越男.ISO23081帶來的啟示與困惑[J].北京檔案, 2008(7):26-29.
作者單位:1中國人民大學信息資源管理學院2中國空間技術研究院總環部