趙屹
摘要:從元數據的定義、元數據的作用、元數據與電子文件和背景信息的關系、元數據在電子文件管理中的使用四個方面對電子文件管理元數據進行研究和闡述。力求將研究性、知識性與易讀性結合,有助于檔案工作者了解元數據,進而依據元數據標準在實際工作中進行應用。
關鍵字:電子文件元數據標準封裝
Abstract:This paper research and expound the four aspects of the metadata in electronic document management. The four aspects are the definition of metadata,the function of metadata,the relation? ships with electronic documents and background in? formation,the use of the metadata in electronic doc? ument management. There are the characters of re? search,knowledge and legibility in the paper and strive to help archivists understand metadata and then use metadata based on metadata standard in practical work。
Key words:Electronic documents;Metadata;Standard;Encapsulate
一、涵義:關于數據的數據
數字時代要完成對海量數字信息的管理,尤其是對網絡信息資源的管理,信息管理者急需解決如何對信息進行有效組織。信息組織是采用一定的方式,將某一方面的大量的、分散的、雜亂的信息經過整序、優化,形成一個便于有效利用的系統的過程。在這個過程中,人們引入元數據概念來解決數據描述的問題。
元數據(Metadata)是關于數據的數據(data about data),用于記錄數據的產生、數據的定義以及數據之間關系的種種屬性,包括數據描述、數據結構等。
鑒于元數據的定義讀起來太過抽象,有研究者形象地對元數據進行了解釋:在契訶夫的小說《套中人》中這樣描寫一個叫瓦蓮卡的女子:“(她)年紀已經不輕,三十歲上下,個子高挑,身材勻稱,黑黑的眉毛,紅紅的臉蛋——一句話,不是姑娘,而是果凍,她那樣活躍,吵吵嚷嚷,不停地哼著小俄羅斯的抒情歌曲,高聲大笑,動不動就發出一連串響亮的笑聲:哈,哈,哈!”這段話里揭示了瓦蓮卡的四類信息:年齡(三十歲上下)、身高(個子高挑)、相貌(身材勻稱,黑黑的眉毛,紅紅的臉蛋)、性格(活躍,吵吵嚷嚷,不停地哼著小曲,高聲大笑)。有了這些信息,人們就可以大致想象出瓦蓮卡是個什么樣的人。推而廣之,只要提供這四類信息,就可以推測出其他人的樣子。用于描述這些信息屬性的“年齡”、“身高”、“相貌”、“性格”就是元數據,它們是用來描述具體信息(數據)的數據。[1]
假設我們用計算機的數據庫管理系統來管理類似上述事例中的人員信息,那么需要將每個人的信息輸入數據庫。在輸入之前,我們必須先“告訴”計算機,對于每一個人,我們需要采集哪些數據。我們“告訴”計算機要采集每一個人的姓名、性別、年齡、身高、相貌、性格。如圖1所示,這個“告訴”的動作是由定義數據庫的數據結構實現的。
當定義好數據結構后,我們就可以在名為《人員基本情況表》的數據庫中輸入數據了。每一個人在數據庫中成為一條記錄。如圖2所示,輸入了3個人的基本情況,便成為該庫中的3條記錄。
這樣,人員基本情況就被計算機管理起來了,可以進行檢索和統計等操作。例如,統計年齡在“三十”左右的人員,計算機就會顯示有2條結果,即“瓦蓮卡”和“武大郎”;若有大齡剩女悄悄地利用該數據庫尋找戀愛對象,她以“不打女人”為性格條件進行檢索,那么武大郎就會成為符合條件的候選人之一。當然,武大郎的身高、相貌也會作為檢索結果展現給該女士供其參考。在這個計算機管理人員信息檢索的過程中,“姓名”是元數據,“瓦蓮卡”、“李白”和“武大郎”是數據,“性格”是元數據,“活躍”、“豪放”和“不打女人”是數據……。可見,元數據是用于描述數據的抽象信息,數據是具體信息。所以,元數據是對數據最根本的描述,是數據的本質,也可以稱其為描述數據的數據(date that describe data)。
二、作用:電子文件管理系統的“血液”
元數據最早出現和應用于計算機信息技術領域,在當前已經廣泛發展并應用到眾多專業領域。事實上,在社會生活中,元數據無所不在。有一類事物,就可以定義一套元數據。例如,文獻領域適用于網絡資源與文獻資料的DC(Dublin Core,都柏林核心元數據),電子政務領域適用于政府信息的GILS(Government Information Locator Service,政府信息定位服務),檔案領域適用于檔案與手稿的EAD(Encoded Archival Description,置標檔案描述)等都是各專業領域為描述本領域的對象而制定的元數據體系。其中EAD是用于描述檔案與手稿的形式與內容的規范,以便它們作為網絡信息可以在任何計算機平臺上進行檢索、顯示與交換。
在電子文件管理中,有必要引入元數據概念來描述電子文件的定義、屬性、結構、關系等數據屬性,揭示電子文件的形成、內容、排版、格式及系統環境等,以便有效地記錄電子文件的內容、背景和結構,方便對電子文件的標識、鑒別、描述、管理和長久利用。
元數據在電子文件管理中的作用可以概括為以下五個方面:一是全面描述電子文件;二是保障電子文件的真實性。電子文件在整個生命周期內,是在網絡環境中動態流動的。元數據用于記錄電子文件生命周期中所有重要的變遷,所經歷的任務、部門、人員、操作等,依據這些記錄可以再現電子文件流程;三是維護電子文件的完整性。電子文件的有些結構、背景與其內容相對獨立,元數據以規范格式來描述電子文件的內容、結構以及背景,建立三者間的有機聯系;四是有助于電子文件的長期可讀。元數據可以對計算機系統進行說明;五是提高電子文件的可理解性。元數據集有助于利用者了解電子文件的內容、創建原因、流轉過程、利用條件、內在關系與外在聯系等。
目前,國際文件與檔案管理領域已達成共識,元數據是實現對電子文件進行科學、有效、動態、集成管理的關鍵與基礎,并被國外學者喻為是電子文件管理系統中的“血液(Blood)”。[3]
三、關系:與電子文件、背景信息密不可分
在當前的電子文件研究和管理中,對于元數據的概念、作用、使用還有一些模糊和誤解存在。如有研究者將電子文件管理中的元數據定義為“由電子文件系統自動記錄的關于文件形成時間、地點、人員、活動、文件系統、結構等方面的具體數據。”筆者認為,該定義存在較大偏差。首先,該定義的屬概念是完全錯誤的。元數據是抽象數據,而非具體數據,它是對具體數據的抽象,所以才是數據的數據;二是元數據不是電子文件管理系統自動記錄的,而是人為定義的。元數據是預先制定的標準、方案、體系或規則。電子文件管理系統自動記錄的是數據。例如,一份電子文件是由“瓦蓮卡”創建的,由“李白”修改的,由“武大郎”簽發的。那么電子文件管理系統記錄下的“瓦蓮卡”、“李白”和“武大郎”是數據,而“創建者”、“修改者”、“簽發者”才是元數據。元數據是預先制定好的方案,電子文件管理系統在開發時,依據預先制訂好的元數據方案去記錄相應的數據。假如在預先制定的方案中只有“創建者”和“簽發者”而沒有“修改者”,那么即使一份電子文件是由“瓦蓮卡”創建、“李白”修改、“武大郎”簽發的,但電子文件管理系統只會記錄下“瓦蓮卡”和“武大郎”,而不會去記錄“李白”。因為李白是“修改者”,元數據體系沒有要求記錄修改者,依據該元數據體系開發的電子文件管理系統,就不會捕獲并記錄修改者的信息。
還有研究者提出,在電子文件管理過程中要捕獲元數據。同理,元數據是預先制定的標準、方案、體系或規則,在電子文件管理過程中,是根據元數據標準去“捕獲”、“自動記錄”數據而不是捕獲元數據。那些被“捕獲”和“自動記錄”的數據多數是背景信息數據。
對于電子文件、元數據、背景信息三者的關系,筆者認為,可以用一句著名的詩句來形容,如圖3所示,[4]那就是“舉杯邀明月,對影成三人”。
圖中的李白暗應電子文件。電子文件若想永久保存,必須引入相應的記錄機制,即把元數據“邀”到電子文件管理中。為此,需要制定電子文件管理的元數據標準。元數據標準就恍如圖3中的月亮一樣掛在那里。而背景信息是描述電子文件形成與維護背景的具體信息,它如同電子文件的影子一般與其形影不離,成為電子文件的重要組成部分。背景信息一般包括電子文件的發送信息、辦理信息、歸檔信息、技術信息等(當然,人離了影子照樣是完整的,電子文件離了背景信息就不完整了。因此這個比喻稍有偏差,只是用于幫助加強理解)。在圖中,月亮決定了影子的方向和長短,類似地,元數據標準決定電子文件背景信息的內容和數量,即電子文件管理中需要捕獲和記錄哪些信息,才能確保電子文件的真實性、可靠性、完整性與可用性。電子文件管理系統必須依據元數據標準捕獲和記錄詳細的背景信息,這種捕獲和記錄有自動生成、自動捕獲、手工錄入等不同方式。
四、使用:標準制定、系統引用、管理維護
在電子文件管理中引入和使用元數據,必須制定相應的元數據標準。世界各國對此都很重視,紛紛研究與制定各自國家的電子文件管理元數據標準。澳大利亞1999年發布世界上第一個專門解決文件長期管理問題的國家級元數據標準《聯邦政府機關文件保管元數據標準》并于2008年進行了修訂,英國公共文件局2002年發布《電子文件管理系統需求——元數據標準》,加拿大國家圖書與檔案館2006年發布《文件管理元數據標準》等。[5]此外,還有前文提到的EAD,國際檔案理事會于1993年制訂、2000修訂的《國際檔案著錄標準(總則)》,國際標準化組織2006年頒布的《信息與文獻—文件管理流程—文件元數據—原則》和《信息與文獻—文件管理流程—文件元數據—概念及實施》等。我國已經發布行業標準《文書類電子文件元數據方案》和《核電電子文件元數據標準》,以方便行業對電子文件的理解、管理、交換和利用。目前國家行業標準《電子文件元數據標準》進入公示和征求意見階段。另外,我國有許多研究項目也在研究更具體的專業領域的元數據方案。例如,筆者主持的2010年7月結項的國家哲學和社會科學基金檔案學項目“電子政務環境下電子公文流程分析與設計”對電子公文的元數據進行了分析和設計,設計了98個基本元素并對這些元素從序號、元素名稱、來源、數據說明、數據類型、性質、數據捕獲時機、數據捕獲方法、對應關系九個方面進行了描述。
電子文件管理中元數據的使用一般通過電子文件管理系統實現。電子文件管理系統引用元數據,一般是在系統的設計階段將元數據標準預設在電子文件管理系統中,而后元數據標準自始至終伴隨每一份電子文件的整個生命周期。在電子文件的全程管理過程中,電子文件管理系統依據預設的元數據標準全面地、持續地實現對電子文件各種相關數據信息即背景信息的捕獲。電子文件管理系統的實際操作要求元數據標準必須堅持可行性的設計原則,力求做到易于理解、易于使用、有效地控制元數據的數量,從而使元數據的設計具有實用價值。元數據的數量過多,會加大電子文件處理的工作量,占用更多的存儲空間,導致更復雜的管理。所以,元數據的設計只要能夠滿足揭示電子文件的主要特征,記錄電子文件的主要流程,滿足電子文件管理需要即可。
元數據的使用還需要管理維護。在電子文件管理中使用元數據,對元數據的管理維護包括兩個方面:一是元數據的實現,二是元數據的封裝。
元數據是最基本的理論模型,在電子文件管理系統引用時還需要具體加以實現。實現是指用一種計算機可以識別的形式表示元數據,以便計算機程序能夠對元數據進行處理。目前元數據一般都以XML(Extensible Markup Language,可擴展標記語言)作為編碼標準,以XML Schema的方式實現,可以說XML Schema就是元數據。用XML描述元數據有以下四個方面的優點:一是具有等級結構,層次清晰,既可以很好地表達電子文件的物理結構,還能充分表達電子文件的內容及其邏輯結構;二是可以克服傳統著錄中字段的長度限制,詳細標識各個元素內容;三是計算機可以通過識別XML標簽理解元素的意義,從而將元素作為檢索途徑;四是電子文件數據可以不經轉化直接在互聯網絡上發布,實現資源共享。
封裝是將元數據與電子文件相關聯的重要步驟。封裝將元數據與電子文件綁定成一個完整對象,即形成一個整體封裝包來進行保存和保護。這樣的封裝包是一個由電子文件及其元數據組成的自我包含、自我描述和自我證明的實體。元數據與電子文件的關聯至關重要。失去二者間的關聯,元數據將變得毫無意義,而電子文件的價值也將大打折扣。封裝便于對電子文件及其元數據同時進行管理。封裝是一種先進的電子文件保管理念,是確保電子文件長久保存和具有憑證價值的核心方法之一。2009年,我國頒布《基于XML的電子文件封裝規范》用于規范電子文件的封裝。它規定了基于XML的電子文件封裝格式和要求,為電子文件提供統一的封裝格式,保證電子文件及其元數據的完整合一性,以利于電子文件長期的保存和交換。
注釋及參考文獻:
[1]阮一峰.元數據[EB/OL].[2013-06-07].http:// www.ruanyifeng.com/blog/2007/03/metadata.html.
[2]佚名.最具特色的武大郎個人簡歷[EB/OL].[2013- 06-07].http://www.kaixin001.com/repaste/50395290_ 711409321.html.
[3]徐維.元數據:電子文件管理的關鍵所在[J].山西檔案.2000(4):11-14.
[4]佚名.李白畫像[EB/OL].[2014-12-30].http:// cul.jschina.com.cn/system/2012/08/18/014199383.shtml.
[5]劉越男,梁凱,顧偉.電子文件管理系統實施過程中元數據方案的設計[J].檔案學研究,2012(2):56-64.