文利君 周文泓
(中國人民大學信息資源管理學院 北京 100872)
隨著信息技術的不斷發展和網絡檔案重要性的凸顯,網絡信息存檔實踐在全球范圍內不斷推進[1],美國國會圖書館的Twitter存檔項目[2]、國際互聯網保存聯盟IIPC[3]、中國國家圖書館的互聯網信息保存項目[4]為代表的不同規模與性質的網絡信息存檔項目收集并保管了大量寶貴的網絡信息和海量的文化遺產,例如截止到2023年Internet Archive項目已經存儲了超過8000億個網頁,在積累了大量資源后,對這些網絡檔案進行開發利用成為了網絡存檔領域關注的重要議題。美國國會圖書館的Twitter存檔項目、Internet Archive等網絡存檔實踐逐步探索開放專題數據集、開發知識化產品和服務等開發利用舉措。其中,描述性元數據作為對網絡檔案本身的內容、屬性、外在特征進行描述的元數據,因其在定位、檢索、提取網絡檔案內容中重要的作用,在網絡檔案開發利用領域受到了極大關注。數字保存聯盟開展的調查與研究表明缺乏針對性的描述性元數據方案是存檔方和用戶在網絡檔案的開發與利用中面臨最普遍的挑戰。
在實踐領域中,較為主流的元數據標準如MARC(機讀目錄格式)、DC(都柏林核心元數據集)、EAD(檔案元數據著錄標準)等在目前的網絡存檔中得到廣泛推廣,其描述性元數據標準也得以大規模的使用。但這些描述性元數據標準對于網絡檔案的著錄存在難點,一方面,網絡資源作為原生于數字空間的動態信息,在標題、創建者等元數據要素上都表現出與其他檔案不同的特征,例如有大量的網頁都沒有現成的標題可以直接使用,以何種方式形成網頁的標題成為網絡檔案相較于其他類型信息保存的特點和難點。[5-6]另一方面,網絡檔案在形式上具有多樣性,一個網頁往往可能涵蓋音頻、視頻、圖片、超鏈接等形式的內容,既有的描述性元數據標準常常難以同時對多類型的內容形式進行描述。[7]再者,網絡檔案具有動態性的特征,網絡檔案作為動態的數據流,內容處在不斷更新之中,網頁內容的編輯、評論等動態性的信息也需要針對性的描述性元數據方案進行著錄。[8-9]因之,如何面向網絡檔案形成針對性的描述性元數據方案急需進一步探索。
研究層面,面向網絡檔案的元數據探索在多方面顯示出成果:一是元數據在網絡檔案保存、組織等管理中的價值得到確認,尤其是描述性元數據在網絡檔案查找利用中的重要作用得到說明。[10-11]二是結合網絡檔案的特質,對不同類型的元數據的定義和功能進行了闡釋,認為在描述性元數據、保存元數據、技術元數據、管理元數據構成的網絡檔案元數據體系中,描述性元數據是最為重要的元數據,其主要功能包括描述、定位、檢索、評估、共享網絡檔案,有助于將用戶和網絡檔案進行連接,實現對于網絡檔案的利用。[12]三是對通用元數據集與網絡信息資源的融合進行探索,例如對DC元數據集在網絡資源中的應用研究,描述性元數據涵蓋其中。[13-14]四是針對網頁、社交媒體及社交媒體圖片、視頻等特定存檔對象的元數據方案設計得到一定程度的探索,如根據復用性、模塊化、可擴展性、互操作性原則制定的包括管理性元數據和描述性元數據在內的社交媒體文件存檔元數據方案。[15-16]然而,目前的研究對針對網絡存檔的專門元數據方案缺乏探索,未對網絡資源在元數據描述實踐中與其他類型信息的不同與特征展開深入分析;此外,目前的研究更多的是面向保存視角,側重于對管理性元數據和保存性元數據的探索,在網絡檔案在保存之外更延伸至利用與服務的實踐現狀下,缺乏對支撐網絡檔案利用的描述性元數據探索。
因此,為促進網絡檔案的利用與服務,明確針對網絡存檔的描述性元數據方案的內容特征與建設策略,本文將基于代表性實踐,展開案例研究,選定聯機計算機圖書館中心(Online Computer Library Center,以下簡稱OCLC)制定的網絡存檔描述性元數據方案,對其工作背景與目標、元數據方案主要內容等進行梳理分析,明確其主要特征,依據其顯示的方向,提出立足我國的網絡檔案描述性元數據方案設計策略。
聯機計算機圖書館中心(OCLC)是世界上最大的提供文獻信息服務的機構之一,其重要的宗旨和目標是鏈接用戶與所需信息、分享知識,作為圖書館機構OCLC也一直致力于參與檔案實踐,尤其是在增強檔案描述以促進檔案利用方面。早在2011年,OCLC開發了匯集有超過500萬份檔案的描述信息資料庫ArchiveGrid,旨在通過對檔案描述信息的檢索實現對全球檔案館藏的查找與發現。[17]隨著網絡存檔實踐的開展,OCLC也關注到了對網絡檔案的描述著錄問題。既有研究表明,缺乏針對性的元數據方案是網絡存檔中面臨的最普遍的挑戰,因此OCLC研究部成立了網絡存檔元數據工作組,工作組由來自普林斯頓大學、哈佛大學、賓夕法尼亞大學、加州大學洛杉磯分校等高校圖情檔領域的學者、國會圖書館等機構專家和OCLC研究員等24名成員構成,以制定對網絡存檔的描述性元數據方案,從而提高網絡存檔中元數據的一致性和元數據著錄效率。
首先,網絡檔案捕獲工具狀況為OCLC描述性元數據方案提供了內容導向。網絡存檔的工作都需要依賴于一定的采集工具進行,在捕獲的過程中技術元數據、保存元數據大多由捕獲工具自動生成,部分捕獲工具會自動生成部分的描述性元數據。由于網絡檔案的數量大、動態性強,完全由人工進行描述性元數據的著錄難以實現,由采集工具自動生成描述性元數據能極大地提高著錄的效率,從而有助于促進大規模描述性元數據的生成,以促進網絡檔案的開發與利用。因此OCLC元數據工作組對Archive-It、Wayback Machine、Heritrix、HTTrack、Web Archive Discovery在內的11個主流的捕獲工具進行了調研,以明確目前的采集工具在描述性元數據生成方面的情況以及采用何種元數據方案進行描述性元數據的提取,從而為OCLC描述性元數據方案的內容制定提供基礎。調研結果顯示絕大多數的采集工具都專注于捕獲和存儲技術元數據,而描述性元數據是捕獲工具最少捕獲到的。此外,不同的工具對于描述性元數據的定義和元數據元素的構成也存在差異,這不利于對于網絡檔案的描述和發現。因此,OCLC希望建立起合適的網絡檔案的描述性元數據方案用以輔助網絡存檔工具自動生成元數據能力的提升。
其次,OCLC網絡檔案描述性元數據方案以用戶需求為內容方向。OCLC元數據工作組的最終目的在于通過描述性元數據架起用戶和網絡檔案之間的橋梁從而促進對網絡檔案的發現和利用,因此在工作最初,工作組對網絡檔案相關人員進行了需求調研,包括網絡檔案的利用者與網絡檔案著錄人員。其中,網絡檔案的利用者主要是各類型的學術研究人員,而網絡檔案著錄人員是指對網絡檔案進行元數據著錄的工作者。針對描述性元數據,用戶表達了對于更詳細的來源信息的強烈需求,并希望能使選擇捕獲對象和建立館藏的過程保持透明,增加對捕獲對象的完整性和變化狀態相關的描述。網絡檔案著錄人員認為目前許多既有的書目著錄標準和檔案著錄標準都被應用于網絡檔案描述性元數據的實踐中,而書目著錄和檔案著錄之間存在一定的差異,希望可以找到彌合這樣差異的方法;此外,目前的各類元數據標準應用在網絡存檔時存在各類元數據元素與內容高度不一致的情況。通過對兩類人員的調查,工作組厘清了用戶和工作者對網絡檔案描述性元數據的需求,主要包括豐富來源信息、融合書目著錄和檔案著錄方法建立統一的描述性元數據方案等,這是OCLC描述性元數據方案內容的重要建設內容。
同時,既有的描述性元數據標準是OCLC描述性元數據方案重要的內容參照。為了對現有的網絡檔案描述性元數據著錄實踐有全面的了解,進而明確圖書館、檔案館領域常用的可應用于網站描述的元數據元素,從而為工作組的方案建設提供內容參照,工作組分析了包括DACS、RDA、DC等在內的三份元數據標準、七份機構元數據指南和各類元數據方案。一方面,既有的元數據標準中源數據元素的構成為OCLC元數據方案提供了基礎的內容參照,這些方案中重要的元數據元素在OCLC描述性元數據方案中得以保留,DC元數據方案因其靈活性和可擴展性被作為OCLC描述元數據方案的基礎架構。另一方面,現有描述性元數據方案的不足也為OCLC描述性元數據方案的內容指明了進一步的優化空間。例如,現有的元數據標準均未有針對網絡存檔的特殊要素;機構的元數據指南對元數據元素選擇差異較大;部分元數據標準中部分遵循書目傳統,將存檔對象視為獨立個體進行描述;部分采用檔案方法,對存檔對象的描述中也會記錄網站集合。基于此,工作組明確了OCLC描述性元數據方案的內容必須要具備銜接起不同的描述性元數據方案,以提升網絡檔案開發利用的便利度。
OCLC元數據工作組形成的網絡存檔描述性元數據方案由元數據元素和使用指南兩部分有機構成。其中元數據元素包括:收集方、貢獻方、創建方、日期、描述、范圍、形式、語言、關系、權利、描述源、主題、標題、URL。具體內容如表一所示。

表一 元數據元素表
在每一個元數據元素后,都附有對該元數據元素的使用指南,包括制定該元數據元素的原因、元數據元素含義的詳細解釋、使用該元數據元素的場景與范例、該元數據元素與其他元數據標準的映射關系。以創建者為例,元數據方案中給出了非常詳細且具有可操作性的使用指南。使用指南中首先說明了使用該元素的場景:僅當組織明確肩負起創建知識內容的主要責任時,才能使用這一元素,如不確定或有任何疑問,則使用貢獻者這一元素進行描述。其次對不同情況下這一元素的使用進行了介紹:例如在Twitter等個人社交媒體中,個人明確是知識內容的創建者,該主體可被視為創作者;但是當僅按主題描述相關的內容構成網站時,不能使用創建者這一元素。隨后,對創建者這一元素與都柏林、MARC、schema.org等元數據方案之間的映射以對照表的形式進行了說明,如圖一所示,OCLC描述性元數據方案中的Creator元素對應Dublin Core的Contributor、EAD的repository、MODS的

圖一 “創建者”元素對照表

圖二 EAD轉換示例
網絡存檔對象和網絡存檔活動都存在與傳統的檔案實踐的不同之處,通用性的元數據方案往往難以描述出網絡檔案動態性、形式多樣性等特質而限制了對于網絡檔案充分的開發利用。基于此,OCLC網絡存檔元數據工作組在制定描述性元數據方案時,充分考慮到了網絡存檔的特質與需求,在元數據元素的設計和使用指南中都融合網絡存檔的特點進行設計。一方面,工作組清晰地認識到網絡的動態性網絡存檔的對象也呈現出易變的特征,相較于其他類型的檔案,對網絡檔案進行描述性元數據著錄時也要考慮到如何以元數據來說明這種存檔內容的動態變化,因此設計了“描述源”這一元素對著錄元數據內容的來源、日期等背景信息進行說明。通過對于描述源的著錄,網絡檔案用戶尤其是研究人員對于元數據來源的需求得到了極大的滿足,有利于研究人員借助網絡檔案開展科研活動。另一方面,網絡存檔活動存在多樣性,網絡檔案的創建者、存檔方、存檔對象都存在諸多類型,為了充分地幫助用戶參照元數據方案進行設計,在操作指南的設計中,工作組對各類場景下如何使用相應的元數據元素進行了說明,如針對范圍這一元素,對存檔網站和存檔網站集合如何描述進行了具體的說明。
OCLC網絡存檔元數據工作組的最終目的是促進對網絡檔案的描述以推動網絡檔案的發現和利用,在此基礎上工作組充分考慮了目前網絡存檔的實踐進展以及相關人員的實踐現狀和需求,立足實踐進行了描述性元數據方案設計的探索。首先,OCLC網絡檔案描述元數據方案設計的啟動就受到實踐的強力推動,既有研究成果表明缺乏針對性的元數據方案是網絡檔案的開發利用中面臨的最普遍的挑戰,而OCLC進行的調研也說明缺乏描述性元數據是促進網絡檔案利用中面臨的最大障礙,因此OCLC成立了網絡存檔描述性元數據工作組專門制定針對網絡檔案的描述性元數據方案。其次,元數據方案的內容設計是基于用戶實際需求、網絡存檔元數據著錄實踐需求的,針對這兩類用戶的調研幫助工作組統籌規劃對網絡檔案來源進行更為豐富的描述的方向,以及明確現有的描述性元數據著錄檔案中存在的優化空間,如為彌補現有元數據方案在描述網絡檔案與其他信息之間關聯的不足,OCLC描述性元數據方案設置了Relation元素用以描述單個網站與所述的任何集合之間的關系從而促進網絡檔案的檢索與發現。
存檔主體的不同往往會導致對網絡檔案描述性元數據的方案不同,而網絡檔案的高效益的開發利用又需要對于不同元數據格式下的網絡檔案進行統一組織,為用戶提供一致性的服務,因此,在網絡檔案中描述性元數據方案內容的互操作性極為重要。OCLC描述性元數據方案十分注重元數據方案在不同存檔實踐中的兼容性和與其他元數據標準或方案之間的互操作性以確保不同元數據格式間的信息貢獻、轉換和跨系統檢索等功能的實現。OCLC描述性元數據方案應既可單獨使用也可以與精細的圖書館或檔案館領域的元數據標準一起使用。制定的元數據方案之中既有在設定元數據元素時,對其他元數據方案中相應元數據元素的闡釋,也用對照表的形式建立了元數據元素與其他元數據標準元素之間的映射關系,此外,還給出了相應的實例,介紹如何將工作組設計的元數據方案與DC、EAD等元數據標準之間進行轉換,極大地提高工作組編制的元數據方案與其他元數據方案之間的互操作性。
OCLC網絡存檔工作組進行針對網絡存檔進行描述性元數據方案建設的行動展現了面向網絡檔案進行描述性元數據方案建設的探索空間,顯示出許多行之有效值得深入研究的策略,各個國家和網絡存檔項目在選擇或設計元數據方案時都可以從中找到值得參考的亮點或是需要規避的不足。就我國而言,在我國頒布的多份政策如《重大活動和突發事件檔案管理辦法》中,將網頁、社交媒體等網絡資源納入到歸檔范圍之中[18],圖書館也主動推進了政府網站存檔與互聯信息保存項目,網絡存檔活動已取得顯著進展,但面向網絡存檔的具體性的政策指導如《政府網站網頁歸檔指南》并未部署描述性元數據相關的內容,與此同時,國家文化數字化戰略的推進又對網絡檔案資源的開發和利用提出了新要求。因此,我國也需要進一步針對網絡存檔描述性元數據建設進行深度探索以更好支持存檔內容的管理、組織、利用。基于OCLC存檔工作組實踐,結合我國網絡存檔的實踐與現實情況,提出面向網絡存檔的描述性元數據方案建設啟示如下:
網絡存檔項目往往涉及圖書館、檔案館、博物館等多方記憶機構、負責網絡內容采集等技術人員,相應的元數據方案的建設也需要納入多方主體進行團隊建設,綜合考慮不同機構對資源描述的優勢和差異,并融入技術視角,考量哪些元數據對網絡檔案保存重要、哪些元數據可通過技術手段直接生成。OCLC 網絡存檔元數據工作組由高校學者、圖書館等機構專家和OCLC研究員等24名成員構成,這些成員來自不同的專業背景和不同的實踐領域,為元數據方案的建設貢獻了不同方面的智慧。
OCLC網絡存檔元數據工作組項目始終與實踐對于網絡檔案開發利用的需求緊密相連,對用戶需求和網絡檔案存檔捕獲工具與實踐現狀進行了充分的調研,以明確如何輔助捕獲工作進行描述性元數據方案建設以滿足用戶需求,促進對于網絡檔案的開發利用。在針對網絡檔案的描述性元數據方案建設中,一方面,進行網絡存檔的目的在于促進學術研究、決策支持等方面的開發利用,因此在制定元數據方案時必須先對用戶的需求進行調研,明確在開發利用中哪些元數據元素對于用戶來說是不可或缺的。另一方面,網絡存檔的實踐進展與捕獲工具現狀也需要得到明確,調研哪些元數據內容在實踐中被忽略或是需要更為充分的描述,并明確如何設計元數據方案輔助網絡存檔捕獲工具,從而更好地實現對于網絡檔案的大規模描述元數據的生成。對于網絡檔案描述性元數據開發,必須要圍繞描述性元數據促進網絡檔案檢索、內容發現的功能定位,圍繞網絡檔案的開發利用進行內容的制定。
相較于其他檔案資源,網絡檔案的動態性較為突出,網絡檔案龐大的數量、復雜的內容與形式構成也顯現出其不同于其他類型檔案的諸多特質,網絡存檔實踐的多樣性也更為突出。因此在設計描述性元數據方案時,必須深入考慮網絡檔案的特質,并在描述性元數據元素和內容中充分包容并體現網絡檔案的動態性、內容復雜性等特質。如OCLC元數據工作組設計的元數據方案為適應網絡檔案的動態性設置了“描述源”這一元素,以說明元數據內容于什么時候進行著錄、來源是什么,以描述網絡檔案動態性帶來的元數據內容的變動;再如對“類型/形式”這一元素的說明中,工作組強調了要對網頁中存在視頻、音頻等內容的形式進行充分的描述。針對網絡檔案的元數據方案設計,必須在元數據內容設置中深入考慮到網絡檔案的特質,這樣才能保障最終元數據方案在網絡存檔實踐中的可操作性。
選取OCLC網絡存檔工作組的開展的描述性元數據制定工作為例,解析針對網絡存檔的描述性元數據標準的建設,旨在明確網絡存檔描述性元數據的特征及制定思路,為對網絡檔案的元數據方案建設提供參考。然而,本文更多從方案內容建設的視角出發,對于元數據元素的設計和內涵還有待進一步進行更深入的解析,后續的研究中可從更具體的元數據元素層面,并結合關聯數據等新技術進行描述性元數據方案建設。