宋 欣 魯國軒/中國人民大學信息資源管理學院
貝葉檔案以棕櫚葉為記錄載體,其年代久遠、載體材料特殊,具有獨特的文獻價值、歷史文化價值和文物價值,是珍貴的世界文化遺產。由于自然老化、保存不善和人為破壞等原因,存世的貝葉檔案數量十分稀少,亟待進行搶救性保護。貝葉檔案數字化建設是貝葉檔案搶救性保護的有效途徑,元數據框架的確定則是數字化建設的前提和基礎。本文首先闡述了貝葉檔案元數據設計的必要性和可行性,其次分析了DC、EAD和CDWA等與貝葉檔案相關的常用國際元數據標準,并將這3種元數據標準作為構建貝葉檔案元數據框架的基礎,最后按照分析貝葉檔案信息資源特征、設置元數據的設計目標、遵循元數據設計原則的設計思路,構建面向貝葉檔案數字化建設和信息資源利用的元數據設計方案。
1.1.1 貝葉檔案數字化建設的必要性
貝葉檔案中記錄了有關歷史學、文學、天文學、藝術學、傳統醫學等方面的知識,具有較高的利用價值。但由于自然、人為等原因,保存至今的貝葉檔案數量很少,且部分保存狀況較差,隨著時間的流逝,貝葉檔案老化情況也不斷加劇。因此,除對貝葉檔案本體進行保護和修復外,還應利用數字化技術對內容進行搶救性保護,對非結構化的原始數據進行描述,使其轉化為結構化數據,實現貝葉檔案資源整合、管理和長期保存的目標[1],促進貝葉檔案資源的開發和利用。
此外,我國貝葉檔案的保存地點較為分散,對于集中利用造成了極大的障礙。目前,貝葉檔案除在西藏檔案館、布達拉宮、西藏博物館、羅布林卡、薩迦寺等西藏地區外,在北京的民族文化宮、杭州的靈隱寺、四川的萬年寺等地也有分布[2],貝葉檔案資源數字化是解決上述問題的最佳方法,且國外很多國家和地區都對貝葉檔案進行了數字化。2003年,印度旅游與文化部成立了印度手稿國家使命項目,專門負責調查、記錄和保存貝葉檔案,將貝葉檔案進行數字化并且使用開源軟件DSpace作為在線數據庫;老撾國家圖書館將貝葉檔案的縮微膠片進行數字化,并開發了在線數據庫供檢索利用。
1.1.2 貝葉檔案元數據設計的必要性
上述機構雖建立了貝葉檔案數據庫,但由于缺乏統一的元數據方案指導,導致形成多個異構的貝葉檔案數據庫,數據庫之間缺乏關聯,檔案資源仍無法共享。泰國學者尼薩喬·查姆農斯里(Nisachol Chamnongei)調研了16個貝葉檔案保存項目的元數據使用情況后發現,各項目組按照自身的需求對貝葉檔案元數據框架進行設計,依據元數據框架建立的檔案數據庫之間資源缺乏關聯性,形成了眾多貝葉檔案“信息孤島”。當前,國內外尚未形成規范的貝葉檔案元數據方案,異構的貝葉檔案數據庫信息資源無法共享、缺乏資源關聯性,貝葉檔案信息資源的利用存在障礙。因此,有必要設計一套具有互操作性、專指性、規范化的元數據方案。
1.2.1 以理論研究成果為支撐
目前,國外關于貝葉檔案元數據標準的研究已經取得了一些成果。2001年以來,泰國運用技術手段對包括貝葉檔案在內的古代文獻進行數字化處理,專門創建了貝葉檔案數據庫。但實踐發現,由于缺少對用戶使用、服務系統等需求的考慮,該數據庫的元數據設計存在缺陷,并未達到高效便捷利用的目的。因此,尼薩喬·查姆農斯里等人提出將FRBR模型作為概念模型應用于泰國貝葉檔案數字化過程中的元數據開發環節,實現對貝葉檔案中知識的描述和組織,使貝葉檔案數據庫具備支持訪問、獲取和管理的各種功能,由此為貝葉檔案元數據設計提供了有效可行的方案[3]。2017年,尼薩喬·查姆農斯里對英國、美國、老撾、印度、泰國等國家和地區的16個貝葉檔案保存項目開展了一項調查,發現使用頻數最高的10個貝葉檔案描述元素分別是標題/主題、腳本語言、分冊編號/標識符、保存地點、頁數、發現的日期和地點、尺寸、材料的類型、描述/摘要、護經板[4],并結合對貝葉檔案用戶需求和檢索行為的研究,提出建立面向用戶需求的貝葉檔案元數據模式[5]。
1.2.2 以現有元數據標準為基礎
EAD、DC、CDWA等與數字化建設相關的國際元數據框架已得到廣泛應用,其設計思路為貝葉檔案元數據設計提供了重要參考。EAD(檔案元數據)可用于描述貝葉檔案資源,DC(都柏林核心元數據)廣泛用于描述網絡信息資源,CDWA(藝術作品描述類目)可用于描述貝葉檔案的物理形態等信息。由于貝葉檔案兼具檔案和文物的特征,同時其數字化版本又屬于網絡信息資源,因此上述三個元數據框架對貝葉檔案元數據的設計均具有指導意義。此外,EAD、DC和CDWA是國際上通用的元數據標準,因此在此基礎上構建的貝葉檔案元數據方案具有較好的互操作性。
綜上,在實踐層面,國內外眾多收藏機構將貝葉檔案進行了數字化處理,并建設了貝葉檔案數據庫,但由于缺乏統一的貝葉檔案元數據標準,異構數據庫之間的資源無法共享和利用,各機構之間也無法開展合作,不能發揮貝葉檔案數據庫真正的價值和作用。在理論層面,國內外貝葉檔案元數據的相關研究仍處于比較零散的狀態,且沒有形成統一的元數據標準,嚴重制約了貝葉檔案數字化的發展。因此,制定規范化的貝葉檔案元數據標準迫在眉睫。
檔案元數據(Encoding Archival Description)簡稱EAD,主要用于描述檔案和手稿資源,包括文本文檔、電子文檔、可視材料和聲音記錄,同時還可廣泛地應用于其他領域的科學文獻資料的編目工作[6]。EAD高層元素由EAD頭標、檔案描述以及前置事項組成,其中EAD頭標和前置事項提供檢索信息,檔案描述提供關于檔案資源主體信息。貝葉檔案元數據框架設計中可借鑒EAD頭標的描述項,對貝葉檔案的出處、來源、語言等進行描述;參考檔案描述的描述項對貝葉檔案的內容摘要、貝葉檔案裝具、物理位置、館藏單位等信息進行描述。
都柏林核心元數據(Dublin Core)簡稱DC[7],主要用于網絡資源的著錄、發現和組織。DC共有15個核心元素,簡單易用、普適性強,但由于描述對象是所有網絡資源,故欠缺針對性。因此,在選擇DC元數據作為貝葉檔案元數據設計的主干框架時,還需在此基礎上注入更多針對貝葉檔案信息資源特征的高質量、專指性強的元素[8]。
藝術作品描述類目(Categories for the Description of Works of Art)簡稱CDWA,旨在對藝術品物理形態及數字化影像資料進行描述和編目,支持對藝術品及其數字化資料的管理、檢索和發現,提升信息之間的兼容性[9]。CDWA共有532個元數據項,元素豐富、結構復雜。其中,用于描述藝術品外部物理特征的元數據項,如測量數據(尺寸、形狀、大小、比例)、材質與技術(材質、工藝)、外觀描述(藝術品形狀)等,可用于描述貝葉檔案的形狀、尺寸、材質等物理特征。
在設計貝葉檔案元數據時,首先要明確的是元數據應具備的功能和要達到的目標。當前,貝葉檔案信息資源檢索和利用方面最大的困難是檔案資源相對分散,資源間原有的體系和聯系被打亂,難以組織和管理;即便是同一來源地區的貝葉檔案,其本體被分散保存在不同機構當中,數字化版本被分散保存在各個異構數據庫中。貝葉檔案資源分散的現狀導致貝葉檔案資源共享困難、信息資源利用效率低。在貝葉檔案實體無法集中的情況下,建立一套面向貝葉檔案數字化建設和信息資源利用的元數據框架,保證其兼容性的同時突出貝葉檔案的資源特征,最終建成具有貝葉檔案特色的數據庫,實現對貝葉檔案資源的描述、定位、檢索、保存和組織管理,支持多種檢索方式和異構數據庫間的互操作,提高貝葉檔案資源檢索的效率,實現跨庫資源共享和開發利用。
3.2.1 確定著錄對象及資源類型
界定著錄對象的范圍是提高著錄準確性和針對性的前提。以貝葉為記錄載體的檔案是貝葉檔案元數據的著錄對象。當前,貝葉檔案主要的資源類型是貝葉檔案本體和經數字化后形成的貝葉檔案圖片和視頻等。
3.2.2 提煉貝葉檔案資源屬性
貝葉檔案具有材質特殊、外觀各異、尺寸不一、裝幀各具特色、語種眾多、書寫方式多樣等特點。為使貝葉檔案元數據框架資源描述更全面、更具針對性,有必要對貝葉檔案的資源屬性進行分析和提取。貝葉檔案資源屬性可分為身份識別、內容屬性、外部物理屬性和保護屬性4個部分[10]。
一是身份識別。主要用于對貝葉檔案數字資源的定位和管理。參考EAD標識符對貝葉檔案資源的標識符、資源類型、來源等進行身份識別號碼的編制與設計,為檢索提供唯一的識別號和代碼,同時還能表明資源的類型、來源等信息。
二是內容屬性。主要用于貝葉檔案的資源描述和檢索?!皹俗R符”“題名”“時間”“地點”“相關人物”不僅能對貝葉檔案信息進行描述;還能提高資源組織的效率,提供編號檢索、題名檢索和人物檢索等多種檢索方式,提高檢索的效率和準確度。“文字”是筆者新增的自定義核心元素,用于描述貝葉檔案所使用的“語種”“書寫方式”“書寫風格”“字跡顏色”,通過分析不同時期和地區流行的語種和書寫風格就可以推斷出貝葉檔案產生的年代和地區;其中“字跡成分”也可用來推斷貝葉檔案的年代,還能為修復貝葉檔案字跡提供依據。因此,“文字”這一新增元素對于判斷貝葉檔案的來源具有重要作用?!罢薄案袷健蹦軌蛎枋鲐惾~檔案的主要內容信息和數字化后的電子形態,幫助用戶快速高效地獲得所需資源。
三是外部物理屬性。用以描述資源實體的外觀信息,如貝葉檔案的材質、形狀、尺寸、裝幀形式、葉數、行數等。旨在通過對貝葉檔案外部物理特征的描述,使利用者和檔案工作者對貝葉檔案有更加直觀了解,突出貝葉檔案外形的特點,并為其后續保存和修復提供依據。
四是保護屬性。用以實現對貝葉檔案實體的管理和保護。“護經夾板”是新增的自定義核心元素,這也是貝葉檔案特有的元素,貝葉檔案通常配有上下兩個夾板來進行保護(護經夾板通常指的是貝葉檔案上下的兩個木板,類似于書籍的封面,起到保護內容的作用,還能防止檔案邊緣破損),不同的材質保護效果不同,例如樟木制成的夾板能夠較好的防蟲;可以根據夾板的“材質”和“尺寸”等信息,發現并更換保護效果不理想的夾板?!氨4鏍顟B”是另一個自定義核心元素,通過“基本性能”(色差、酸度、含水率)、“病害類型”(殘缺、破損、鼠嚙、字跡褪色等)和“完殘程度”(保存完好、輕度破損、中度破損、嚴重破損、特殘破損)[11]這3個描述項,反映貝葉檔案本體的保存狀況和物理狀態。一方面,能夠使管理者全面掌握貝葉檔案保存狀況的信息,采取有效的分級保護措施來加以改善和治理;另一方面,能夠使用戶對貝葉檔案保存狀態有直觀的了解。
DC元數據作為貝葉檔案元數據設計的主干框架,為元數據框架提供普適性的元素;EAD作為元數據設計的核心借鑒元素,提供更具針對性的元素,用于描述貝葉檔案內容和管理方面的元素;CDWA作為輔助借鑒元素,提供具有貝葉檔案特色的“外觀物理屬性”元素,突出貝葉檔案的外觀物理特征。
DC元數據具有廣泛的適用性和兼容性,能夠與其他類型元數據建立映射,是基礎元數據的最佳選擇。選用DC元數據中的“題名”來描述貝葉檔案的標題和名稱;“相關人物”來說明與貝葉檔案有關聯的人物,如原創作者、抄寫或謄寫者、譯者等;“日期”用來描述貝葉檔案的制作日期、發現/出土日期、收藏日期等重要的時間節點;“格式”用來描述貝葉檔案數字化后的電子形態。
EAD檔案元數據標準具有簡潔、靈活和可擴展性的特點,能廣泛支持文本和文字處理系統。貝葉檔案與紙質檔案一樣具有檔案編號、裝具和館藏單位等信息,本方案將復用EAD標準中的“標識符”“摘要”“裝具”“館藏單位”這4項核心元素項來描述貝葉檔案的內容和館藏等信息。
貝葉檔案的載體為貝葉材質較為特殊,其外部物理特征極具特色,因此在元數據框架中應納入貝葉檔案的材質、裝幀、尺寸等元素,突出貝葉檔案的載體特點。本方案借鑒CDWA“外部物理特征”中的“材質”“裝幀”“尺寸”等元素來描述貝葉檔案的外部特征。

表1:貝葉檔案元數據框架
元數據框架設計以貝葉檔案資源特征為核心,借鑒EAD、DC、CDWA這3個元數據標準,運用分類和分層的思想,將元數據按照功能分為描述性元數據和管理型元數據,將元素分為核心元素、子元素和部分孫元素,層級清晰明確。最終設計的貝葉檔案元數據框架,共有20個核心元素、18個描述性元數據、2個管理性元數據。
設計統一規范的貝葉檔案元數據框架是貝葉檔案數字化建設、信息資源整合、利用、共享的基礎性工作。目前,在國內貝葉檔案研究領域還沒有統一的、系統的、成熟的元數據標準。為實現貝葉檔案信息資源的整合共享、組織檢索、知識發現提供技術支持,本文遵循元數據設計的原則,借鑒國際上相關的成熟的元數據標準,結合貝葉檔案自身的特點,制訂出貝葉檔案元數據核心框架元素。以期通過貝葉檔案元數據標準的研究,實現貝葉檔案在網絡環境下的高效檢索、跨平臺資源共享和開發利用。但是由于貝葉檔案內容涉及范圍廣、制式多樣,本文提出的貝葉檔案元數據框架還存在諸多不足,要全面且準確的描述貝葉檔案的本質特征,仍需進一步深入探討。