內容摘要:分析了敦煌學信息資料數字化特點及其資源建設的特點,提出了元數據的內容及設計原則。
關鍵詞:敦煌文獻;數字圖書館;元數據
中圖分類號:G250.76 文獻標識碼:A 文章編號:1000-4106(2007)03-0086-05
一 元數據及元數據方案剖析
計算機技術及現代信息處理技術的發展,使得潮水般的文獻信息資料紛紛登上網絡媒體,已構成對圖書情報界的挑戰。目前,互聯網上使用的引擎技術在編制方面又過于簡便、不能滿足專指性很高的檢索。因此,對網上資源的開發、管理和有效利用是廣大文獻信息工作者面前的重要課題。文獻信息資料工作急需完成一個重要角色的轉換,即從傳統的文獻收藏者變成社會信息的管理者和發布者,圖書館將成為信息集散地和發布中心。與傳統圖書館不同的是它將從原來面向由印刷技術為依托的紙質文獻載體為處理對象,轉變為以網絡技術為依托的數字化文獻信息資源。
我們知道,傳統文獻信息資料是依靠圖書館分類、編目工作,組織文獻資源的整序管理并提供用戶服務的,而在網絡環境下數字資源已逐漸成為信息資源的主流,僅僅依靠傳統的技術和方法,將很難適應形勢的發展。
互聯網上所有的應用都是建立在協議、標準的基礎上,這也是當代信息資源開發的基礎。為了能夠適應現代計算機技術和網絡環境中信息資源的組織、管理、存儲及傳輸和檢索,20世紀末,不同版本的元數據標準應運而生。
元數據是關于數據的數據一般定義為,關于數據的數據(data about data),也稱為描述數據的數據(date that describe data),是有效地組織與處理任何數字化文獻信息資源的工具。在數字圖書館中,它提供完整的數據描述形式,為分散的、由多種數字化資源有機構成的信息體系提供規范、普遍的描述方法和整合工具與紐帶,是廣泛分布的數字圖書館資源站點具有充分的互操作性和可擴展性的基礎,是提供數字圖書館中資源描述、資源發現、資源處理、資源評價與排序以及資源的人機交互和理解的基本要素。
國際圖書館協會聯盟(IFIA)對元數據的定義是:描述資料的資料,可用來協助對網絡電子資源的辨識指示其位置的任何資料。
從元數據的定義出發,我們可以認為傳統圖書館的編目工作以及其后由計算機自動生成的MARC數據是元數據和元數據產品,但如果從更嚴格、更科學的意義上講,后者僅僅是繼承了前者的思想體系,其功能則不可同日而語。
DC(Dublin Core)元數據也稱為都柏林元數據,是目前世界上最具影響力的元數據格式,由美國OCLC公司發起,1995年在美國俄亥俄州的都柏林鎮召開了第一屆元數據研討會,提出了都柏林核心元素集(Dublin Metadata Core ElementSet)。其目的是通過對信息數字化及網絡資源的描述、管理和定位、評估,為非專業用戶提供一種易于掌握和使用的網絡資源著錄格式。
二 敦煌學信息資料數字化特點及其建設思路
在敦煌學信息資源中,一個將被元數據描述的對象往往是一個較為復雜的復合對象,是一個抽象對象的集合體。它包括原始對象、對象的復制品、數字復制品。在進行數字化資源建設時,應做好前期調研工作,制作計劃。在制定業務工作標準時應有趨前意識,即主動靠攏國際標準,并兼顧敦煌學信息資源的特點及用戶的需求特點。對文獻類型的信息資源應遵照國際互聯網有關框架協議及國際上通用的工作規范和標準。對文物類型的信息資源則應當根據其自身特點、注重對描述性元數據的拓展。
敦煌學研究信息資源具有與其他學科資源的巨大差異,表現在以下幾個方面:1.類型復雜、文字多樣。主要包括:印刷型圖書、地方志、手稿、畫稿、出土文書、報刊論文等。在文字記錄方面則有西文、俄文、日文、中文等,其中中文又包括了古代漢語及中國少數民族語言文字,如:吐蕃文、回鶻文、西夏文,以及梵文、波邏迷文、栗特文、突厥文等。2.資源分散。敦煌學資源廣泛分散在世界各地的圖書館、資料室、博物館、網站及相關的管理部門等。3.載體形式多樣。無論是傳統印刷型,還是數字化資源以及音像制品等各類資源均有多種存在形式。在對敦煌學文獻信息資源描述時應注意與一般圖書文獻著錄方式有所區別。它不僅是對文獻資料所含內容及其紙質載體及其文物衍生品本身的描述,而且在很大程度上要求對描述該文獻所反映的原始事物對象的具體說明。因此,一個完整的敦煌學元數據,實際上是對原始文物(壁畫或者雕塑)及其衍生品(攝影或臨臨摹作品)、數字化衍生品和研究全文文獻的全面揭示和描述。例如文物原件的出土(發現)時間及所在地點、具體方位,臨摹作品及數字化產品都需要全面的三位一體的描述。
對于壁畫元數據的使用者來說,首先需要檢索的是石窟中原始壁畫的相關信息資料。這就要求對原壁畫中的信息進行盡可能全面細致而又客觀的描述,而對于以此為基礎再加工創作的其他形式的衍生作品也應當充分揭示與其原始壁畫的內在聯系。如原始壁畫所在洞窟號、窟內位置、時代、原作品大小等。這樣將能夠便用戶對照原文物方便瀏覽。
(1)以一幅原始壁畫為基本素材,經過各專業門類的藝術家再創作,可產生不同版本、不同類型的衍生品。它們是由于在不同的時期、使用不同的技術手段和藝術手法,以及不同的載體形式出現的文獻信息資料。
(2)由同一幅原始壁畫及其臨品和攝影作品又可產生不同的數字圖像,它們的大小、分辨率等方面可能有所差別。由于臨摹者自身的藝術素養、對原作的理解及繪畫技法、顏料、紙張、裝裱形式等情況不同而形成的各種臨摹作品。
(3)敦煌壁畫是依附在洞窟地仗上的易損文物,隨著時光流逝,自然因素和人為因素的共同作用,原始壁畫將出現不同程度的老化,色彩逐漸變得模糊不清。以此為原始素材而創作的各種藝術品也將會因客體對象的表現特征不同而對創作者提供不盡相同的信息特征,使作品存在極大差異。如以某洞窟的同一幅壁畫為例,上個世紀初期拍攝的照片與現代人拍攝的照片就存在很大差異。
(4)敦煌壁畫、臨品、攝影作品及數字圖像在記載內容上是重復的,主要區別是載體不同。臨品和攝影作品復制了原始壁畫的內容,數字圖像又是洞窟原始壁畫和臨品及攝影作品的數字化虛擬再現,因此在元數據結構上,關于三者的記錄無法獨立存在,在著錄體系上必將形成三位一體,共同組成完整的元數據記錄。
敦煌學數字化館藏的基本特征是信息資源的數字化,一件文物(作品)往往不僅有其最原始的表現形式,通過數字化等過程又產生了一個或多個衍生品。這個過程包括:(1)對某洞窟一幅壁畫的拍照,分傳統的攝影及現代化的數碼攝像而形成的攝影作品和數字化產品;對以上作品翻拍及對膠片(底片)等的數字化文件的拷貝,由此形成的一系列數字化衍生品。(2)對某洞窟一幅壁畫(雕塑)作品的臨摹復制,形成的臨摹作品和復制品以及根據這資源進再創作而形成的系列衍生品。這就需要一種基本的信息組織和系統組織方法,為信息系統各層次內容提供規范定義、描述、交換、和解析機制,為分散的由系統環境提供互操作和整合的紐帶,為計算機智能地識別、處理、集成各種信息內容、信息過程和信息系統提供有力工具。
由于這些文獻資料很多都是以相關文物實體為研究對象的,與這些文物內容及其價值有密切關聯,應明確反映這部分重要事實。例如:某一洞窟內某幅壁畫在某一時間被某位藝術家臨摹形成一件繪畫作品,之后又被相關單位數字化處理,成為數字化產品,在著錄時,應盡可能詳盡描述相關聯的所有信息,包括洞窟空間方位、開鑿年代、編號、壁畫名稱、壁畫所在空間位置、臨摹作者、所用紙張及顏料類型、臨摹手法、收藏單位、版權、數字化時間、作品大小、所用機器類型、存儲在何服務器上、服務器型號等。此后,該壁畫作品不僅有其最原始的出版形式,某一研究領域的專業人員通過臨摹、拍照及數字化等過程又產生一個或多個衍生品,管理元數據也就應運而生。管理元數據的范圍很廣,一般包括:創建者元數據,用以表明誰擁有資源,誰承擔資源存儲的費用,誰有權改動甚至刪除資源等;存取權元數據,用來決定誰可以使用資源以及以何種方式使用資源等。若進行專題研究,則又形成該研究領域的專題文獻。該文獻中又包含若干幅攝像作品,也包括以上那位藝術家的那幅臨摹作品。它們與作者專題研究文獻中的信息內容已構成一個有機的整體,已成為原始文獻不可分割的一部分。因此,對于敦煌學文獻信息資源進行描述時,必須充分揭示涉及原始文物實體及其系列衍生品以及在文獻中交叉重復的再現作品。
在文獻信息資料實現數字化以后,還應當對數字影像作品及全文進行詳盡著錄。凡屬敦煌學研究范圍內的文物實體及其相關聯的信息資料都應在元數據框架內全面反映和充分揭示。
(1)洞窟內原始壁畫與其有關的研究論文、專著及臨摹作品、攝影作品及其數字圖像是原始文物的衍生品,是同一研究對象在不同知識層面的交叉再現,只是由于研究手段、技術方法不同,而形成不同的載體形態。文字型資料是根據壁畫特征,緊密結合相關資料綜合研究的成果,而臨摹作品及其攝影作品則是針對壁畫的原貌實體的客觀描述,而數字圖像,無論是針對原始文物或者衍生品則統稱為數字化再現。
(2)對于同一幅壁畫,由于研究的目的、方法不同,也將產生不同形式的文獻信息資料。如在攝影過程中使用的相機型號、用光、取景角度不同,也會產生不同的藝術效果。同一幅壁畫被不同的藝術家臨摹時,由于對原始作品的理解不同,采用的技法、紙張、裝裱形式不盡相同,也會產生風格各異的藝術作品。隨著時光流逝,周邊自然環境的變遷,受各種病害的侵襲,壁畫本體也會發生較大的變化,雖然是同一幅原始壁畫,但呈現在不同時期的人們面前的卻存在著極大的差異。
(3)同一幅壁畫及其復制品(臨摹作品、攝影作品及底片)利用不同方式(數碼相機、掃描儀等)形成的數字產品,由于所使用的技術手段及硬件設備不同、機器型號及性能不同,因此,產生的數字化圖像也存在著差異。它們在大小、分辨率、清晰度等方面可能有所差別。如:現存于莫高窟第257窟(北魏)西壁的“九色鹿本生故事”曾以攝影和臨摹及影視等各種藝術手段再現,據初步統計僅公開出版發行的就達十余種。其中有代表性的作品當屬著名畫家張大千先生及常書鴻先生的臨摹作品以及由敦煌文物研究所編,文物出版社1982年12月出版的《中國石窟 敦煌莫高窟》中的攝影作品。
對于壁畫研究者和欣賞者來說,首先要檢索的對象是洞窟內的原始壁畫。如需要深入研究,則根據需要檢索相關文獻資料及其系列衍生品。因此,壁畫元數據應首先提供壁畫的描述性元素,其次為相關文字型資料、壁畫復制品及數字圖像記錄。
由于敦煌文物在不同載體、不同時空、地域分布上對信息資源的著錄內容比較廣泛,因此,對同一描述對象的不同表現形式的相關信息及復制品、再現的數字化產品,要求在元數據體系框架內應當建立多重有效的關聯,使之彼此獨立而又相互連接。用戶只要檢索到其中一條記錄,即可由此方便地檢索到全部相關記錄。
不同形式的文獻信息資料。如在攝影過程中使用的相機型號、用光、取景角度不同,也會產生不同的藝術效果。同一幅壁畫被不同的藝術家臨摹時,由于對原始作品的理解不同,采用的技法、紙張、裝裱形式不盡相同,也會產生風格各異的藝術作品。隨著時光流逝,周邊自然環境的變遷,受各種病害的侵襲,壁畫本體也會發生較大的變化,雖然是同一幅原始壁畫,但呈現在不同時期的人們面前的卻存在著極大的差異。
三 關于敦煌學元數據方案的內容及設計原則
元數據方案是指數字圖書館中所使用的描述某類資源的具體對象時所有規則的集合,是提供數字圖書館數字模型的基礎。它一般包括了完整描述一個具體對象時所需要的數據項集合、各數據項語義定義、著錄規則和計算機應用時的語法規定。數字圖書館的運作,無論是存取過程還是檢索過程,都是以元數據方案為基礎實現的。元數據方案決定了數字圖書館的功能特征、運行模式和系統運行的總體性能。為分布式信息資源的發現和檢索奠定了基礎。敦煌學元數據方案的設計應當以三個方面的調查分析人手,1.著錄者,包括專業和非專業編目人員,以及管理者。2.使用者,指圖書館用戶。3.著錄對象,即被描述的資源。在標準的制定過程中,要充分考慮前兩者的需求和后者的特征,并在其間做一最佳平衡和組配。
(一)敦煌學元數據方案的內容
由于元數據本身就起到人機交互的橋梁作用,因此,元數據方案的設計必須充分考慮人機兩個方面的因素。包括:為用戶揭示文獻內部特征,而這些特征是為特定對象使用,元數據方持必須能夠滿足這些揭示需求;為系統開發人員提供管理型元數據等。完整的元數據方案,應該定義以下內容:
(1)資源描述型元數據方案,完整地揭示數字資源的內容屬性,包括特定知識域的核心元數據元素集、擴展集、限定方案,包括整語義定義、關系、數據類型以及重復、可選的規定等。
(2)管理型元數據方案,包括對數字資源外部屬性的描述,例如格式、類型、分辨率等等,常作為內容描述的補充。
(3)元數據置標方案,亦即怎樣“使用”元數據以SGML/XML/DTD/Schema/RDF等。給出命名空間。
(4)資源站點的元數據方案,對于資源站點的描述,包括各類站點相關屬性的標注,例如知識領域、站點能力、提問格式等。常用于開放式數字圖書館資源站點的注冊,經過注冊后其他查詢服務可以通過規范的服務接口直接訪問其中的數字資源。
(5)元數據體系映射方案及知識本體聯系,提供不同元數據體系間的動態映射、自動映射等,接受索引服務、查詢服務等其他服務的調用,并支持資源站點在知識本體層次上的聯系,以使系統能夠動態地轉發用戶的查詢請求。
(6)元數據著錄方案,定義關于元數據的數據,如何進行元數據的標注等。
(7)技術實現方案,包括定義對象包結構,內部存儲方式,索引方式,元數據抽取方案,結構化轉換方案等等。
(8)敦煌學元數據方案的標準化原則
元數據標準,一般包括語義層次上著錄規則和語法層次上的規定。語法層次上的規定有:描述所使用的元語言,文檔類型定義,使用什么語法,具有內容的元數據的格式(也可以包括內容數據,即Content)及其描述方法。
標準化是開發和利用信息資源的基本保障,數字圖書館的本質就是信息資源的開發利用與共享。敦煌學文獻信息資料數字化是一項浩繁的系統工程,從技術到內容、從工具到環境,都存在很多亟待解決的難題,只有采取統一的格式、標準和規范,才能保證信息表達、篩選、存儲、檢索、傳輸的順利進行;才能實現網絡的互聯互通,資源的共建共享,管理的井然有序;才能將各單位開發出來的信息資源按統一的格式組織起來,既能與國際網絡接軌,又能為各單位共享;只有使用統一的檢索標準建立起分布式的存儲和檢索系統,使分散在國內外的敦煌學信息資源能為廣大用戶方便利用。
敦煌學元數據方案的標準化具有廣泛的內涵。它包括元素著錄內容的標準化、同類型數字化信息資源的著錄所采用元數據的一致性、元數據方案所采用編碼語的統一性等幾個方面。
(三)敦煌學元數據方案的實用性原則
實用性主要指設計的元數據在著錄實踐時應較為簡單,易于掌握,在設計元數據框架時,對元數據的選擇應考慮其在一定范圍內的通用性,使其在實際應用中盡可能覆蓋多種相似或相近的對象實體,達到既能有效地控制元數據的數量,又能使編目人員及用戶簡便易用,提高工作質量及檢索效率。同時,對廣大用戶的使用需求,包括檢索習慣,對元數據的理解,接受程度等因素都應當認真考慮。因為制定元數據標準的目的是向用戶更充分的揭示信息資源(特別是網上資源),用戶的需要應當是最終衡量標準。因此,在結構與格式的設計、元數據的增刪、語法及語義規則的制定等方面要盡可能從用戶實際需要出發,增加系統與用戶之間交互式對話功能(如開放式的入口詞表、反饋元素的設計等)。尤其要考慮到著錄人員外,更多的是相關專業人士,如文物考古專家、文獻研究專家、文物保護專家等。
(四)敦煌學元數據方案的針對性原則
由于元數據應用的各類資源的各自特性不盡相同,著錄深度(如書目、內容和插圖等)和廣度(指相關的一批文獻的總體著錄)不盡相同,因此,無法只使用一種數據標準。因此,應針對敦煌學特色數據庫中的每一種類型資源選擇相應的元數據標準。唯有如此,才能在敦煌學資源的描述時更為準確、全面,且有利于資源的確認、檢索以及分類管理與利用。另一方面必須考慮到確定的某種標準應盡可能覆蓋多種相似或有相近特性的對象,以減少(專業或非專業)編目人員在選用適當元數據標準時的人為誤差,即必須考慮元數據標準在一定范圍的通用性。
(五)敦煌學元數據方案的互操作性原則,應具有支持對異構系統間的互操作能力。
元數據的互操作性體現在對異構系統問互操作能力的支持,即不僅能方便地為自己建立的各相關應用系統所操作,還應盡可能地為其他組織或機構所建立的應用系統所操作。互操作性好的元數據標準在與其他元數據標準進行映射、轉換和互聯時,能夠保證資源描述的準確性和完整性,即在所攜信息損失最小的前提下,可方便地轉換為其他系統常用的元數據。在設計敦煌學元數據標準時要非常慎重地考慮元數據標準定義的元素的語義和元數據結構兩個重要的方面,盡量選用國內外權威性機構制定和發布的元數據標準。
(六)敦煌學元數據方案的可擴展性原則。
可擴展性的基礎是模塊化,要求整個元數據體系和每個元數據模塊都可以擴展,通過復用、嵌接、擴展,和修改增加不同的模塊來形成和發展新的元數據,從而更加適應復雜的元數據互操作環境。一般是采用一個核心元數據模塊來描述那些基本和共通的內容,通過規范的擴展機制,允許應用領域或具體系統根據內容變化或功能需要,復用已有的或者定義新的元數據模塊或元素,核心元數據和被復用的或新定義的元數據(稱擴展元數據)共同組成應用元數據。由于敦煌學文獻信息資料所涉及的數字資源非常廣泛,而各類應用背景更為復雜,元數據標準只能提供最廣泛意義上的描述,可能會對一些具體應用要求更為細致精確的描述及某些特殊應用背景的內容未被納入。應允許使用者在不破壞標準內容(如元素的語義定義)的前提下,擴充一些元素、子元素或屬性值,以保證元數據及其描述資源在更大范圍內的良性發展。
(責任編輯 包菁萍)