楊 蕾 李金芮
(1.武漢大學圖書館 湖北武漢 430072)
(2.暨南大學圖書館 廣東廣州 510632)
公共數字文化資源整合需要圖書館、博物館、檔案館、文化館、美術館、科技館等多個公共文化服務機構主體的共同參與,所整合的信息資源對象囊括了眾多學科門類,數量極其巨大,類型特別繁多。主客體的復雜性必然導致公共數字文化整合中多種元數據標準并存、不同信息系統的互操作難以進行等問題。然而在網絡環境下,用戶更希望建立一個統一檢索平臺,“一站式”地獲取各類公共文化服務機構的數字資源。紛繁復雜的元數據標準與公共數字文化資源需求接口單一性之間的沖突,使得元數據互操作問題的解決勢在必行。本文將對國外典型項目的元數據互操作方式進行調查分析,探討國外在元數據互操作方面所采取的多元化策略,從而為我國提供某些借鑒與參考。
元數據的互操作是指在由不同的組織制定與管理且技術規范不盡相同的元數據環境下,要向用戶提供一個統一的數據檢索界面,確保系統對用戶的一致性服務。也就是說,元數據互操作問題就是不同元數據格式間的信息共享、轉換和跨系統檢索等相關問題。元數據的互操作是分層次的,因此互操作問題也必須分層次解決。曾蕾提出的三級(模式級、記錄級、倉儲級)互操作框架(見表1)是本次調查的主要依據。該框架在時間上涵蓋了元數據從標準構建、記錄產生到檢索應用的全過程,又兼顧了信息資源描述從元素、記錄到框架模式的不同深度,其歸納的每個級別的主要操作方式基本體現了目前元數據互操作的發展現狀。
本文選取了世界數字圖書館(WorldDigitalLibrary,WDL)、國際敦煌項目(International Dunhuang Project,IDP)、歐洲數字圖書館(Europeana)、歐洲Michael Culture項目、美國記憶(American Memory,AM)、美國公共數字圖書館(Digital Public Library of America,DPLA)、英國聚寶盆(Cornucopia)、日本國會圖書館等八個國外公共數字文化資源整合的典型項目,通過登錄各項目網站并查閱與其信息資源建設相關的文獻,對各項目的元數據互操作方式進行了調查。調查顯示,目前國外公共數字文化整合項目所采用的互操作方式主要包括:采用統一的元數據標準、應用規范、映射等模式級互操作方式,數據復用與集成等記錄級互操作方式,協議、API等倉儲級互操作方式。

表1 元數據的三級互操作框架
采用統一的元數據標準是指在一個聯盟內或一個知識庫內采用統一的元數據標準,以獲得高度的一致性。理論上講,這是一種從根本上解決元數據互操作問題的方法。雖然曾蕾的元數據三級互操作框架中并沒有提到“采用統一的元數據標準”這一方式,但是因為這一方式也被一些資源整合項目所采用,且該方式也發生在數據記錄被創造出來之前,故筆者把這一方式也歸為模式級的互操作方式。
世界數字圖書館(WDL)一個杰出的貢獻便是在項目規劃之初就逐步建立了一套一致的、高質量的元數據標準,對來自全球的資源重新進行統一描述和編目,確保了各合作伙伴在資源組織過程中的一致性。WDL委托美國國會圖書館協同其他成員機構確定元數據、數字化和文件傳輸標準,設計人員開發了一個支持元數據需求的新的編目應用程序。WDL的數字內容采用杜威十進分類法進行分類,按照主題進行組織。成員機構按照通用的國家或國際編目系統的規則制作元數據,最后由WDL進行統一的補充。每一個條目固定的元數據包括標題、描述、地點、時間、主題、條目類型、機構及語言等,附加字段提供了條目的物理特性或其他相關主題信息。在WDL多項元數據元素中,令人印象最深刻的一條是對每一項的“描述”,它回答了“這一項是什么和它為什么意義重大”的問題,由館長和其他專家共同撰寫的這些內容為用戶提供了至關重要的參考信息,這些是為激發學生和廣大公眾對了解所有國家文化遺產的好奇心而設計的。
英國MLA的聚寶盆項目也采用了一個統一的元數據標準——RSLP資源集合描述標準(RSLP Collection Description)。RSLP資源集合描述項目是英國研究支持圖書館計劃(Research Support Libraries Programme,RSLP)資助的一個項目,目標是使得RSLP資助的所有項目能夠以一種一致且機器可讀的方式描述資源集合。根據項目組提出的資源集合描述模型,聚寶盆的數字資源均由三個元素區構成元數據標準進行描述,即資源集合(Collection),資源集合位置(Location)以及與資源集合的收集、管理等相關的個人和機構(Agent),每個元素區內包含若干個元素。
對于目前能提供的數字化作品和影音文件分別僅為10244件與6000多件的WDL和聚寶盆而言,采用統一的元數據標準是從根本上解決元數據互操作問題的方法,這一方法在不用耗費過多人力物力的前提下,有效地確保了各合作伙伴在資源組織過程中的一致性。但是在不同應用領域和應用層次已存在多達40余種元數據格式的開放信息環境下,對于資源整合量達數以億計的其他資源整合項目而言,這種方法并不總是可行或現實的。很多公共文化服務機構的數字資源已經采用了不同的元數據描述方式,在對其進行整合的過程中若采取一種統一的元數據標準,將不利于充分利用合作機構已有資源,從而耗費巨大的人力、物力和財力。需要整合的資源數量越大,無謂的支出就會越多,這會使經費本來就很有限的公共數字文化資源整合項目難以正常運行。這種情況下,就有必要尋求其他的元數據互操作方式來解決問題了。
元數據應用規范(Application Profiles)是一種元數據標準規范的應用形式,也可以看成是一種規范的元數據方案。允許在應用中采用組合來自多個不同的元數據標準中的數據元素,并對“混合型”元數據方案從內容和形式上進行規范,保證具有相似的基本結構和通用元素。
歐洲Michael Culture項目以都柏林核心集(DC)作為數字資源描述與保存的基本格式,在這個基本格式的基礎上通過組合Michael項目自建元數據、RSLP資源集合描述等元數據格式,建立專門的Michael-EU都柏林核心應用規范(MICHAEL-EU Dublin Core Application Profile,MICHAEL-EU DCAP)。MICHAEL-EU DCAP 由 28個要素構成,其中11個來自DC,6個來自DC Terms,9個來自Michael項目,2個來自RSLP(各要素與源元數據格式的對應關系如表2所示)。這種應用規范的建立確保了Michael Culture項目的元數據格式具有相似的基本結構和共同元素,并具有不同的深度和細節以滿足不同的需要。
美國公共數字圖書館(DPLA)在Europeana數據模型(Europeana Data Model,EDM)的基礎上建立了新的數據模型DPLA元數據應用規范(Metadata Application Profile,MAP),該應用規范除了擁有EDM特定的類與屬性之外,還組合了以下元數據格式的定義:RDF(ResourceDescription Framework,資源描述框架)和 RDF Schema,ORE,DC 元素的名稱空間、條目和類型,基本地理(WGS84緯度/經度)詞匯(DPLA MAP的基本數據模型見圖1)。
元數據映射(Metadata Mapping/Metadata Crosswalks)又稱元數據對照,是從一個元數據格式的元素、語義和語法到另一種元數據格式的元素、語義和語法的映射,通過一對一、多對一及多對多等多種方式映射,以解決語義互換及統一檢索問題。相較于其他互操作方式,元數據映射在項目創建的初始階段應用,可以從根本上提高互操作的范圍,且采用這一方式的簡易程度高于采用統一的元數據標準這一方式,因此被公共數字文化資源整合項目廣泛采用。

表2 MICHAEL-EU DCAP元數據與源元數據的對應關系
幾乎所有的資源整合項目均結合實際需求,采用了元數據映射方式解決互操作問題。如Europeana將自建的元數據標準Europeana Data Model(EDM)與美術館、圖書館、檔案館和博物館等不同類型文化機構常用的元數據標準如 DC,MARC,EAD(Encoded Archival Description,檔案編碼描述格式標準),CIDOC-CRM(CIDOC Conceptual Reference Model,國際文獻工作委員會概念參考模型)和LIDO等均建立了映射關系,以與來自不同機構的原始文獻建立關系,并滿足數字資源采集、檢索和使用的需求。
歐洲Michael Culture項目為了實現模式級的互操作,也在自建的Michael數據模型與其他常用的元數據標準如 LOM(Learning Object Metadata,學習對象元數據),DC,ISAD之間實現了映射,建立映射關系的還包括由參與機構采用的其他元數據標準,如TEL、KB等。這些Michael映射關系被用于創造遷移工具以將其他機構的現有內容導入Michael數據庫,從而最小化文化機構需要進行的人工輸入,并且建立盡可能多的現有注釋。
美國公共數字圖書館(DPLA)在EDM基礎上建立的新的數據模型DPLA MAP(見圖1)幾乎可以與任何元數據標準相連接。 目前,MAP已經與 DC、MODS、METS-wrapped MODS、MARC XML以及一些本地元數據規范建立了映射關系,并且能與VRA Core(Visual Resources Association Core,美國可視資料協會核心類目),CDWA(Categories For The Description Of Works Of Art,藝術作品描述目錄)以及CIDOC等其他元數據標準和應用規范兼容。另外,如果一個元數據標準已與EDM建立了映射關系,那么它也能映射到 DPLA MAP。

圖1 DPLA MAP的基本數據模型[12]
國際敦煌項目(IDP)提取了一套標準的基層元數據,與國際標準保持一致,并與它們建立了映射關系。例如,IDP映射了DC所定義的十五個基礎的核心元素(題名、創建者、主題、說明、出版者、其他責任者、日期、類型、格式、識別字、來源、語種、關系、覆蓋范圍和許可證)。
元數據映射轉換準確、轉換效率高,是一種比較有效的元數據互操作方式,但同時也有其局限性:一是元素之間無法做到避免完全映射帶來的信息丟失問題;二是這種映射方法在涉及的元數據格式數量較少時可以很好地發揮作用,但隨著元數據格式數量的增多,映射的工作量將大大增加,應用效率從而明顯降低。因此,元數據格式映射只能作為元數據互操作的暫時解決方案,而無法徹底解決元數據互操作問題。
公共數字文化資源整合項目通常是對已采用不同元數據描述標準的多種公共文化服務機構的數字資源進行整合,在項目建設過程中,很多元數據記錄已經產生,映射等模式級互操作方式無法有效滿足已賦值的元數據互操作需求,這就需要借助復用、集成等方式,實現各機構的元數據記錄間的整合。復用與集成方式遵循元數據組織模塊化原則,一條元數據記錄的各個組成部分可以被當作不同的獨立單元,按需要將不同元數據源的這些單元組合在一起,或重新應用這些單元來產生新的記錄。在模塊化的元數據環境中,各種標準、詞表、應用規范和其他模塊中的不同類型的元數據元素,都可以按互操作的方式組合在一起。
公共數字文化資源整合項目實現復用與集成的方式以RDF/XML為主。RDF是W3C提出的基于XML的用于描述Web資源的標準,它提出了一個簡單的模型用來表示任意類型的數據,即“資源—屬性—值”三元組。RDF通過這個三元組來提供元數據的基本使用模式,并通過XML Namespace機制引用已有的元數據格式中的元素定義,從而直接使用合適的元素作為屬性名來描述相應的資源。因此,只要有一個系統能解析RDF的標準描述框架,就能解讀相應的元數據格式。
Michael Culture項目采用的SKOS(Simple Knowledge Organization System,簡單知識組織系統)核心詞匯應用了RDF模型。RDF為描述對象及其屬性、相互關系及分類(類目)提供了一個簡單的數據形式。使用RDF能使數據通過語義網絡應用程序和其他RDF數據連接和(或)合并。在實踐中,這意味著數據源能夠以分散的方式分布在網絡中,但仍能被應用程序以新穎和意料之外的方式有效地組合并集成。
Europeana的數據模型 EDM綜合應用了多種元數據標準,如將 OAI-ORE(Open Archives Initiative Object Reuse and Exchange,開放檔案協議數據復用與交換)用于不同數字對象及其衍生形式組織管理,將DC用于描述,將SKOS用于概念詞匯的選擇與表述(見圖2)。應用RDF可以靈活調用上述元數據標準集成與復用,而且可以保存元數據并支持互操作。此外,為了適應語義網的發展,Europeana將其數字資源的相關數據都采用OpenLink Virtuoso或4Store等RDF存儲方式,其目的是為了方便在語義環境中,Europeana的元數據可以通過關聯數據有效揭示,提高資源可用性。
公共數字文化資源整合項目通常由多個機構合作完成,整合的數字資源多為分布式存儲,且存在由于規劃導致的異構狀態。此時跨庫檢索面臨的一個主要問題是檢索結果無法以系統一致的格式顯示,同時分布式獨立元數據資源還存在另一個問題,即每一個元數據源的提供者都可能各自使用不同的元數據標準來建立數據記錄。解決這種問題可以通過定義一個公認的、彼此遵循的檢索協議開展倉儲級的元數據互操作。此協議應該滿足以下基本條件:本身具備互操作性;允許用戶在協議范圍內建立滿足自己特殊需要的元數據格式;具有可操作性,簡單、靈活且易于遵循。
支持元數據互操作的協議有很多種,如OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting,開放檔案元數據收割協議)、Z39.50、ZING(SRU/SRW)等,公共數字文化資源整合項目根據建設的需求可選擇應用。Europeana同時支持 OAI-PMH、Z39.50、SRU三種協議,其統計顯示:超過70%的館藏支持OAI-PMH協議,27%的館藏支持Z39.50協議,3%的館藏支持SRU協議。日本國立國會圖書館根據SRU/SRW、Open-Search等協議,能夠對122個數據庫進行跨庫檢索。
OAI-PMH協議在被調查的公共數字文化資源整合項目中使用率最高,而且功能完善。OAI-PMH協議是一個在分布式網絡化環境中獲取元數據信息的標準協議,它通過定義一個標準化的接口,使網絡服務器能夠將存儲其中的元數據有選擇地提供給需要這些數據的外部應用程序或其他服務器。
美國記憶(American Memory,AM)利用OAI-PMH協議不僅實現了參建機構的元數據互操作及采集整合,并以此為途徑將其資源開放給其他相關項目使用。AM首先將來源于AM、全球門戶(Global Gateway)、印刷品及圖片部在線目錄(Prints&Photographs Division Online Catalog)、美國編年史(Chronicling America)和其他參建機構的元數據進行采集整合;然后針對不同類型文獻的元數據分別進行聚類,大致分為圖書、手冊、地圖、海報、影片、音頻、期刊等十類;再根據各類別的具體情況,分層次提供基于OAI-PMH協議的開放采集,其中照片類的元數據集最多,共有27個數據庫可供采集,圖書可采集數據庫有11個,大多數類別中僅有一個數據庫開放。此外,為了滿足用戶對不同格式元數據的需求,AM提供了OAI-DC、MARC21和MODS三種格式的元數據便于采集,并且還提供一些遵守OAI-PMH協議的、預先編制的元數據采集請求碼供有需要的機構參考(見圖3)。

圖2 EDM的RDF構成及來源
公共文化服務機構為了支持遠程和平臺調用自身資源,還可以通過提供本機構的API來實現元數據記錄的互操作。 API(Application Program Interface,應用程序接口)功能是將系統原有的登陸方式、數據的檢索與瀏覽、數據管理與更新等操作及參數按照某種協議進行封裝,外部程序就可以按照封裝后的調用方式通過API實現與系統的數據交互。
日本國立國會圖書館為了滿足其它系統對NDL Search資源和服務的調用,提供了遵循Z39.50協議的API。 外部機構在安裝 NDL Search的 API后可以將國立國會圖書館的數據導入并與本機構的數據進行整合,從而提供更高質量的服務。歐洲數字圖書館也提供了Europeana API,允許任何人通過建立應用程序來搜尋和檢索Europeana倉儲中豐富的文化遺產對象。Europeana API使用REST標準技術來調用HTTP,并以JSON格式返回響應結果。Michael Culture的發布模塊也包括了一個基于REST標準技術的API,使用簡單的HTTP請求和XML響應來搜尋和檢索記錄。用戶可以通過以下三個簡要的步驟使用DPLA提供的API:①從DPLA申請一個API秘鑰;②啟動瀏覽器并在地址欄中輸入請求;③讀取響應。
利用API開展元數據互操作的優勢在于:API是對操作及操作參數和功能調用的封裝,與內容無關;服務提供方通過調用API進行解析和鏈接而獲取資源與服務,不必再根據內容的變化而不停地維護資源鏈接,從而大大降低了工作負擔。
除了以上常用的元數據互操作方式外,有的項目還應用了一些其他的互操作方式,如衍生(Michael Culture項目的數據模型就是由RSLP資源描述框架和DC元數據資源描述協議衍生而來)、注冊(如Europeana的元數據注冊系統Europeana Metadata Registry,EuMDR)、關聯數據(如Europeana Linked Open Data)等。值得指出的是,目前國外公共數字文化資源整合項目所采用的互操作方式不僅僅局限于某一種方式,而是在模式級、記錄級和倉儲級各層級綜合應用多種方式實現或促進元數據的互操作。
長期以來,我國圖書、檔案、博物等資源在分類標準、著錄規則和描述習慣上存在巨大差別,不同系統間的互操作常常難以進行。從目前的實踐看,我國公共數字文化資源整合的成功案例本來就很少,其中能真正實現元數據互操作的項目則更是鳳毛麟角。在這種形勢下,借鑒國外在元數據互操作中積累的經驗顯得更為迫切。根據國外各項目的成功經驗,我國可以從以下幾個方面著手改進元數據互操作問題:
(1)將元數據互操作納入項目建設規劃。通過調查發現,國外項目開展的模式級互操作方式是最多的。這是因為在項目建設初期,開展模式級互操作的方式越及時、越多樣,工作量和工作難度相對越小。所以,在我國公共數字文化資源整合項目建設過程中,應在項目規劃階段就考慮元數據互操作問題。首先應調查了解相似項目和相關資源,選擇或構建一種適合當前資源環境的元數據描述方式,避免項目建成后再去彌補和修正。
(2)構建統一的元數據模型。公共數字文化資源整合項目的參建機構性質多樣,所采取的元數據標準存在很大差異。即使機構的性質相同,由于自身一些固有的特點,所采用的標準也不盡相同,如圖書館通常采用MARC,檔案館采用EAD,而有的博物館則采用DC。在這種情況下,建立一個統一的元數據模型十分必要。

圖3 AM提供的基于簡單DC格式的OAI請求內容(部分)
(3)推進多種技術在元數據互操作中的綜合應用。從國外的實踐可知,以某種單一的方式徹底解決元數據互操作問題是不大現實的。我國公共數字文化資源整合項目采用的元數據互操作方式主要集中在映射和協議等方面,單一的方式會直接影響到互操作的廣度和深度,所以豐富元數據互操作方式是目前我國公共數字文化資源整合項目面臨的主要問題。綜合采用映射、應用規范、RDF/XML、協議、API等多種方式促進或實現模式級、記錄級、倉儲級各級別的元數據互操作尤為重要。
[1] 陳虹濤,李志俊.元數據的標準規范及其互操作性[J].情報雜志,2005 (7):93-95.
[2] Chan L M,Zeng M L.Metadata Interoperability and Standardization-A Study of Methodology Part I[EB/OL].[2014-05-02].http://dlib.org/dlib/june06/chan/06chan.html.
[3] Zeng M L,Chan L M.Metadata interoperability and standardization-A study of methodology,Part II[EB/OL].[2014-05-02].http://mirror.dlib.org/dlib/june06/zeng/06 zeng.html.
[4] 申曉娟,高紅.從元數據映射出發談元數據互操作問題[J].國家圖書館學刊,2006(4): 51-55.
[5] WDL.關于世界數字圖書館:背景[EB/OL].[2014-05-02].http://www.wdl.org/zh/background/.
[6] 張衛東,趙紅穎,李洋.歐美圖書檔案數字化融合服務實踐及啟示[J].圖書情報工作,2013(6): 23-27,22.
[7] About Cornucopia[EB/OL].[2014-05-02].http://www.co rnucopia.org.uk/html/about.
[8] RSLP Collection Description[EB/OL].[2014-05-02].http://www.ukoln.ac.uk/metadata/rslp/.
[9] 秦雪平.圖書館檔案館與博物館數字資源整合研究——以世界數字圖書館為例[J].情報探索,2013(1):69-72.
[10] 韓夏,李秉嚴.元數據的互操作研究[J].情報科學,2004(7): 812-814.
[11] MICHAEL-EU Dublin Core Application Profile[EB/OL].[2014-05-04].http://www.ukoln.ac.uk/metadata/micha el/michael-eu/dcap/#DigitalCollectiondctermsextent.
[12] DPLA.Metadata Application Profile,Version 3 [EB/OL].[2014-05-04].http://dp.la/info/wp-content/uploads/2013/04/DPLAMetadataApplicationProfileV3.pdf.
[13] Europeana Professional.Metadata [EB/OL].[2014-05-06].http://www.pro.europeana.eu/web/guest/metadata.
[14] Christaki A,Tzouvaras V,Fresa A,et al.Achieving Interoperability in the MichaelPlus Project[EB/OL].[2014-05-06].http://www.delos.info/files/pdf/DELOS%20Multimatch%202007/Papers/8tzouvaras.pdf.
[15] DPLA.An introduction to the DPLA metadata model[EB/OL].[2014-05-06].http://dp.la/info/wp-content/uploads/2014/03/Intro-to-DPLA-metadata-model-2014.pdf.
[16] IDP.技術基礎構造[EB/OL].[2014-05-08].http://idp.dha.ac.cn/pages/technical_infra.a4d#5.
[17] Europeana Professional.Definition of the Europeana Data Model elements[EB/OL].[2014-05-08].http://pro.europeana.eu/documents/866205/13001/EDM_v5.2.2.pdf.
[18] Haslhofer B,Momeni Roochi E,Schandl B,et al.Europeana rdf store report[EB/OL].[2014-05-08].http://eprints.cs.univie.ac.at/2833/1/europeana_ts_report.pdf.
[19] 孔慶杰,宋丹輝.元數據互操作問題技術解決方案研究[J].情報科學,2007 (5): 754-758.
[20] Freire N,Reis D.Guidelines for preparing a Z39.50/SRU target to enable metadata harvesting [EB/OL].[2014-05-10].http://cyberdoc.univ-lemans.fr/PUB/Cf U/Journee_UNIMARC_Lyon/TELplus-D2.3_v1.0%5B1%5D.pdf.
[21] 陳瑜,尹銘莉.日本國立國會圖書館新檢索服務“NDL Search”介紹及分析[J].圖書館雜志,2013(5):81-84.
[22] McCallum S H.Library of Congress metadata landscape[J].Zeitschrift für Bibliothekswesen und Bibliographie,2003,50(4): 182-187.
[23] The Library of Congress.OAI-harvestable records for digitized historical collections[EB/OL].[2014-05-20].http://memory.loc.gov/ammem/oamh/index.html.
[24] Europeana.IntroductionofEuropeanaAPI[EB/OL].[2014-05-20].http://www.europeana.eu/.
[25] DPLA.API Basics[EB/OL].[2014-05-20].http://dp.la.
[26] 宋琳琳,李海濤.大型文獻數字化項目元數據互操作調查與啟示[J].中國圖書館學報,2012(9): 27-37.