謝明亮
(江蘇第二師范學院圖書館 江蘇 南京 210000)
元數據是用來描述圖書館資源內容、語義和服務的。隨著圖書館資源類型日趨多樣化,不可避免的產生元數據的多元化的現象(國內外比較有影響的元數據已有40余種),當對采用不同元數據格式的資源進行檢索利用時,就面臨著元數據整合問題。圖書館大多使用MARC對傳統資源進行描述,使用DC對網絡數字資源進行描述,但是MARC存在格式過于復雜、字段重復、記錄是程序性的而非描述性的等弊端。DC又過于簡單,對較為復雜的具有多等級層次關系的資源的描述顯得力不從心,這兩種元數據都無法很好地擔當起復合型圖書館元數據整合的重任。
MODS(元數據對象描述模式)是美國國會圖書館于2002年6月開發的,是以MARC為基礎的文獻編目元數據。MODS的元素來自MARC21的字段,采用XML作為編碼語言,是MARC21的XML簡略版[1]。MODS簡單易用,將 MARC字段重組成21個元素,開發者可以自行定義元素,自行選擇標記的名稱和含義。其字段標識是語言而不是文字,可以面向用戶。MODS是MARC的子集,絕大多數的元素、子元素和屬性都能在MARC中找到對應的字段,因而可與傳統圖書館的MARC進行映射。MODS利用的是XML的句法和規則來表達主元素、子元素和屬性,可以統一制定名稱和主題表,也可以自由選擇,具有較強的靈活性。MODS采用的多重結構描述,能很好地體現子元素之間、多個屬性之間的關系。所以,MODS既能描述結構復雜的傳統文獻信息,又能描述靈活多變的網絡數字信息,具有良好的擴展性[2]。
元數據整合的目標是實現同一圖書館異構資源之間,不同圖書館之間的資源交換和共享。目前元數據整合主要分為:聯邦式、收割式和倉儲式。聯邦式是參建圖書館遵循統一的標準,采用同種元數據,這種方式對參建單位的要求比較高,而且各圖書館已存在各種元數據,無法實現完全的統一;收割式是參建圖書館只要提供遵循OAI-PMH的元數據信息到訪問接口,其他圖書館可直接獲取元數據[3],這種方法可較好地實現元數據的互操作;倉儲式是將分散的、不統一的元數據通過映射轉換成集成的、統一的格式。
要實現收割式和倉儲式整合,需要尋找一種合適的元數據來充當OAI-PMH協議規范的元數據,并能很好地與其他元數據進行轉換和互操作。選擇這個元數據需要充分考慮傳統圖書館MARC數據的復雜性特點,以及數字資源多樣性、個性化等特點。MODS做為MARC的子集,能與MARC字段形成良好的對應,這是其他元數據所無法比擬的。MODS又具有簡單易用、靈活、可擴展性等優點,適合做為其他元數據轉換的中介。如美國國會圖書館主辦的美國記憶項目,將American Memory和Global Gateway中大約20萬條MARC記錄轉變為MODS格式,并支持OAI-PMH。英國曼徹斯特大學發起COPAC學術目錄項目,COPAC的書目格式為CURLMARC21,該項目計劃將其全部轉換為 MODS格式[4]。
MODS除了用來直接描述圖書館資源外,還可以用來整合元數據,為圖書館資源和數據的初步整合以及向更先進的資源互操作和共享方式過渡提供一種簡單的技術。筆者認為利用MODS整合圖書館元數據分為三種途徑:(1)在收割元數據時,將MODS作為標準元數據,與 MARC整合。(2)用MODS作為文件包的描述性數據,與MARC整合。(3)將圖書館已有 MARC和其他元數據轉換成MODS,或者充當各種元數據轉換的中介。簡言之,就是分為在源頭處初步整合、在傳輸中初步整合和在圖書館存儲倉庫中一次性整合。
當今世界上已知的元數據已達幾十種,但由于采用的格式、內容及存儲的環境不同,給相互之間的收集、交換、共享帶來了很大的麻煩。OAIPMH提供了一個基于元數據獲取的和應用的互操作框架,是一個元數據收割機制。數據提供者可以有自己的元數據標準,但它應能夠通過元數據映射,發布符合OAI協議規范的元數據。美國國會圖書館為OAI-PHM所建議的格式有3種:MODS、MARCXML和DC[5]。筆者認為對于圖書館來說,MODS最適合作為OAI-PMH的標準元數據,理由如下:
(1)雖然目前OAI-PMH把DC作為互操作的標準元數據,但是由于DC的15個元素集不能很好滿足不同類型部門的需求,現在采用OAI協議的多數組織都是通過對DC增加額外字段或者修飾詞限定來實現自身的特殊要求,但在實際操作中表示多重結構的關聯標記卻不能被識別,而且通過增加額外字段會使DC逐漸喪失簡單易用的特點。而MODS可進行多重結構的描述,能很好地滿足各種數字資源描述的需要,目前國外用MODS來描述資源的項目很多,如對數字幻燈片、音樂數字對象、電子學位論文,甚至是對建筑物的描述。
(2)目前圖書館目錄的共享主要采用Z39.50協議,操作的對象是MARC記錄,Z39.50服務器只支持Z39.50協議,不支持OAI-PMH,所以需要將OAI-PMH收割的元數據映射為MARC。DC的元素因沒有被有效地限定,所以在MARC與DC的轉換中會丟失大量的數據。MODS設計基礎是MARC21,其元素與 MARC21的字段和子字段有良好的對應,與 MARC之間相互轉換很容易,語義信息損失小,與圖書館已有的MARC館藏文獻數據和檢索系統進行整合更加簡便易行。MODS與國際通用的DC元數據的15個元素也能形成良好的對應關系,又具有相似的基本結構,所以兩者之間的轉換也很容易實現。美國國會圖書館已經制定了MODS與MARC、DC元數據之間相互轉換的各種方案。如果OAI-PMH收割提供的是MODS元數據,將比其他格式元數據更有助于圖書館元數據的整合。
(3)OAI-PMH除了支持DC外,也支持其他任何可以編碼成XML格式的元數據標準。MODS是利用XML的句法和規則的元數據,而MARCXML是為了在XML環境下操作MARC數據而專門開發的一個框架,實現與MARC的無損轉化,可以作為MODS向MARC裝換的中間層。眾所周知,MARC結構比較復雜,靈活性差,無法對數字資源進行較好地描述,用MARCXML來作為OAI-PMH的標準元數據,在與其他元數據映射時,很多元素找不到對應,造成大量數據內容的丟失。而MODS具有較強的可擴展性,可以和很多元數據形成良好的對應轉換。
國際上已經有很多項目利用MODS作為OAI-PMH的元數據,如2003-2004年澳大利亞國家圖書館的“澳大利亞音樂(Music Australia)”就是基于OAI-PMH架構,對音樂資料進行轉換,將DC格式轉換為 MODS再轉成 MARC;還有2003-2006年“澳大利亞國家書目數據庫元數據項目”,將國家圖書館原記錄格式DC轉換為MODS,再轉換成MARC,支持OAI-PMH。2006年西部儲備大學的“經典幻燈片項目(Classics Slide Collection)”,將MODS作為每一張圖片的描述元數據,支持OAI-PMH 協議[6]。
METS(元數據編碼和傳輸標準)是一種XML文件,可將有關數字化資源的元數據進行打包,包括所有描述性的、管理性的、結構化、權限及其他可用于數字化資源檢索、保存和服務的元數據。如果一個數字化資源用METS描述,它就可以在很多系統中方便地使用。現METS已建立的描述性元數據包括:為電子資源特別設計的MODS;僅需最少數的DC;完全的 MARC記錄信息的 MARCXML[7]。用MODS作為描述性元數據,可以表達款目間的多重關系,并用METS來包裝數字化對象,可以盡量減少數據的丟失。MODS豐富的、具有層級性的描述結構可以與METS的StructuralMap進行很好配合,MODS的描述功能與METS的封裝特性使元數據與對象數據能夠緊密地結合起來,進而方便地進行傳輸與交換。
國外已經有很多項目利用MODS作為METS中的描述性元數據。如“西藏口述歷史檔案項目”,西儲大學人類學西藏研究中心計劃將美國國會圖書館亞洲部保存的西藏口述歷史檔案文件譯成英文文本的TEI格式,并使用MODS作為描述性元數據,最終聲音文件、TEI文件以及MODS格式將以METS模式封裝在一起。
目前描述各種資源的元數據不統一,如CDF(頻道定義格式)、CDWA(藝術作品描述目錄)、DC(都柏林核心元數據)、EAD(編碼檔案描述)、EELS(工程電子化圖書館)、EEVL(愛丁堡工程虛擬圖書館)、FGDC/CSDGM(數字化地理元數據內容規范)、GILS(政府信息查找服務核心元數據標準)、TEI、Header等,不同標準的元數據間以及與圖書館描述傳統資源的MARC的兼容和互操作是圖書館亟需解決的問題。MODS是MARC的子集,多數元素在MARC中可以找到對應字段,因而可以同大量現存的圖書館MARC數據兼容,如負責維護MODS的美國國會圖書館網絡發展與MARC標準機構已經制定和發布了MODS與MARC之間相互轉換的各種方案,規定了轉換各個元素、子元素、屬性和字段的對應關系。而且MODS具有簡單易用、靈活性好、交換能力強等優點,可以擔當起圖書館元數據整合的重任。
那么是將MODS做為根級標準將圖書館已有MARC和其他元數據轉換成MODS,還是讓MODS充當各種元數據轉換的中介呢?究竟哪種方式可以保證數據內容丟失降低到最低程度?筆者認為采用所有其他元數據轉換成MODS是最佳方案,因為:
(1)在各種元數據互相轉換的過程中,必然會造成部分數據內容的丟失,而且轉換經過的中介越多,丟失的數據越多,比如說將DC轉換成MODS丟失一部分數據,然后MODS再轉換成MARC又會丟失一部分數據,所以元數據轉換盡量避免中間環節。
(2)將MODS作為根級標準,形成一個樹形的層次結構。最上層為根級元數據準則,各種數據庫及其專業子庫都必須遵循此準則;根級元數據準則下為枝級元數據準則,是各專業學科所應遵循的標準;枝級元數據準則以下為一些同類數據庫或應用領域的元數據準則[8]。這樣可以更好地規范元數據格式,便于圖書館的資源共享和互操作。
在目前復合型圖書館、圖書館聯盟、資源共享的大趨勢下,元數據整合是圖書館資源和數據初步整合以及向更先進的資源互操作和共享方式過渡的第一步。MODS是繼MARC之后的第二種以MARC為基礎的文獻編目元數據,正是這個得天獨厚的優勢,以及具有轉換能力強、靈活易用、可擴展性強等MARC和DC無可比擬的優點,使得在圖書館元數據整合中充當重要角色。國外關于MODS的研究已經很多,而國內尚處于初步階段,2006年完成了《元數據對象描述模型(MODS)調研報告》。上海圖書館制定多個元數據方案,參考了MODS的標準。總體來說,國內嘗試應用MODS的項目還比較少,所以要加強研究,盡快完成MODS的漢化,使MODS在資源描述和圖書館元數據整合中發揮更大作用。
[1]The Library of Congress.Metadata Object Description Schema[EB/OL].(2008-04-17)[2015-01-11].http://www.loc.gov/standards/mods/mods-overview.html.
[2]王小平.淺析 MODS元數據[J].圖書館論壇,2008,28(5):65-67,70.
[3]常春.數字圖書館元數據獲取協議OAI[J].現代情報,2007,27(4):108-110.
[4]倪娟.MODS元數據的新發展與應用[J].農業圖書情報學刊,2007,19(6):165-167.
[5]齊華偉,王軍.元數據收割協議 OAI-PMH[J].情報科學,2005,23(3):414-419,425.
[6]張娟.描述性元數據MODS特性及應用[J].現代情報,2011,31(8):69-72.
[7]張錚,李蓓.元數據家族中的新成員-MODS和 METS[J].醫學信息,2005,18(7):743-745.
[8]DC元數據的發展前景分析[J].廣東技術師范學院學報,2006,(4):9-12.