編目標準RDA和BIBFRAME的發展演進及其思考

2022-04-07 21:15:46王景俠

山東圖書館學刊 2022年5期

王景俠

(國防大學政治學院,上海 200433)

自國際圖書館協會和機構聯合會(簡稱國際圖聯,IFLA)于1998年發布《書目記錄的功能需求》最終報告(簡稱FRBR)以來,特別是人類進入本世紀后的近20多年來,信息技術突飛猛進、數字信息呈指數級增長,導致國際編目所處的信息環境已發生了巨大變化,尤其是隨著計算機網絡技術和數字化數據化技術的發展和普及,圖書館等機構除了擁有越來越豐富的實體資源外,也收藏了越來越多的各種類型的數字資源(含網絡資源),這意味著圖書館已經進入了數字時代。隨著FRBR研究的深入,國際編目領域從理念、概念模型到技術標準,均發生了巨大變化,具體表現在美國國會圖書館(簡稱LC)牽頭制訂的國際性資源編目標準如《資源描述與檢索》(Resource Description and Access,RDA)已經取代《英美編目條例(第二版)》(AACR2),而隨后推出的基于關聯數據模型的新一代書目格式書目框架(BIBFRAME)經過多輪試點和修改已開始進入初步實施階段,將逐步取代已經統治了半個多世紀的機讀目錄(MARC)格式。從國際范圍看,以RDA和BIBFRAME為代表的新一代編目標準將逐步取代傳統的文獻編目標準,這標志著圖書館編目開始向關聯數據編目方向發展,并將開啟資源組織和數據管理的新階段。關聯數據自2008年開始在圖書館領域應用至今已有十多年的歷史,從早期的嘗試轉換現有書目數據以關聯據形式發布,發展到目前采用基于關聯數據模型的BIBFRAME直接生產關聯數據[1]。圖書館等機構將館藏書目信息發布為關聯數據將幫助其更好地融入開放互聯的語義網,將有效促進用戶的信息查詢與資源發現,并提升用戶體驗,還能夠提升圖書館機構在網絡時代的可見度,進而提升圖書館在數字時代的地位和價值。

1 《資源描述與檢索》(RDA)及其新版

隨著數字技術和語義網技術的不斷發展和數字資源類型的日益豐富,為了適應新的編目環境的需要,同時為了克服AACR2在數字資源描述能力的不足,尤其要克服它在結構上的缺陷,以更好地適應新出現的數據庫技術,并充分利用這些技術在數據獲取、組織、存儲、檢索和顯示等方面的高效和靈活性,AACR2從2004年起進行了全面修訂,并于2005年更名為RDA,歷經一波三折直到2010年RDA的Toolkit(工具包)的正式推出,才宣告新一代編目規則RDA的誕生。

1.1 原版RDA

從內容上看,RDA(記作原版RDA,可視為1.0版)是用來描述與組織所有類型資源的可擴展框架,其目標是支持數字環境下的圖書館和其他社區所收藏資源的發現與識別。此外,新一代編目標準RDA遵循《國際編目原則聲明(ICP)》和基于IFLA開發的FRBR和FRAD(《規范數據的功能需求》)概念模型而構建,能夠全方位支持對不同內容和媒體資源的描述,具有滿足新型資源特點的靈活性和可擴展性,以及在關聯數據環境下書目數據生產所需要的適應性等。2010年6月RDA以Toolkit在線電子資源的網絡版形式推出,而印刷版的出版僅作為其輔助形式,這在編目發展史上也是一大改革與創新。與傳統的編目規則AACR2印刷版不同,RDA工具包基于網絡瀏覽器,是一個一體化集成的在線編目工具,它為負責創建元數據的編目員提供一個與RDA資源描述規則和其他相關編目資源的交互平臺[2]。

RDA是一部專為數字環境所設計的、并能適用于圖書館和其他信息機構進行資源描述與檢索的內容標準。RDA成為所有類型資源的內容和媒介進行編目的工具,其生成的記錄可以通過互聯網、Web OPAC等在數字環境中使用,同時也可以在語義網的關聯數據中發揮作用,應用RDA元素元數據集創建的記錄也可以適應今后出現的數據結構。

RDA是目前國際上第一個完全采用基于FRBR的實體—關系(E-R)書目概念模型的編目標準。它的內容共包括10個部分,其中第1至第4部分是對作品(Work)、內容表達(Expression)、載體表現(Manifestation)、單件(Item)、個人(Person)、團體(Corporate Body)等FRBR及FRAD實體的描述,第5至第10部分則是這些實體之間關系的描述。由此可見,在今后的資源描述中,關系的描述與揭示已經構成資源描述與組織的重要內容,這與語義網環境下的關聯數據達成高度一致。需要說明的是,與AACR2的結構相比,RDA不再按ISBD的著錄項目進行細分,也不按文獻的類型排列,而是將特定數據元素的說明集中在一起,識別并記錄用于編目的數據元素[3]。簡言之,RDA(原版)基于AACR2,遵循ICP,以FRBR和FRAD概念模型為理論基礎,目標是走出英語地區發展成為數字時代的全球性資源描述與檢索的編目標準。

1.2 新版RDA

作為RDA底層框架的書目概念模型的巨大變化必然導致RSC對RDA的修訂與更新。IFLA 2017年8月正式推出FR家族模型(是FRBR、FRAD和FRSAD的統稱)的統一版《國際圖聯圖書館參考模型》(簡記為LRM),直接影響到基于該模型的具體應用RDA的再修訂。另外,RDA 工具包已經推出很多年,它對網絡瀏覽器的支持方面也存在一些問題,已不能適應編目用戶的新需求。RDA指導委員會(RSC)為了能夠跟蹤和管理更大范圍的與RDA條款相關聯的元數據,于2017年4月正式啟動了RDA工具包重構和再設計(RDA Toolkit Restructure and Redesign,即3R)項目。2018年6月,RSC如期推出RDA工具包測試版站點,并在2019年4月底發布了新版RDA英文穩定文本,標志著3R項目已經進入穩定階段。RSC隨后于 2019年10月發布了3R項目階段性完成聲明[4]。RDA工具包的新版官方版本已于2020年12月上線。新版RDA(可視為RDA2.0版)不僅優化了工具包的用戶界面,使用戶體驗得到一定提升,而且整合了更多的與之相關的資源,其開放性和包容性也得到進一步擴展。此外,需要指出的是,新版RDA的穩定文本將作為其他語種翻譯本和各機構制定政策聲明的基礎文本,為RDA的國際化應用打下堅實基礎[5]。

作為書目概念模型的LRM的推出是新版RDA的修訂之源。由于LRM在實體、屬性和關系方面有了不少明顯的變化,還增加了對資源合集和連續出版物的建模,所以這些變化直接體現在新版RDA的內容修訂中,從而使得RDA與LRM保持高度一致。新版RDA總共定義了13個實體,即RDA實體、作品、內容表達、載體表現、單件、行為者、集體行為者、個人、團體、家族、命名、地點、時間段。在新版RDA中,與這13個實體相聯系的屬性和關系均被稱為“元素”。屬性元素是RDA實體內在或外部賦予的特征元素。而在原版RDA中,關系揭示主要依靠關系說明語。關系說明語就像取值詞表一樣作為附錄集中呈現。新版RDA完全打破了這種方式,將關系說明語變為元素的一個類別(即關系元素),與屬性元素一起用于描述實體。

新版RDA對實體關系的呈現方法在采用LRM處理方法的基礎上作了進一步細化。新版RDA以定義域和值域的形式呈現關系,定義域是元素所描述的RDA實體,值域則是作為關系元素值的RDA實體,且關系具有互逆性。而在呈現形式上,新版RDA也與LRM保持一致,在每個關系元素的規則中,通過“元素參考”版塊指明關系元素的定義域和值域,以及表達關系的標簽。

此外,新版RDA在結構上也有所創新。這些創新主要體現在體例編排、編號規則以及規則彈性等方面。如在體例編排方面,與原版RDA采用等級列舉式、按編號逐級展開不同,新版RDA采用下拉菜單的方式呈現內容。新版RDA按實體、指南、政策與資源四大選項卡進行編排,其中政策和資源兩大選項作為配套資源使用。在編號規則方面,新版RDA取消了條款編號,但是這一新做法給部分用戶帶來不便,為了方便用戶使用新版RDA,RSC新推出了引文編號功能,已經在實體及元素版塊以及指南版塊實現[6]。而在規則彈性方面,新版RDA采用“一切可選”的原則,關于記錄什么元素、怎么記錄元素、記錄多少元素,均是可選的,除非RDA規定了“最低描述”的內容。新版RDA甚至都沒有設定核心元素,元素的必備性和重復性將由各國施行該標準的政策聲明或應用配置文件(Application profiles)等本土化文件予以規定。由于新版RDA在內容結構及體例發生了較大變化,所以RSC將RDA新版本稱為是“3R項目的里程碑”,由此可見這個新版本對于RDA的未來發展具有非常重要而深遠的意義。

為了與LRM保持一致,新版RDA放棄了核心元素這一概念,即在新版RDA規則中所有元素都是平等的,都是可選的,這一原則與國際最具影響力的描述性元數據標準DC更加一致。在新版RDA中,它只注重每一個數據資源,甚至對數據的描述形式也不作統一的強制要求,設置可以采用不同方式表達,它規定了具有普適性的4種元素記錄方法,被稱為“4路徑記錄”法(即非結構化描述、結構化描述、標識符和IRI(國際資源標識符))。至于如何選擇記錄數據的方法、如何把數據打包形成一條“記錄”,則由數據制作機構通過應用配置文件來決定。這是“數據化” 在RDA中的首次體現。從計算機處理的視角看,數據化是指能夠把信息轉變為機器可讀、可處理、可量化的數據的過程[7]。

RSC現任主席Kathy Glennan指出:作為LRM的首次實施,新版RDA工具包在適用范圍上變得更加國際化。由于提供了廣泛的數據元素、選項和記錄方法,編目社區現在可以更靈活地應用該標準。RDA指導委員會引入了一些新變化,以支持從卡片目錄到關聯數據環境等實施方案之間的平穩過渡[8]。

需要指出的是,新版RDA的推出對其在我國的本地化應用和國際化提出了新挑戰。目前,RDA工具包站點已發布了包括英語、漢語等8個原版RDA語言版本,其中,漢語版本對應的是中國國家圖書館于2014年出版的《資源描述與檢索》(RDA)中譯本,由于該譯本是以2012年的RDA(原版)印刷版為藍本,并沒有對在線RDA工具包進行翻譯,因此內容已經與新版RDA的內容有了很大差別。未來我國編目界應主動籌劃新版RDA(以穩定版為藍本)中譯本的翻譯工作,以促進我國編目數據與國際書目數據的交換與共享,從而加速我國編目工作的國際化進程。

總之,新版RDA與LRM保持一致,是其區別于原版的最大特點,為書目世界更好地融入開放共享的關聯數據環境搭建了橋梁,所以它的推出對數字時代的資源編目、數據管理和資源發現都具有十分重要的意義,同時也必將推動RDA應用的國際化進程。

2 書目框架格式(BIBFRAME)及其實施進展

由于受到語義網和關聯數據技術快速發展的直接影響,特別是隨著RDA的測試試用與應用推廣,已經使用了50多年的MARC格式已經顯得有些力不從心,尤其是經過RDA首輪測試后,LC發布報告指出MARC格式的結構模型阻礙了新標準RDA優勢的發揮,建議采用新型書目格式取代MARC(MARC21),這就是新一代書目格式BIBFRAME誕生的大致背景。

2.1 BIBFRAME 概述

LC于2011年5月率先推出“書目框架先導計劃”,該計劃主要是確定MARC21格式向更多基于網絡的關聯數據標準轉換路徑。LC與Zepheira公司聯合開發關聯數據模型、詞匯及應用工具等支撐這一計劃。2012年底,LC發布書目框架(Bibliographic Framework,BIBFRAME)的關聯數據模型草案,正式推出BIBFRAME詞表(1.0),同時發布功能需求和用例,展示了BIBFRAME為網絡而生的初衷和改造圖書館數據使之適應語義網和關聯數據環境的巨大潛力。

在BIBFRAME模型1.0草案推出后,LC聯合多家機構對BIBFRAME及其詞表進行測試和修改,并于2016年4月正式推出BIBFRAME 2.0本體,包括模型和詞匯2.0,這兩部分是該格式最為重要的核心部分。BIBFRAME 2.0中繼續采用基于FRBR實體—關系模型分析方法,對實體、屬性及其關系進行分析標識,將描述對象簡化為創作性作品、實例(Instance)和單件三個核心類,與1.0相比,BIBFRAME 2.0的核心類取消了“規范”和“注釋”兩個核心類,新增“單件”核心類。其中,創作性作品對應FRBR/RDA的作品和內容表達(作品內容層次),實例對應FRBR/RDA的載體表現(載體層次),單件對應FRBR/RDA的單件(單件層次),將編目層次由原來的兩個調整為三個,這種調整和優化有利于編目員理解和掌握,也更適應已經采用RDA多年的編目實踐,有利于編目員基于RDA和BIBFRAME格式開展在線聯合編目[9]。

2.2 BIBFRAME的實施進展

自BIBFRAME推出后,LC聯合多家圖書館及相關機構積極探索BIBFRAME的實踐應用。LC首先推出BIBFRAME第一階段的試點項目(2015-2016年),共有40名LC編目員參加了試點,采用 BIBFRAME編輯器作為編目界面,可實時查詢 LC 規范庫,采用BIBFRAME詞表取代 MARC格式進行原始編目;隨后LC在總結BIBFRAME第一階段試點經驗的基礎上繼續推動BIBFRAME第二階段試點(2017-2018年),在對LC所有館藏目錄由原有MARC記錄轉換至BIBFRAME 2.0作為編目來源庫的基礎上,還增加了參加試驗的編目員,更重要的是采用修改后的BIBFRAME 2.0編輯器,在真實的BIBFRAME環境中進行元數據編目。在此期間,還對BIBFRAME2.0進行開放注冊。2019年6月,LC又有 60 名編目人員加入了 BIBFRAME 第二階段試點,這一增加使得參與BIBFRAME試點的總人數超過100人。LC進一步擴大試驗范圍,解決由MARC切換到BIBFRAME 編目環境中遇到的各種問題,其中也包括從BIBFRAME到 MARC 的反向轉換,其目的是為了在LC 完全采用BIBFRAME原始編目后,可以向那些暫時還沒有采用BIBFRAME編目的圖書館提供MARC格式的數據。2021年,LC更是將BIBFRAME應用試驗擴大到LC的所有(100%)編目員,計劃采用BIBFRAME編制書目數據比例也要達到100%。與此同時,LC還將采用更強大、更精簡的系統,繼續優化并擴大BIBFRAME與MARC的雙向轉換,同時在實用環境中測試基于這兩種書目格式的圖書館系統的適用能力等[10]。

據LC官網的數據顯示,目前已經登記參與BIBFRAME 2.0實驗實施的主要機構包括美國斯坦福大學的LD4P(關聯數據生產)項目,科羅拉多學院、伊利諾伊大學厄巴納—香檳圖書館、德國國家圖書館、匈牙利國家圖書館、Ex Libris公司的Alma和Reasonable Graph技術團隊等其中,Ex Libris是一個圖書館系統商,它首先實現了從MARC到BIBFRAME的轉換。而Reasonable Graph是一個開源的通用網絡平臺,能夠為圖書館、檔案館和博物館等文化遺產機構的數字館藏提供關聯數據管理服務[11]。當然,還有很多國家圖書館和機構已采用BIBFRAME 2.0進行應用實踐探索,并沒有在LC的官網登記。

需要指出的是,歐洲圖書館界在實施關聯數據方面一直走在前列。其中,瑞典國家圖書館(KB)最早于2008年就率先發布Libris(國家聯合目錄)為關聯數據,又在十年后的2018年6月再次率先上線關聯數據系統Libris XL。該系統以BIBFRAME 2.0模型為核心,取代其原有圖書館自動化系統Voyager的核心部分,采用KBV詞表建立本體。Libris XL被稱為是目前圖書館界第一個正式使用基于BIBFRAME 2.0的聯合目錄系統,繼續走在全球圖書館關聯數據實施前列。該系統能夠使得Web能夠理解圖書館的書目信息,也能夠讓搜索引擎和 Wikidata(開源的知識圖譜數據庫)更直接地鏈接和共享 Libris XL 的數據,從而使得圖書館的書目信息真正融入了互聯網,為用戶提供了訪問利用圖書館書目資源的新途徑;與此同時,圖書館也可以利用關聯數據鏈接到其他文化遺產機構,引用其他的關聯數據集來豐富完善其館藏目錄[12]。

此外,基于BIBFRAME數據模型的Share-VDE(虛擬發現環境)項目在圖書館關聯開放數據實踐中發揮了積極的推動作用。該項目始于2016年,旨在建立一個有效的工作環境,使關聯數據能夠在圖書館內部和外部進行流通。該項目的應用范圍并不局限于圖書館機構,而是擴大到包括藝術、音樂領域等更廣泛的機構社區(如博物館和檔案館),其主要目標包括在MARC 中使用 URIs 豐富記錄、使用BIBFRAME 2.0將 MARC 記錄轉換成 RDF 格式以及根據 BIBFRAME 數據模型發布關聯數據等。該項目是由Casalini libri、@Cult、16 家北美研究型圖書館和 LD4P項目共同提出的,其中Casalini libri是意大利書目和規范數據提供商,@Cult是意大利的一家發現工具和語義網解決方案自動化系統商。該項目正如該項目名稱所示,發現(Discovery)功能從一開始就是該項目的重點。與基于記錄的傳統目錄不同,Share-VDE 側重于匯集并展示作品和作者元素之間的關系以促進資源的發現,同時也展示了基于 BIBFRAME數據模型的關聯數據能夠改善用戶體驗的強大力量[13]。

而從我國已經開展的關于BIBFRAME應用研究與項目探索實踐中可以發現,學界和業界的研究人員主要選擇圖書館館藏部分文獻的書目數據或者某些特藏數據庫進行綜合集成,并融入網絡開放共享,采用 BIBFRAME2.0模型和詞匯構建資源本體,如上海圖書館基于BIBFRAME本體詞表成功構建了中國家譜知識服務平臺、盛宣懷檔案知識庫和名人手稿檔案知識庫等。華東師范大學圖書館積極推進數字方志集成平臺建設,采用了當下流行的RDF、知識本體和關聯數據等技術,基于方志數據特有的時空屬性,運用可視化以及知識圖譜技術實現數據之間的關聯關系揭示,通過自然語言處理技術實現文本深度挖掘與可視化檢索,基于關聯數據技術可以實現更大范圍的數據集成[14]。以上這些示范性項目是國內公共圖書館及高校圖書館數據化在“智慧服務”領域積極探索與實踐創新的突出代表。截至目前,我國還缺少國家層面的基于BIBFRAME2.0模型的將傳統的書目數據和規范數據轉化為關聯開放數據的典型案例。

總之,與傳統的MARC 格式相比,新一代書目格式BIBFRAME優勢相對明顯,更適應開放互聯的語義網環境,因而應用前景廣闊,但是它也有實施技術門檻較高,實施轉換的成本巨大等明顯不足,更為關鍵的是還有很多編目員對該格式還不知曉,因此未來它在國外圖書館界的應用推廣以及在中國本土化的應用進程,都還有很長的一段路要走。需要強調的是,LC推出BIBFRAME格式的目標在于取代傳統的MARC格式,并希望據此創建一個嶄新的書目環境,可以使圖書館無縫地融入更廣泛的數據網絡,而不再讓圖書館的海量數據資源成為網絡上的一個個“信息孤島”。從上述已經開始實驗及實施BIBFRAME的歐美國家圖書館和部分機構看,越來越多的機構開始采用基于關聯數據模型的BIBFRAME 2.0發布圖書館的館藏資源,這標志著圖書館主導的書目關聯數據模型BIBFRAME正逐步走向實用化、國際化,其應用范圍也將越來越廣。

3 總結與思考

自進入本世紀以來,國際編目領域從信息環境到數字技術均已發生了巨大變化,語義網、關聯數據和智能化技術開始越來越多地應用到編目領域,特別是受到FRBR概念模型以及后來取代它的統一版概念模型LRM的影響和推動,帶來了國際編目理論以及實踐的全面而深刻的偉大變革,無論是編目規則(如RDA)還是書目格式(如BIBFRAME)標準,都在積極推動圖書館的書目資源朝著數據化、語義化和智慧化發展,并將成為一種不可逆轉的時代潮流。目前,歐美為代表的西方發達國家圖書館已經開始采用RDA和BIBFRAME進行原始編目,并以關聯數據的形式展示館藏信息。換句話說,圖書館的編目對象從過去的記錄到如今的數據,已開始進入了基于實體—關系(E-R)概念模型的關聯數據編目的新時代、新階段,開啟了圖書館書目信息數據化、語義化和國際化的新紀元,并將逐步取代基于作品—載體的傳統文獻編目模式[15]。

與誕生于印刷資源為主的傳統的文獻編目規則(如AACR2)和機讀目錄(MARC)格式為代表的編目標準有本質不同,新一代的編目標準RDA和BIBFRAME基于ICP和LRM,始終以用戶的便利性為最高原則,代表了國際標準發展的客觀規律和發展趨勢。從認知上看,新標準不再把知識世界看作是由基于載體的一篇篇文獻構成的知識空間,而把它看成是一個個相互關聯的可開放共享的網絡化的實體空間,而這正與用戶進行網絡信息查詢與檢索利用時所看重的首先是其內容而不管其載體這一需求高度契合。同時,新一代資源編目標準采用萬維網聯盟(W3C)所發布的通用語義技術標準,以RDF和URI標識實體、屬性及其關系,采用關聯數據發布,使得這些圖書館所擁有的高價值數據不僅為人類讀者以網頁閱讀,而且為機器可讀、可處理和可理解,進而使得圖書館館藏的優質資源能夠融入開放互聯的語義網。從時間維度分析,國際性編目標準在近10年來不斷發展演進,推進了書目資源的數據化發展,基于這些新標準所生產的數據具有可信的、情景化的、相關切題的、可認知的、可預測的、可消費的等諸多特點[16],換句話說,圖書館館藏的高價值的智慧數據不僅能夠成為當前數據基礎設施的重要組成部分,而且有助于推動圖書館從數據化朝智慧化轉型發展,還有利于圖書館的資源發現,進而提升用戶體驗,從而滿足用戶的多元化、個性化知識信息的需求。

總之,以RDA和BIBFRAME為代表的新一代資源編目標準還在不斷更新,不斷升級,二者之間也在相互影響、不斷協調,以適應更廣泛的資源描述與組織一體化的需求,更加有利于人類知識的整序、整合、集成和分享,有利于促進人類知識的傳播和交流,因而代表了資源描述與組織的發展趨勢與未來。這對于數字網絡環境下喜歡把搜索引擎作為檢索入口的用戶而言,更加便利于他們的信息查詢和資源發現,有利于指引用戶發現和利用圖書館的各類資源,這也將有效提升圖書館在數字時代的地位和價值。在當前語義網、大數據、云計算和人工智能等現代信息技術不斷發展演進的環境下,圖書館正處在從數字化向數據化智慧化轉型的關鍵期,面對國際編目領域新標準新技術給我們帶來的挑戰與機遇,我國圖書館界當更新觀念,深入思考應對變革之策略,比如我國編目標準如何制訂和修訂更新,圖書館服務平臺如何開展技術創新和升級,中文資源的數據化實踐該如何開展,未來是繼續學習借鑒歐美現有的技術標準與實踐,還是積極探索具有中國特色的標準化數據化道路,這些都是當前我國圖書館界所要思考和解決的現實問題。