馮紅娟+張煒

摘 要 數字館藏元數據在圖書館的資源揭示與發現過程中發揮著日益重要的作用。論文結合國家圖書館具體工作,對圖書館元數據格式、元數據管理方法進行論述,提出數字館藏元數據的4種應用模式:搜索引擎、專題資源庫、可視化及關聯數據。
關鍵詞 元數據 數字館藏 圖書館 唯一標識符 搜索引擎
分類號 G254.364
DOI 10.16810/j.cnki.1672-514X.2017.04.017
Abstract The digital library metadata plays an increasingly important role in resource reveal and discovery. Combined with the specific work in National Library of China, this paper discusses the library metadata format and the management methods of digital library metadata, and puts forward four kinds of application modes of metadata in digital libraries: search engine, special resource database, visualization and data association.
Keywords Metadata. Digital collection. Library. Unique identifier. Search engine.
隨著信息環境的發展變化,人們的數據查詢及閱讀習慣也正在發生著巨大變化,網絡閱讀、移動閱讀越來越融入日常生活。與實體館藏相比,數字館藏在圖書館中正發揮著日益重要的作用。以國家圖書館為例,經過多年的資源建設,截至2014年底,數字館藏總量達1024TB,資源內容包含:電子圖書、電子期刊、電子報紙、學位論文、會議論文、音頻、視頻等[1],呈現資源類型多、來源渠道多、元數據格式多等特點。數字館藏元數據作為描述、整合及利用數字館藏的重要工具,如何對其進行有效管理,已成為圖書館建設尤其是數字圖書館建設過程中亟需進行研究的問題。本文從圖書館常用元數據格式、數字館藏元數據管理方法及利用模式等幾個角度對圖書館數字館藏元數據展開探討。
1 圖書館常用元數據格式
圖書館在描述資源時,常用的元數據格式包含CNMARC、MARC21、DC、MODS等。現就這幾種常用的元數據格式進行比較分析。
CNMARC(中國機讀目錄,China Machine-Readable Catalogue)是國家圖書館參考國際圖聯UNIMARC,并結合國內圖書館編目經驗編制的,是我國現行的行業標準。CNMARC格式在圖書館中文實體館藏編目工作中得到廣泛應用。
MARC21是由美國國會圖書館和加拿大國家圖書館在1999年共同完成的,它既可用于描述、檢索文獻,還可作為一種交換格式,與UKMARC、UNMARC等格式兼容。目前,MARC21已成功應用于大英圖書館、美國國會圖書館及加拿大國家圖書館。國內圖書館在著錄外文文獻時,也常用MARC21格式。
DC(都柏林核心元素集,Dublin Core Metadata Initiative)[2-4]是國際通用的適用于網絡資源描述著錄的元數據集,含15個核心元素,即:題名、主題詞、描述、語種、來源、關聯、時空范圍、作者、出版者、其他責任者、權限、日期、類型、標識符、格式。DC元數據格式具有可用性、簡潔性、獨立性及擴展性強等特點,適于對網絡資源進行著錄描述。與CNMARC和MARC21相比,其靈活性大,但元素及子元素的擴展著錄過程易出現不一致、不規范問題。
MODS(元數據對象描述模式,Metadata Object Description Schema)格式[5]是MARC的標準子集,在MARC21基礎上進行設計,與MARC21之間具有較強的可交換性,利用XML作為編碼語言,通用性強。MODS設置有20個頂級元素:題名信息、名稱、資源類型、體裁形式、來源信息、語言、載體形態描述、摘要、目次、讀者對象、附注、主題、分類、相關文獻、標識符、館藏位置、檢索環境、部分、擴展、記錄信息;另外,還包含兩個根元素:MODS和MODSCollection。
以上四種元數據格式,在圖書館中都有較廣泛的應用,現對其應用領域及特征進行比較分析,如表1所示。
2 元數據有效管理方式
目前,國家圖書館的數字館藏編目主要應用CNMARC和DC元數據格式。針對數字館藏元數據的管理,可通過建立唯一標識符系統,實現數字館藏的統一標引;通過建設元數據倉儲系統,實現各類型元數據的整合存儲,為提供一站式檢索訪問服務奠定數據基礎;另外,為增強元數據的揭示與發現功能,國家圖書館啟動數字館藏元數據改造工作,并制定數字館藏元數據著錄規范,為數字館藏元數據著錄與使用提供參考。下面對以上元數據管理方式進行深入闡述。
2.1 使用唯一標識符實現數字資源的準確定位
唯一標識符是數字資源的條形碼,可在數字資源采集、加工、服務、保存、處置的整個生命周期中,進行統一編號和規范化管理,實現資源的準確定位,并可為不同機構及系統的數據交換及互操作提供便利。唯一標識符獨立于數字對象的物理位置、復本數量及應用系統,一經生成,便不再更改,是數字資源規范管理的重要標志。
國外已涌現多個唯一標識符系統,如Handle System、Digital Object Identifier(DOI)等。Handle已被美國國會圖書館、美國國防技術信息中心等機構使用,DOI也已有較廣泛的應用。國家圖書館在調研國外唯一標識符系統基礎上,于2010年出版《國家圖書館唯一標識符規范和應用指南》,并在該規范指導下建設國家數字圖書館唯一標識符系統(Chinese Digital Object Identifier,CDOI),該系統于2012年12月開始試運行,并通過數字圖書館推廣工程在全國圖書館進行推廣部署[8]。唯一標識符系統作為數字圖書館重要的基礎性設施,是數字館藏元數據管理的重要方式,提升了圖書館數字館藏的管理效率[9]。
2.2 建設元數據倉儲
圖書館數字館藏類型多樣,包含圖書、期刊、報紙、音視頻、網絡資源等;從數據來源區分,又分為自建、外購、合建資源。不同類型、不同來源的元數據存在較大差異,這給數字館藏的整合與利用帶來挑戰。元數據倉儲的建設是有效整合數字館藏的重要途徑。
為加強元數據的管理,增強對數字館藏的揭示和利用,國家圖書館于2011年開始啟動元數據倉儲項目的建設[10]。元數據倉儲的建設過程中,需秉承有序性、規范性、擴展性的原則,將各類元數據根據映射規則,轉換為統一格式,并在一定程度上保留資源的特有字段信息,構建元數據倉儲系統。截至2015年底,國家圖書館元數據倉儲整合的元數據總量已有2億多條,為實現各類資源的一站式檢索奠定了數據基礎。
2.3 改造數字館藏元數據
圖書館自建數字館藏元數據一般來源于實體館藏元數據。在實體館藏數字化過程中,其描述對象已發生變化,需對實體館藏元數據進行改造,才能更好地滿足數字館藏描述的需要。自2015年起,國家圖書館開始啟動數字館藏元數據改造工作,自建中文數字館藏按CNMARC格式進行著錄,主要改造內容如下。
(1)在原有的實體館藏元數據基礎上,增加135、307、337字段,著錄數字館藏的類型、色別、聲音、文件格式、掃描分辨率等信息,去除描述實體館藏形態特征信息的106、121、126、130等字段。
(2)在參考《信息資源的內容形式和媒體類型標識》(國家標準GB/T 3469—2013)的基礎上,在281字段增加內容形式,在282字段增加媒體類型,替換原200字段的一般資料標識信息。
(3)針對數字館藏重新生成001記錄標識號,并將對應的實體館藏的標識號賦予452字段,以實現數字館藏與實體館藏的關聯。
(4)為實現數字館藏的揭示與發布,在856字段增加發布鏈接及唯一標識符信息。
(5)進一步完善規范100字段和102字段,以便數字館藏按時間軸、地域軸進行可視化展示,提升用戶的應用體驗,提高資源利用率。
通過元數據改造工作,數字館藏元數據格式更加規范、統一,元數據描述的準確性、深度及內在關聯性也得到提升。另外,國家圖書館在元數據改造工作基礎上制定數字館藏元數據的著錄規范,為數字館藏的著錄與使用提供參考。改造后的CNMARC元數據按ISO2709和CNMARC-XML兩種格式進行保存管理,以適應不同的應用需求。
3 元數據應用模式思考
3.1 基于元數據倉儲提供一站式檢索
基于元數據倉儲建設搜索引擎,可實現不同類型、不同來源數字館藏的一站式檢索獲取服務。國家圖書館文津搜索系統[11-13],便是基于元數據倉儲系統搭建而成,其整合了國家圖書館各類數字資源,滿足讀者對圖書館資源的一站式檢索需求,方便讀者直接獲取數字資源的目標對象文件和各類應用服務,而不必在多個系統或平臺中分別進行檢索查詢。
另外,由于搜索引擎基于本地元數據倉儲搭建,可方便地實現檢索結果導航過濾、匯集展示等功能,并可應用數據關聯技術,分析用戶檢索行為,基于檢索請求和結果,挖掘元數據之間的關聯關系,建立基于元數據的文獻相似模型,為用戶提供相關文獻的推薦。
3.2 建設專題資源庫提供深層次揭示服務
數字館藏元數據除了應用于搜索引擎,還可應用于專題資源庫建設。相比于搜索引擎對各類資源的統一檢索,專題資源庫是針對某類特色館藏的深層次揭示服務[14]。元數據的建設與管理也是專題資源庫建設的重要一環,對專題庫的建設發布起重要作用。如“國圖公開課平臺”[15]是國家圖書館講座資源的專題服務平臺,采用MOOC的理念,為讀者提供圖書館的精品講座視頻資源,每個視頻時長一般不超過20分鐘,面向互聯網用戶免費提供。國圖公開課平臺良好的發布展示效果,與公開課資源的深層次元數據加工密不可分。
3.3 數字館藏的可視化展示是元數據利用的發展趨勢
傳統的數字館藏發布系統主要依托分類導航和檢索,而可視化平臺的建設將為用戶查詢、瀏覽數字館藏提供更加優越的應用體驗。世界數字圖書館[16]、美國數字圖書館[17]均已利用可視化的平臺提供用戶服務。世界數字圖書館提供時間線和互動式地圖的可視化功能;美國數字圖書館提供Map、Timeline及Bookshelf的可視化展示。國家圖書館基于數字館藏元數據改造的成果,正在建設按時間軸、地域軸進行分類的可視化展示平臺。數字館藏的可視化展示將是元數據利用及數字館藏揭示的發展趨勢之一。
3.4 關聯數據的研究為數字館藏的利用提供更開放的空間
關聯數據技術可將圖書館資源與全球網絡資源建立鏈接,擴展館藏資源的服務范圍,提升圖書館的價值,為數字館藏的利用提供更開放的空間。基于數字館藏元數據的關聯數據研究,是圖書館跟蹤利用國際先進技術,提升館藏資源利用率和服務效能的新研究方向[18]。大數據海量性的特征,為信息的傳播方式帶來深刻變化,圖書館的文獻資源整合工作也需不斷跟蹤國內外的最新知識動態,如通過RDF三元組實現數據關聯等技術,以實現決策管理的科學化和圖書館事業的可持續發展[19]。
4 結語
隨著數字館藏的海量增長,如何管理元數據,對資源進行整合揭示及服務,是圖書館研究的重要課題。本文以國家圖書館為例,就數字館藏元數據的管理方法進行闡述,提出數字館藏元數據的四種利用模式:搜索引擎、專題資源庫、可視化展示及關聯數據。相信隨著資源揭示與組織技術的進步,元數據作為整合利用數字館藏的重要工具,將在數字圖書館建設過程中發揮更重要的作用。
參考文獻:
[ 1 ] 汪東波.國家圖書館年鑒(2015)[M].北京:國家圖書館出版社,2015.
[ 2 ] Dublin core metadata initiative[EB/OL].[2016-02-06].http://dublincore.org/.
[ 3 ] 都柏林核心元數據[EB/OL].[2016-02-06].http://dc.library.sh.cn/.
[ 4 ] 肖瓏,申曉娟.國家圖書館元數據應用總則規范匯編[M].北京:國家圖書館出版社,2011:34-39.
[ 5 ] MODS[EB/OL].[2015-09-07].http://www.loc.gov/stand-ards/mods/mods-outline.html.
[ 6 ] 國家圖書館.新版中國機讀目錄格式使用手冊[M].北京:國家圖書館出版社,2004.
[ 7 ] 國家圖書館MARC21格式使用手冊課題組. MARC21書目數據格式使用手冊[M].北京:北京圖書館出版社,2005.
[ 8 ] 童忠勇,李志堯,孫秀萍.國家數字圖書館數字資源唯一標識符系統的設計與實現[J].圖書館學研究,2013(21):53-58.
[ 9 ] 毛軍,孟連生,鎮錫惠,等.試論我國數字資源唯一標識符發展戰略[J].現代圖書情報技術,2005(2):1-4.
[10] 梁蕙瑋,薩蕾.數字圖書館推廣工程面向數字資源整合的元數據倉儲構建[J].國家圖書館學刊,2012(5):27-32.
[11] 文津搜索[EB/OL].[2016-2-17].http://find.nlc.cn/.
[12] 楊東波,邢軍.國家圖書館“文津搜索”的設計與實現[J].國家圖書館學刊,2014(3):93-98.
[13] 申曉娟,李丹,王秀香.略論圖書館資源整合與檢索系統的發展:以國家圖書館“文津”搜索系統為例[J]. 圖書情報工作,2013(9):39-60.
[14] 李曉娟,吳英梅,紀高飛,等.高校圖書館專題庫建設的幾點思考[J].圖書館工作與研究,2007(5):64-65.
[15] 國圖公開課[EB/OL].[2016-02-23].http://open.nlc.cn/.
[16] 世界數字圖書館[EB/OL].[2016-02-22].https://www.wdl.org/zh/sets/chinese-literature/timeline/.
[17] 美國數字圖書館[EB/OL].[2016-02-22].http://dp.la/timeline.
[18] 劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011(2):5-12.
[19] 林海青,樓向英,夏翠娟.圖書館關聯數據:機會與挑戰[J].中國圖書館學報,2012(1):58-67,112.