段苗瑩
(陜西省圖書館 陜西 西安 710061)
淺談圖書館元數據的應用
段苗瑩
(陜西省圖書館 陜西 西安 710061)
當今社會信息化飛速發展,科技發展日新月異。社會環境給圖書館事業帶來了巨大的沖擊和全新的機遇,電子資源已逐步代替紙質書目成為新興的閱讀方式。本文簡單介紹了元數據、對象數據、國家圖書館元數據標準、國家圖書館元數據倉儲項目和文津檢索平臺等概念,在了解元數據與對象數據對應關系的基礎上,結合國家圖書館2014年元數據標準規范,將陜西省圖書館自建電子資源等對象數據按國家圖書館元數據標準進行元數據標引,提交國家圖書館,并利用國家圖書館元數據倉儲數據庫和文津檢索平臺整合陜西省圖書館自建資源和購買的數據庫資源,實現資源的一站式查詢與獲取。在數字化建設一日萬里蓬勃發展的今天,力求為讀者提供更快速更便利更全面的閱讀體驗。
元數據;對象數據;元數據標準;國家圖書館元數據標準;國家圖書館元數據倉儲項目
(一)元數據
是與對象相關的數據,英文名為Metadata。在圖書館中元數據被定義為:一種面向某種特定應用的用于描述資源屬性的機器可理解的信息,提供關于信息資源與圖書館書籍或數據的一種結構化的數據,是對信息資源的結構化的描述。用來刻畫信息資源或
數據本身的特征和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能。通過規范的語法結構和語義結構,使機器能夠無二義地表現和獲取信息。
簡而言之它是關于數據的數據。是對對象數據進行定義和描述的數據。
(二)對象數據
相對于元數據而言,對象數據指的是被元數據描述形容定義的對象。在圖書館的信息化建設中,對象數據可以是完整的數據庫,也可以是數據庫中的數據、圖書、論文、圖片、歌曲、網頁等。
(三)元數據與對象數據的關系
元數據與對象數據是描述與被描述的關系,元數據通過元素字段對對象數據的特征進行形象的表述和定義。
舉一個簡單的例子。一本書書名是《白鹿原》,作者是陳忠實,出版社是江蘇文藝出版社。如果把這本書當作一個對象數據,正題名=《白鹿原》,責任者名稱=陳忠實,出版者名稱=江蘇文藝出版社。此類信息就是該對象數據(這本書)的元數據描述。其中正題名,責任者名稱,出版者名稱就是元數據的元素字段。
當運用元數據完成對《白鹿原》這本書的定義和描述后,我們可以不通過對象數據,單憑元數據中的元素字段就可以大致了解這本書的基本情況。
數據的標準化和規范化是實現數據共享的重要基礎和有力保障,為了更加便捷的整合各級圖書館所做出的缺乏統一標準的數據信息,制定統一的元數據標準規范對于取得數據的控制權有著重要的作用和意義。目前各國陸續提出符合自己國情的元數據標準。MARC(機器可讀編目)元數據標準,DC(都柏林核心元數據)元數據標準都是世界知名和權威的元數據標準。
國家圖書館元數據標準。為了加強我國公共圖書館對數字資源的組織揭示能力,同時為了更好的整合利用分布于全國各級公
共圖書館的自建數字資源,實現數字資源的同知同享,共用共惠,中國國家圖書館參考世界知名元數據標準并根據圖書館的性質和特點制定出了自己的元數據標準。同時各基層圖書館按照國家圖書館元數據標準制作并提交館內自建資源的元數據,共同開展元數據倉儲的建設。
表1為國家圖書館2014年所提出的元數據標準,一共有23個頂級元數據元素,同時每個頂級元數據元素定義了一個或多個修飾詞,包含了圖像、古籍、圖書、影音、數據庫、網頁等多種對象數字資源。因為資源類型的不同,有些修飾詞可能僅用于某類數據資源。
根據國家圖書館元數據標準,按照規范的修飾詞,各級圖書館就可對其自建數據庫、電子文本等對象數據按部標引,做出符合國家圖書館標準的元數據來。
隨著圖書館數字化和數字圖書館的建設發展,各級公共圖書館自建數字資源和購買的數據資源日益豐富,由于開發軟件的不同和各資源開發商出于商業目的考慮等原因,不同資源的異構性和資源重合等問題也日趨嚴重。各自為政的數字資源建設和各數據資源沒有統一檢索模式的缺點也逐步暴露顯現出來。多次檢索多重查找費時費力,檢索結果重復率高利用率低。針對這種情況,國家圖書館提出了元數據倉儲項目。
國家圖書館元數據倉儲項目基于TRSWCM7.0內容協作平臺,通過TRSWCM系統的元數據模塊定義制作出符合國家圖書館標準的元數據結構,創建元數據倉儲數據庫,將各省市地區公共圖書館提交的元數據加工,整合,剔除,優化后錄入庫中。同時搭配國家圖書館的新型檢索系統“文津搜索系統平臺”來檢索調用庫內元數據,實現各地方數字資源的統一檢索,統一查看,統一揭示和統一服務。
元數據倉儲項目利用數據庫存儲各級圖書館自建資源的元數據,為文津檢索系統平臺提供數據支持。讀者通過關鍵詞并利用文津檢索系統前臺檢索功能可查找出與關鍵詞對應的元數據,進而瀏覽相應的對象數據。通過一次查詢即可高效,準確,全面的檢索并查看各級圖書館自建和購買的數字資源。
由上文,各級圖書館的自建數字資源和購買資源先按照國家圖書館元數據標準進行元數據表述標引,再將標引制作完成的元數據提交到國家圖書館,導入國家圖書館元數據倉儲數據庫中,讀者即可通過文津搜索平臺瀏覽查看各級圖書館的數字資源。
本文以陜西省圖書館為例,簡單介紹一下元數據標引的流程。
陜西省圖書館自建特色數據庫“西安事變”從事變簡介、人物志、大事記、紀念舊址、檔案史料、歷史圖庫、追憶廣角、歷史評價、研究論著、機構學者、今日報道、影視文藝等方面整合該事件的相關文獻資料。重點通過人物、史料、研究論著、視頻等欄目多方位、多層次地揭示“西安事變”的始末及其對近代中國歷史產生的重大影響。
對“西安事變”可進行如下的元數據元素標引:
正題名=西安事變特色數據庫
四庫分類=史
摘要=從事變簡介、人物志、大事記、紀念舊址、檔案史料、歷史圖庫、追憶廣角、歷史評價、研究論著、機構學者、今日報道、影視文藝等方面整合該事件的相關文獻資料。重點通過人物、史料、研究論著、視頻等欄目多方位、多層次地揭示“西安事變”的始末及其對近代中國歷史產生的重大影響。
出版者名稱=陜西省圖書館
出版地=西安
創建日期=2009-10-19(格式字段必須為YYYY-MM-DD)
發布日期=2010-09-11(格式字段必須為YYYY-MM-DD)
更新頻率=不定期更新
內容形式=文本
媒體類型=電子
學科類型=人文與社會科學
運行環境=Windows系統
文字語種=chi
訪問方式=互聯網訪問(取值字段填寫內容:互聯網訪問;局域網訪問)
適用對象=普通用戶(取值字段填寫內容為:普通用戶;少年兒童;殘障人士)
發布地址=http://www.snwh.gov.cn:8080/sxlib/xianshibian/index.htm
數據提交單位=陜西省圖書館
數據提交日期=2015-01-07(格式字段必須為YYYY-MM-DD)
CDOI=(此為唯一標識符字段,數據庫必備字段,因“西安事變”現階段沒有做唯一標識符認證,所以未填寫)
數據庫中的圖像字段為其元數據標引的必備字段,填寫內容為其數據庫發布頁面。
至此我們完成了對“西安事變”數據庫的元數據元素字段描述。
同理我們可以對其他類型數字資源進行元數據標引。利用WCM可導入EXCEL表格的功能,將多個數字資源的元數據標引放入EXCEL表中,并批量導入到WCM的元數據倉儲庫。如圖1所示。
在數字圖書館蓬勃發展的今天,根據國家圖書館元數據標準整合加工各級圖書館的數字資源,建立元數據倉儲數據庫勢在必行。國家圖書館元數據倉儲和文津檢索平臺是數字圖書館推廣工程的核心項目,各省市圖書館的元數據標引更是項目的核心組成部分。數據倉儲目前尚處于起步階段,但相信通過各級圖書館的不懈努力,倉儲數據庫內容會不斷增加,成為數字圖書館事業成功的堅定基石和強力保障,為讀者提供更加便利全面的閱讀體驗。
[1]郭瑞華.圖書館信息資源整合及元數據應用[J].圖書情報工作,2006(10):100—103.
=西安事變;張學良;楊虎城;蔣介石;雙十二事變(不同的關鍵詞用分號隔開)
或