馬林聰,楊 帆
(1.貴州財經大學信息學院,貴州 2.貴州財經大學圖書館)
在網絡時代的高速發展之下,用戶對于圖書館的訴求與圖書館服務模式已經向更加具備知識化、智慧化發展[1]。開放圖書館數據包含了館藏數據和用戶閱讀行為數據,讀者閱讀行為數據,是指讀者在進行閱讀這一行為時,所產生的所有與之相關的數據。包括館內借閱數據、到館離館時間數據、電子資源下載數據、查閱數據、搜索數據等。元數據標準規范的建立是為了保證圖書館進行數據共享的先決條件,在此過程中,數據標準對于落實我國的政策法規,指導閱讀行為數據建設的承上啟下的作用[2]。
國內圖書館領域研究人員在元數據標準方面已經具備了較多的研究成果,主要集中在對與科學數據和政府開放數據這兩方面的元數據標準研究上,如司莉[3]對美國的開放政府數據網中的元數據標準(POD v1.1 與ISO19115-2)進行了介紹,包括其基本元素,語法信息等。趙蓉英和梁志森[4]以英國的Data.gov.uk 為研究主體,從文件結構層面、元素組成及制定規則等方面對其元數據標準的特點進行了系統地總結。黃如花和李楠[5]分析了澳大利亞的數據平臺Data.gov.au,提出我國建立元數據標準,需要盡可能地發布更多種類型的數據格式。朱玲[6]則從內容結構視圖的角度出發,對八種比較經典的元數據標準進行分析,包括其元素內容等方面。在元數據標準應用方面,張勇和蔡璐[7]闡述了元數據標準與實際應用對接中存在的問題,并提出解決思路。劉美杏[8]在基于國際規范化的元數據標準DC 和VRA Core 設計了一套關于古道文化遺產數據資源元數據標準。對于圖書館資源元數據規范,各圖書館大多數都以DC 元數據標準為基礎,根據其館內和地域特色,構建其特有的圖書館資源元數據規范標準,因此在數據資源交互流通方面存在了諸多限制。
本文以讀者閱讀行為數據為研究對象,分析其為滿足圖書館用戶閱讀行為數據資源的統一利用,以實現異構數據的交互問題,為構建應用于圖書館用戶閱讀行為數據的通用元數據標準提供建議,提高圖書館資源的有效利用。
圖書館中讀者的閱讀行為數據在持續性產生,圖書館服務職能的提升和智慧圖書館的發展需要依靠于能夠對大量數據進行管理、分析和利用的業務系統。為了支持閱讀行為數據的發現、獲取、分析和再利用,對于構建元數據標準的需求,應該從以下三方面進行分析:
對閱讀行為數據的生命周期進行管理是確保圖書館對用戶閱讀行為數據進行持續性分析的先決條件。支持元數據從收集、編目、加工到服務這一完整的生命管理周期之間,了解到是什么數據內容在持續作用,而什么數據信息在持續的信息運作中又發生了改變。張培風[9]提出了一條針對數據周期性管理的有效路徑,從而實現數據的管理目標。元數據在一個完整的數據周期中,存在于多個業務系統和流程中,阻礙了對數據的統一管理。
圖書館服務的對象多種多樣,因此讀者的閱讀行為數據所服務對象的側重點也因服務對象而異。對于圖書館的用戶而言,元數據是查找所需書籍、電子材料等所必需的信息數據。元數據通過對館內資源的相關信息進行描述,比如圖書的目錄、索引號等,幫助用戶對查找資料快速定位。對于圖書館管理人員而言,標準化的元數據幫助他們更好地對數據進行管理與維護。對于生產者而言,標準化的元數據有利于數據的生產和更新,不會因為用戶個人或者機構的改變影響到數據的產生和管理。閱讀行為數據的最大用戶是讀者。
由于不同圖書館之間使用不同的業務系統,甚至于單個圖書館內部,都存在不同的元數據標準,例如門禁系統、借閱系統等生產自不同的廠家,對于業務的整合也有著諸多的限制。因此面對新時代關聯網絡的需求,需要將元數據進行規范化的處理,將不同系統、不同領域內的數據資源都關聯到一起,做到靈活可擴展、規范且兼容。
元數據是保證讀者閱讀行為數據獲取和再利用的關鍵因素。如果圖書館之間都能夠按照統一的元數據標準對數據進行規范,那么在任何地方都能夠訪問和理解其他多個地域或機構的圖書館數據,以供用戶使用。
2.1.1 CDLS 元數據標準
2002 年,CDLS 《中國數字圖書館標準規范》由多個機構聯合發起制定,主要針對目標是我國數字圖書館的數字資源建設及相關問題[10]。CDLS 主要對數據內容和元數據標準兩個方面進行描述。對于數據內容的描述主要包括內部的內容信息的描述和外部的內容信息。內部內容信息包括題名、描述和標識等;外部內容信息包含了從創建數據集,到發布數據集這一整個過程中涉及的所有屬性元素,包括創建者、創建機構、創建時間、創建空間、權限管理等內容。
CDLS 元數據標準是以都柏林核心元數據為基礎,復用了其中的15 個核心元素,CDLS 元數據標準的元素可劃分為必要元素和非必要元素,必要元素又分為可變必要元素和不可變必要元素。不可變必要元素指的是必須要含有的屬性元素,不可變動,例如題名(Title)、日期(Date)和創建者(Creator)。可變必要元素是指數據集滿足某種條件的情況下必須包含的元素,如出版者(Publisher)和標識符(Identifier)[11]。根據領域內的特點,在原有的屬性元素基礎上進行適當的增添屬性,如針對期刊論文和會議論文增加了“論文類型”元素;針對學位論文增加了“學位”元素等。
為了實現效率最高、最易實施的互操作,可在已有的國際元數據標準基礎之上進行復用,以增強方案的普適性。除了基礎的核心元素以外,CDLS 支持對元素進行擴展,包括橫向擴展和縱向擴展。橫向擴展是直接增加元素,縱向擴展是對已有的元素進行修飾或細化。在對元素進行擴展時,必須保證增添的擴展元素信息和已有的元素之間沒有重復,否則增添失敗,縱向擴展的優先級高于橫向擴展。因此在對閱讀行為數據進行元數據規范的制定時,根據需求采用實時更新擴展的原則。見表1。

表1 CDLS 核心元素列表
2.1.2 地理空間數據元數據標準
我國國家標準《地理信息 元數據》GB/T19710-2005 是以國際化標準組織ISO 發布的標準地理空間元數據ISO 19115 為基礎,在原有標準中作了修訂。ISO 19115 標準被國際上很多機構采納使用。GB/T19710-2005 旨在將有關地理數據標識、質量、空間和時間模式、覆蓋范圍等特征進行描述,來促進數據信息的共享。
GB/T19710-2005 定義的全集數據集內容非常復雜,元數據總量和實體超過四百多個,但是在實際使用中通常只會用到其中一個。有時只需要很少量的數據元素,就可以對一個數據集進行描述。為了回答“某個數據集是否存在?”“數據集在何處?”等基本問題,只需要含有少量核心元數據元素來描述。GB/T19710-2005 共有22 個核心元素,見表2,其中還包含了這些核心元素的類別以及描述對象。共分為三類,必選元素、條件必選元素和可選元素。

表2 GB/T19710-2005 核心元素列表
由表2 分析可知,數據集的地理位置屬性由空間表示類型、數據集地理位置、數據集空間分辨率幾個方面來描述,此標準通過對地理坐標或地理標識符來確定位置。
2.1.3 數據目錄詞匯DCAT
DCAT(Data Catalog Vocabulary),是一種RDF 類型的詞匯表,是政府開放數據元數據的推薦標準,由2014 年發布。DCAT 最大的特點是可以支持數據目錄之間的相互操作。DCAT 包含了15 個基本元素,能夠滿足數據及的一些基本操作需求,幫助用戶對數據進行查找、認識、下載和訪問等。DCAT 中數據資源、數據目錄和數據集之間的關系如圖1 所示。

圖1 數據資源、數據目錄和數據集關系圖
基于傳統的XML 異構交換數據是目前各系統之間和系統內部信息互通的重要手段,其特點主要是具有良好的數據存儲格式、可擴展性高、自描述化強。但JSON 格式在解析速率、兼容性和數據傳輸開銷等方面也存在明顯的優勢,閱讀行為數據則采用兩種數據格式對數據資源進行描述。
2.2.1 JSON 數據格式及語法結構
JSON (Java Script Object Notation)是一種輕量級的數據傳輸格式,無論是在傳輸效率、解析難度、擴展性,還是可讀性上,都具有很大的優勢。JSON 具有兩種結構方式:(1)“名稱/值”對的集合;(2)值的有序列表,被理解為矢量、列表、序列或數組。根據Tim Berners Lee 的5 星評價標準,JSON 屬于最佳的元數據文件格式[13]。
JSON 結構實例如下所示:


該片段簡單地對數據集的標題、id 代碼、創建者等字段進行描述,可以清晰的看到在JSON 格式下的機器語言展示方式,通過“屬性”:“值”的形式對元數據進行描述。
2.2.2 XML 數據格式及語法結構
我國國家標準《地理信息 元數據》GB/T19710-2005,是在ISO 19115 地理元數據規范的基礎上進行修改并制定的,因此采用的數據格式也是基于ISO 19115,即XML 編碼,被用來傳輸和存儲數據。XML 也是W3C 的推薦標準,允許用戶自定義標簽。其語法特點主要包括:所有元素都必須有關閉標簽;區分大小寫;正確嵌套;必須包含根元素;屬性值需加引號[14]。
元數據記錄由單個或多個屬性,以及關聯數據組合而成。每一條數據內容都應該在一組標記的開始和結束之中,而每一個標記又需要在另一組標記下的開始和結束之間,形成了層層嵌套的復雜關系。其中每一條數據內容都是此描述資源的組成部分,屬性可以重復,屬性之間包含的是屬性的值,每個值都是由文字字符串組成,并且編碼方式相互關聯。某一數據集的XML 結構如下所示:


上述結構展示的是XML 基本語法結構,在對數據集描述時,首先要進行聲明,然后設立數據集的根節點,按順序對每一個數據集的元數據信息進行描述。。
2.2.3 不同元數據標準之間的映射
映射機制是指利用特定的轉換方式,對不同元數據標準的元素、語法進行轉換。建立映射關系時,需要從結構、編碼、應用等多個方面揭示映射關系。在結構方面,建立元素的對應關系;在編碼方面,檢查源元數據元素與其對應的目標元數據元素編碼規則的匹配情況;在應用方面,檢查必備性與可重復性的匹配情況。各領域的元數據標準是不同制定人員根據其自身數據特色所制定的標準,因此在語義上不可能完全一致,所以在匹配中會出現一對一、一對多或無對應關系的情況,造成部分信息丟失或產生歧義等問題,因此健全的映射機制是保證數據開放共享的重要因素。。
我國各圖書館目前缺乏統一的、通用的元數據標準,在已有的國際化通用元數據標準的基礎上,根據實際需要,就圖書館如何構建統一的元數據標準作出如下建議:
構建統一的用戶閱讀行為元數據規范,首先需要確定用戶閱讀行為數據的類型。當前圖書館讀者閱讀行為數據類型包括:出入館記錄,檢索數據、外借書籍數據、歸還時間數據、續借數據、讀者館內運動軌跡數據、電子資源瀏覽及下載數據、用戶登錄數據、讀者反饋記錄等,其中關鍵數據為用戶的借閱數據。
目前針對不同元數據標準之間的規范方式主要有以下兩種:一是直接使用國際通用標準,如ISO 19115、CSDGM、DC都柏林核心、JSON、FGDC/CSDGM 等元數據標準,采用國際權威標準有助于保持持續兼容;其二是在國際通用元數據標準的基礎上,根據用戶閱讀行為數據集的特征,來制定出符合大多數圖書館都適用的元數據標準。目前大多數圖書館都采用通用的國際化元數據標準,針對不同地域及特色產生的數據集,采用的元數據標準有些許的出入。一套完善的元數據標準,應該對其他地方性或領域的元數據標準具備兼容性,因此在構建時,可以針對其特色增添額外屬性,以保證制定的標準可以被廣泛使用。
在對數據集描述時,在內容和格式上都需要進行規范,以實現用戶和機器同時可讀。所以在對數據集內容進行描述時,應結合現有的國際化標準與圖書館數據集特點,構建符合大多數圖書館數據及要求的元數據標準;在對數據集格式進行描述時,可以采用多種開放性格式,以滿足多種數據的需求。表格類數據采用CSV 格式,即以純文本形式存儲表格數據;文本格式數據采用TXT 等;對于地理空間數據格式,可采用ISO19139、GEMINI、GB/T19710-2005 等標準。
基于以上描述,在對我國圖書館用戶閱讀行為數據進行統一化標準化時,應遵循以下思路:首先對圖書館用戶閱讀行為數據的邊界進行界定,明確資源類型,針對不同類型的數據集進行描述,其次通過對數據集的分析,確定核心數據內容和格式,最后確定用戶閱讀行為數據的層次和元素屬性,其中應細粒度的描述從數據集來源到數據發布期間所涉及的各類機構、時間、人等數據內容和特征,以增強對用戶閱讀行為數據的利用。
圖書館用戶閱讀行為數據,是當代圖書館提升服務質量和多樣化的重要來源。本文通過對閱讀行為數據的數據類型和目標進行梳理的前提下,對符合其需要的元數據標準進行分析。目前我國各高校圖書館和公共圖書館對于讀者的閱讀行為數據基本采用“自治”的處理方法,各圖書館系統之間缺乏有效的數據互通,因此統一的元數據規范和數據格式可以有效促進數據鏈接和互操作,避免在數據交換過程中產生歧義,從而更好的利用用戶閱讀行為數據,以提升圖書館的服務能力。