陳有斌
摘要:數字圖書館的信息體系結構將分散在異地的數字化信息統一起來,構成一個虛擬而且具有優化結構的相關有機實體,為數字圖書館的應用提供統一的資源訪問,并且能方便地對資源進行管理。其主要構件是數字對象、句柄(或調度碼)和倉儲,數字對象存儲在倉儲中,用句柄來標識,數字對象具有分布式的體系結構。
關鍵詞:數字圖書館;信息體系;結構
數字圖書館的信息體系結構具有開放性,它將數字圖書館的整個功能劃分為一組定義明確的服務,每一種服務都通過一種定義明確的協議來訪問。這種結構為數字圖書館提供了其必須具備的基本功能,即一組核心服務,是有效管理的數字對象集(內容)和服務集(功能)的統一。服務集是與存儲、發現、檢索和保存數字對象相關的服務功能,實現服務集的子系統有:倉儲服務系統、名錄服務系統、索引服務系統和用戶接口網關。
一、數字圖書館核心服務的主要特征
數字圖書館體系結構中的內容是以數字對象形式存儲的,數字對象是用全局唯一的持久名字——句柄標識的,句柄用命名服務器注冊,用名錄服務器解析出句柄標識的數字對象的位置。數字對象的存儲和訪問是由倉儲服務系統來實現的。索引服務提供發現數字對象的機制,使用戶易于從館藏中尋找和發現所需的對象。用戶接口網關提供以人為中心的數字圖書館的功能入口。
二、數字對象系統
1.數字對象
數字對象是數字圖書館體系結構中存儲信息的基本邏輯單位和實體,是以一定結構的數字形式來表達信息內容的一種方法,是網絡環境下的數字資料??梢哉f數字圖書館是由數字對象構筑而成的,數字圖書館中的信息以數字對象形式存儲、訪問、傳播和管理,數字對象存放于倉儲(repository)中,其形式如一篇文章、一張圖片、一部音樂作品或一段影像。數字對象是由數字資料(或數據)和其唯一的標識符——句柄組成的,其中關于數據的信息稱作元數據。
(1)數字對象的組成
①元數據:或稱屬性、關鍵元數據,關于數字資料的數據,是存儲在數字對象中的信息,包含一些識別對象的條件、條款和調度碼。其功能是管理網絡環境下的數字對象,如數字對象的存儲、復制和傳輸等權限的管理。一般情況下,元數據有三種類型:描述性元數據,用于發現和標識一個對象,如MARC和Dublin Core(都柏林核心);結構性元數據,為用戶顯示和導航一個對象,包括該對象的內部組織信息,如一本書的章節結構信息;管理性元數據,描述該對象的管理信息,如創建日期、文件的格式、訪問權限、知識產權問題等。
②數字資料:是數字圖書館的原型資料,也就是最終用戶需要獲取的信息內容,即二進制字符串集合。一個數字對象所存儲的數字資料可能是經XML置標后的文本,或者是一本電子圖書;也可能包括傳統圖書館的資料,諸如一些計算機程序或動態的圖像。
③句柄或調度碼:是數字對象和其他因特網資源在全局范圍內的永久的唯一標志符,是URN的一種形式。URN(Uniform Resource Names)統一資源名稱也叫永久名稱,其名稱應該是全球唯一和持久的,且獨立于具體的存儲位置。句柄可按名稱識別對象庫中的數字對象或因特網上的資源。其作用有兩個方面:引用由URL列表所定義對象的一個或多個拷貝,提供E-mail地址,該地址不會隨著擁有者改變工作或者ISP(因特網服務提供商)的改變而變化。句柄實際上是使用具有唯一性的字符串給數字對象提供一個具有唯一性的名稱。
(2) NDLP項目中數字對象的結構體系
在美國國會圖書館的國家數字圖書館項目(NDLP)中,數字對象結構體系具有如下特征。
NDLP中基本信息單元是由字符組成且帶有自身標識ID的元素,包括數據元素、屬性、元素標識。數據元素是由任意二進制序列組成的字符串,屬性是處理元素所必需的信息,包括作用(role)和類型(type)。前者是一個規則的描述,定義了元素的功能,例如指明一個元素是SGML的數據類型定義(DTD);后者是一個類型的描述,包含了技術性的信息,例如指明一個元素的類型是JPEG。一個SGML文本可以被編碼為三個元素:置標后的文本、DTD以及樣式表,其中DTD定義了置標使用的語法,樣式表指定了輸出的格式。元素的ID是數字對象內部的一種標識,用于系統內部識別。
“包(package)”是帶有自身標識ID的元素和其他包的組合,包是可以嵌套的。如果一個包的標識是句柄,則這個包就是數字對象。因此,數字對象是一種特殊的包,數字資料由包和∕或元素組成。如有許多頁的一本書,被掃描成數字格式后,可在數字圖書館系統中被表示為一個單一的數字對象,它可包含一系列的影像頁和按SGML置標的目次頁。該數字對象的每個影像頁為一個元素,并有一個目次包。這種包有兩個元素:置標頁和DTD。
2.數字對象集
它是同類數字對象的組合,可用來表示一組有關聯的對象,如不同版本的程序、不同格式的文本或不同演奏的音樂作品,或者是平常所說的“報告”“程序”和音樂作品等,它們常常對應于數字圖書館中的很多對象,可以用數字對象集來表示。數字對象集包括組合對象和元對象兩種,組合對象的內容包含一組對象,元對象的內容包含一組對象的句柄。
總之;數字圖書館中的各種信息被描述為數字對象或數字對象集時,都需遵循各自的規則和協議,這些規則和協議規定了數字對象逐個描述信息或數字對象集組合描述信息的方法,明確了每個數字對象的內部結構,對圖書數字化管理提供了有效的服務途徑。