數(shù)字圖書館(DL)是將多種媒體形態(tài)的大量文獻信息以規(guī)范的數(shù)字方式存儲在計算機中,并將信息的存儲、管理、檢索、發(fā)布和產(chǎn)權保護等綜合技術集成在一起,利用現(xiàn)代網(wǎng)絡技術,實現(xiàn)跨地區(qū)、跨國家的多個DL的連接,使讀者能通過統(tǒng)一的界面,在任何地點、任何時間實現(xiàn)自己的信息需求。DL是一個沒有時間、地點限制的方便大規(guī)模的知識庫,它追求的最終目標是實現(xiàn)“聯(lián)邦檢索”,即把全球的數(shù)字化資源連為一體,實現(xiàn)數(shù)字資源和信息的共享,為用戶提供統(tǒng)一、高效的檢索服務。
目前,國內(nèi)外有為數(shù)眾多的DL還沒有實現(xiàn)連接,形成“聯(lián)邦服務”的機制。因為它們是屬于不同的機構、為了不同的目的而建造的,所以它們使用的都是不同的、不可互操作的技術,這也構成了形成聯(lián)邦數(shù)字圖書館的最大障礙。為了克服這一困難,出現(xiàn)了各種實現(xiàn)DL之間互操作的方案。其中基于元數(shù)據(jù)收集(metadata harvesting)的OAI-PMH方案由于實現(xiàn)的簡單性和易用性而得到了廣泛的應用。
然而假設隨著采用OAI-PMH技術的DL的增多,怎樣才能連接不同的DL,建立一個高效的聯(lián)邦數(shù)字圖書館,使它能夠通過統(tǒng)一的接口收集異構的、急速增長的OAI-PMH數(shù)據(jù)呢?網(wǎng)格技術的出現(xiàn)為我們指明了方向。本文在OAI-PMH框架的基礎上,結合網(wǎng)格技術,提出一個全新的DL互操作框架——數(shù)字圖書館網(wǎng)格(DL Grid)。
一、OAI-PMH技術
目前國內(nèi)外存在的大量的DL還沒有形成統(tǒng)一的聯(lián)邦式的服務,用戶可能要訪問多個DL才能得到自己需要的資料。形成聯(lián)邦式數(shù)字圖書館的最大障礙是不同DL間的互操作問題,OAI-PMH通過元數(shù)據(jù)收割來解決DL之間的互操作問題。許多以前的DL采用“分布式檢索”來實現(xiàn)DL之間的互操作。這種方法只適用于節(jié)點較少時(如小于20個)的情況,對于互聯(lián)網(wǎng)上大規(guī)模的節(jié)點之間(如大于100)卻顯得效率低下。OAI-PMH的最新版本2.0定義了元數(shù)據(jù)交互時通用的格式,這種交互是獨立于底層數(shù)據(jù)庫的。
OAI-PMH是一個比其他互操作技術更簡單的批量元數(shù)據(jù)傳輸協(xié)議,其他更具體的功能則要借助其他技術。理解OAI-PMH的關鍵是理解OAI-PMH中DP(Data Provider,數(shù)據(jù)提供者)和SP(Service Provider,服務提供者)的區(qū)別。DP是一個數(shù)據(jù)倉儲,向SP提供元數(shù)據(jù)。SP利用DP提供的元數(shù)據(jù)提供增值服務,SP向用戶提供服務,DP向SP提供元數(shù)據(jù),一個SP可以從多個DP收割元數(shù)據(jù),而實際上,一個DL既可以是DP也可以是SP。OAI-PMH對用戶是完全透明的,它定義了SP和DP之間的交互作用。
二、DL Grid體系結構
OA I-PMH是利用Harvesting概念建立的典型元數(shù)據(jù)采集框架,它為DL的互操作提出了一種簡單、可行的解決方案,解決了分布式搜索無法解決的一個規(guī)模問題。而網(wǎng)格技術關注大規(guī)模的資源共享,革新的應用,以及在某些事例上高性能的需求,它強調(diào)多機構之間大規(guī)模的資源共享和合作使用,提供了資源共享的基本方法。
通過研究網(wǎng)格和OAI-PMH的架構,本文提出一個基于網(wǎng)格的三層DL互操作框架。過去OAI-PMH只是將DP和SP直接相連,簡單地在http上實現(xiàn)元數(shù)據(jù)的采集,而本文提出的框架中,采集(harvester)節(jié)點通過網(wǎng)格收集DP的元數(shù)據(jù)。為增強收集和索引的動態(tài)性能,加快元數(shù)據(jù)的更新速度,在DL Grid體系結構中引入三類網(wǎng)格服務節(jié)點:采集調(diào)度服務節(jié)點、元數(shù)據(jù)采集節(jié)點和元數(shù)據(jù)收集/傳送節(jié)點。本文提出的三層DL Grid從下到上依次分為資源層、網(wǎng)格服務層和服務層。
1.資源層
資源層由異構的DL構成,是整個DL Grid系統(tǒng)的信息提供者,也就是OAI-PMH中的DP。它將DL的相關信息提供給采集調(diào)度服務,并且向元數(shù)據(jù)采集節(jié)點提供符合OAI-PMH標準的Dublin Core標準元數(shù)據(jù),或者其他任何可以編碼成XML文檔格式的元數(shù)據(jù)。
2.網(wǎng)格服務層
網(wǎng)格服務層是DL Grid的核心,它利用網(wǎng)格技術實現(xiàn)資源層中元數(shù)據(jù)發(fā)現(xiàn)、采集、組織、存儲等功能,并向服務層提供透明、統(tǒng)一的接口。
(1)采集調(diào)度服務節(jié)點。該服務的主要功能是:存儲一個配置文件,其中存儲所有被收集的DP的列表;檢查元數(shù)據(jù)收集節(jié)點上的軟件版本是否一致、可用,如果某個元數(shù)據(jù)收集節(jié)點的軟件不可用,則通過采集調(diào)度服務節(jié)點向其傳送可用的軟件壓縮包;將收集元數(shù)據(jù)的任務分配給元數(shù)據(jù)收集節(jié)點并配置參數(shù),再根據(jù)參數(shù)對收集工作進行跟蹤。
(2)元數(shù)據(jù)收集節(jié)點。這類節(jié)點從采集調(diào)度服務節(jié)點處接受任務,獲得DP的地址,從DP處采集元數(shù)據(jù)。采集完成后,通知采集調(diào)度服務,領取新任務,并接受采集調(diào)度節(jié)點的命令將收集的元數(shù)據(jù)傳送給元數(shù)據(jù)收集/傳送節(jié)點。
(3)元數(shù)據(jù)收集/傳送節(jié)點。該節(jié)點的功能是收集元數(shù)據(jù)收集節(jié)點的元數(shù)據(jù),并把它們分配到不同的索引和收集節(jié)點。
3.服務層
服務層集成收集來的元數(shù)據(jù),通過向用戶提供統(tǒng)一的聯(lián)邦搜索服務,為用戶提供文獻檢索、個性化服務、參考咨詢等增值服務。該層由以下節(jié)點構成:
(1)索引和搜索集群節(jié)點。該節(jié)點存儲下層元數(shù)據(jù)采集/傳送服務節(jié)點傳來的元數(shù)據(jù),并對其進行重新索引或增量索引;按照聯(lián)邦搜索節(jié)點的要求,利用索引執(zhí)行搜索任務,并返回結果。
(2)聯(lián)邦搜索節(jié)點。該節(jié)點向用戶提供統(tǒng)一的搜索界面,將用戶的搜索請求分配給索引和搜索集群節(jié)點,并整合搜索結果提交給用戶。
三、實現(xiàn)DL Grid的關鍵問題
1.元數(shù)據(jù)管理和信息服務
良好地表示、存儲、訪問和使用海量資源信息是DL Grid運行的基本前提。在DL Grid中,資源及其提供者是分布的。在DL Grid計算中,需要建立靈活的、可擴展的信息服務體系結構。這種體系結構應當保證資源信息提供者的廣泛分布性和加入或離開服務的動態(tài)性,避免由于單個信息服務實體的失敗導致其他資源信息服務不能正常提供服務。
2.任務管理
任務管理是DL Grid研究必須解決的另一個關鍵問題。網(wǎng)格計算的目標是分解一個應用為幾個子任務。由于應用程序分解的任務之間往往包含優(yōu)先約束關系,對這樣的任務進行調(diào)度是必須重點考慮的問題之一。任務管理完成任務提交、查詢、為任務指定所需資源、刪除任務并監(jiān)測任務的運行狀態(tài)。任務調(diào)度的作用是根據(jù)當前系統(tǒng)的負載情況,對系統(tǒng)內(nèi)的任務進行動態(tài)調(diào)度,實現(xiàn)負載平衡,提高系統(tǒng)的運行效率。
3.安全控制
DL Grid所要實現(xiàn)的安全服務主要包含兩項基本內(nèi)容:對資源使用的安全認證和對資源操作的權限控制。安全認證要實現(xiàn)提供給資源使用者及其所要求的資源之間一套能夠識別并確認對方身份的機制;權限控制則要求做到能夠?qū)①Y源使用者對該資源的權限明確地映射成該資源在其擁有者本地的操作權限。對于DL Grid中的安全服務,它應該實現(xiàn)下面的功能:
(1)一次性的身份認證。資源的使用者應能在第一次身份認證被確認后就獲得對資源相應的操作權限,在釋放該資源的控制權之前,使用者對于該資源的各種操作(請求、使用、釋放、內(nèi)部通訊)都不需要再次通過身份認證。
(2)對用戶信用信息的保護。這里的用戶信用信息主要包括用戶的密碼等信息,對這類信息的保護需要注意到存儲時的保護以及在網(wǎng)絡傳輸時的加密保護措施。
4.用戶界面
用戶界面設計影響用戶使用DL Grid的效率。如何保證用戶使用網(wǎng)格資源和構建問題解決(如統(tǒng)一檢索、網(wǎng)上咨詢)的效率和易用性,使用戶界面達到與平臺無關、與地理位置無關、安全、易用等目標,是設計DL Grid用戶界面應考慮的問題。
實現(xiàn)全球DL的信息資源共享和檢索,必須解決不同DL之間的互操作問題。OAI-PMH技術的出現(xiàn)很好解決了這個問題,但是假設使用OAI-PMH技術的DL數(shù)量的增加,傳統(tǒng)的基于Web的中央控制系統(tǒng)不能滿足需要。網(wǎng)格技術在處理分布式系統(tǒng)、異構性資源、動態(tài)性服務需求等方面具有強大的功能,作為一種探索性的課題,本文利用先進的網(wǎng)格技術,在原有的OAI-PMH框架基礎上,提出了DL Grid的體系框架,為實現(xiàn)大規(guī)模DL間的互操作提出了新思路。
(作者單位:河北化工醫(yī)藥職業(yè)技術學院)