[摘 要]本文在傳統(tǒng)數(shù)字圖書館的概念上,提出一種基于網(wǎng)格框架的數(shù)字圖書館體系結(jié)構(gòu),著眼于數(shù)據(jù)管理的協(xié)同操作,并可獲得更高效的服務(wù),有助于未來數(shù)字圖書館發(fā)展。
[關(guān)鍵詞]網(wǎng)格計算;數(shù)據(jù)網(wǎng)格;數(shù)字圖書館;資源管理;聯(lián)合模式
[中圖分類號]G250.76 [文獻(xiàn)標(biāo)識碼]C [文章編號]1008-0821(2010)04-0073-03
Next Generation Digital Library-Digital Library GridJian Yuxian Cheng Xiaoying Zhu Xiaobing
(Library,Xian Communication College,Xian 710106,China)
[Abstract]In this paper,based on the traditional model,a grid based digital library framework was proposed,which focused on data management,collaborative action and could help future evolution of digital libraries.
[Keywords]grid computing;resource management;digital library
1 概 述數(shù)字圖書館(DL,Digital Library)技術(shù)是研究傳播、存儲、查詢及分析各種數(shù)字?jǐn)?shù)據(jù)的理論和實踐的技術(shù)[1]。數(shù)字圖書館作為知識的存儲者,可以被看作是復(fù)雜的信息系統(tǒng),幫助人們解決眾多科學(xué)、技術(shù)、方法、經(jīng)濟、法律等方面的問題。近些年,數(shù)字圖書館技術(shù)飛速的發(fā)展起來,但同時也面臨了許多挑戰(zhàn),如信息的語義、信息整合及大量的不同種類的數(shù)據(jù)的標(biāo)注等諸多方面問題。數(shù)字圖書館已經(jīng)在眾多科學(xué)機構(gòu)和大學(xué)中發(fā)揮越來越重要的作用。數(shù)字圖書館已經(jīng)成為知識和力量的象征和保證。當(dāng)前的數(shù)字圖書館建設(shè)都是在與出版商協(xié)商后,獲得許可的基礎(chǔ)上建立起來的,從而取代了訂閱印刷版期刊。同時為數(shù)不少的大學(xué)將數(shù)字圖書館與傳統(tǒng)印刷版式圖書館相結(jié)合,成為“混合圖書館”。數(shù)字圖書館以其存儲量大、占地面積小、服務(wù)更快捷成為知識保管的重要方式。但對于體積日益膨脹,信息整合度要求越來越高的數(shù)字圖書館,也面臨著諸多方面的挑戰(zhàn),如:資源發(fā)現(xiàn)、統(tǒng)一的標(biāo)準(zhǔn)接口、數(shù)字圖書館管理、版權(quán)與許可以及成本優(yōu)化。在多種異構(gòu)數(shù)據(jù)源中進(jìn)行資源發(fā)現(xiàn)是數(shù)字圖書館技術(shù)中需要解決的一個關(guān)鍵問題。網(wǎng)格技術(shù)的出現(xiàn)使將多個異構(gòu)、獨立存在的數(shù)字圖書館整合成一個全球化數(shù)字圖書館成為可能。數(shù)據(jù)網(wǎng)格技術(shù)就是這樣一個實例,它將多個獨立的數(shù)字圖書館聯(lián)合起來,使用共同的名字空間,并遵守共同的訪問機制。這充分的證明了,即使是在不同的技術(shù)和政策下,消除異構(gòu)數(shù)據(jù)源間的孤立性也是完全有可能的。
2 網(wǎng)格技術(shù)網(wǎng)格計算是使用通過網(wǎng)絡(luò)連接在一起的大量分散計算機資源從而大規(guī)模計算問題的技術(shù)[2]。網(wǎng)格計算涉及共享異構(gòu)資源,如不同的平臺、不同的硬件和軟件架構(gòu)或是不同的計算機編程語言。這些資源位于不同的地理位置,從屬于不同的管理域,提供開放標(biāo)準(zhǔn)。使用這些資源,一定會涉及到資源的虛擬化。從功能上,可以將網(wǎng)格分為以下幾種:(1)計算網(wǎng)格,主要應(yīng)用于大規(guī)模計算上;(2)數(shù)據(jù)網(wǎng)格,控制和共享大量分布式數(shù)據(jù);(3)設(shè)備網(wǎng)格,連接大量地域上分散的設(shè)備儀器,實現(xiàn)遠(yuǎn)程使用的目標(biāo)。其中,數(shù)據(jù)網(wǎng)格是一個以數(shù)據(jù)為中心的網(wǎng)格計算系統(tǒng),控制共享和管理大量分布式數(shù)據(jù),往往與計算網(wǎng)格緊密結(jié)合[3]。許多科學(xué)和工程應(yīng)用需要訪問大量的分布式數(shù)據(jù),甚至可能是PB級的數(shù)據(jù)量。并且這些數(shù)據(jù)的規(guī)模和數(shù)量近些年仍在持續(xù)的迅速增長,新的儀器和傳感器越來越多的可以在線使用,計算的代價成本和數(shù)據(jù)存儲代價降低而性能卻提高了,新型科學(xué)計算工具不斷的被開發(fā)出來。這里,我們提出各種不同形式的數(shù)字圖書館的一體化概念。網(wǎng)格計算允許多種數(shù)字圖書館在網(wǎng)格環(huán)境下彼此互聯(lián),從而支持一體化的訪問數(shù)字資源。通過任何連接到圖書館網(wǎng)格節(jié)點,用戶可以訪問數(shù)字圖書館資源從而查詢到所需的信息。在對所需信息資源進(jìn)行定位后,數(shù)據(jù)網(wǎng)格將進(jìn)行副本選擇,以此來提供下載速度最快的節(jié)點調(diào)度給用戶。這里是考慮了下載速度的因素,也可以根據(jù)不同的業(yè)務(wù)要求選擇不同的標(biāo)準(zhǔn)進(jìn)行調(diào)度。最后將數(shù)字文檔傳輸給用戶。這樣,圖書館網(wǎng)格就完成了一次一體化查詢。很明顯的看出,網(wǎng)格環(huán)境下的數(shù)字圖書館有助于全球化資源的檢索、共享和跨各種異構(gòu)資源的協(xié)同服務(wù)。圖1為在網(wǎng)格環(huán)境的支持下,不同地理位置的數(shù)字圖書館呈現(xiàn)全球化的視圖。每個數(shù)字圖書館在網(wǎng)格中相當(dāng)于一個資源節(jié)點,這樣也就實現(xiàn)了全球化數(shù)字圖書館的資源共享和一體化管理與訪問。
期下一代數(shù)字圖書館——數(shù)字圖書館網(wǎng)格Apr.,2010Vol.30 No.4圖1 全球化數(shù)字圖書館視圖3 數(shù)字圖書館系統(tǒng)的需求本文的目標(biāo)是構(gòu)建一個軟件工具包,它可以幫助用戶根據(jù)用戶的需求建立數(shù)字圖書館并將需求實例化,然后提交從現(xiàn)有資源中獲得的新的文檔和內(nèi)容。數(shù)字圖書館的核心功能集中包括查詢、檢索、獲取信息對象,這些核心功能是任何一個數(shù)字圖書館都應(yīng)提供的[4]。這些功能對用戶的每一次提交的格式通常都是不同的,因為它們應(yīng)用了不同的詞匯表和規(guī)則進(jìn)行的變異。除了這些核心的功能模塊,數(shù)字圖書館通常還可以滿足用戶的某些特殊要求,從而提供定制服務(wù)。新的機構(gòu)或組織可能會要求在數(shù)字圖書館的生命周期內(nèi)參與改建,并且希望通過添加額外的功能來滿足新的需求。一個數(shù)字圖書館必須是動態(tài)的、自適應(yīng)的,以此來應(yīng)對各種新的環(huán)境。但另一方面,建設(shè)一個數(shù)字圖書館是相當(dāng)昂貴的,在資金、基礎(chǔ)設(shè)施和人力資源方面的要求都非常高。許多組織和機構(gòu)相信可以通過采用一個數(shù)字圖書館的聯(lián)合模式來克服這個問題。這個聯(lián)合模式就是將多個數(shù)字圖書館放在網(wǎng)格環(huán)境下,每個數(shù)字圖書館都是網(wǎng)格中的一個資源節(jié)點,統(tǒng)一由網(wǎng)格進(jìn)行管理和調(diào)度。所以在這種聯(lián)合模式下,多個組織可以共享網(wǎng)格中所有成員節(jié)點的資源來構(gòu)建一個針對需求的新數(shù)字圖書館,這樣既避免了資源的缺乏和單一,又節(jié)省了重開發(fā)的各項開銷。同時,由于網(wǎng)格中的各資源節(jié)點充分自治,所以如果需要的話,各組織或機構(gòu)可以完全掌控自己的資源,決定參與網(wǎng)格共享的程度,這也是一種資源保護(hù)的重要手段。數(shù)字圖書館用戶要求服務(wù)質(zhì)量是有保證的,比如對服務(wù)的可執(zhí)行性、可靠性和安全性等方面的要求。訪問內(nèi)容和服務(wù)往往是受到訪問策略的限制的。這些都說明,例如,一個對象集合只提供給一組特定用戶查看,或者一組服務(wù)只在一個特定時間段提供免費服務(wù)。以上這些都是控制策略。
4 網(wǎng)格中間件與數(shù)據(jù)網(wǎng)格網(wǎng)格計算通過聯(lián)合網(wǎng)絡(luò)中不同的資源和各個孤立的計算設(shè)備使得計算能力得到了極大的提高。當(dāng)電腦或者其他設(shè)備連接到網(wǎng)格時,網(wǎng)格上的其他計算機將會查詢其組件,并開始與其共同處理和計算相關(guān)工作。這樣,除了數(shù)據(jù)倉庫,網(wǎng)格中的計算機閑置計算能力得到了利用,大大的提高了計算能力,同樣在數(shù)字圖書館網(wǎng)格中也適用[5]。數(shù)據(jù)網(wǎng)格體系結(jié)構(gòu)是為了整合網(wǎng)格環(huán)境下的數(shù)據(jù)存儲設(shè)備和提供數(shù)據(jù)管理服務(wù)提出的。數(shù)據(jù)網(wǎng)格由分散的數(shù)據(jù)資源和計算資源構(gòu)成,這些資源位于不同的地理位置,但提供統(tǒng)一的訪問入口進(jìn)行訪問。網(wǎng)格中間件是網(wǎng)格設(shè)施中的關(guān)鍵技術(shù),它是一個非常寬泛的概念,泛指在網(wǎng)格基礎(chǔ)設(shè)施和網(wǎng)格應(yīng)用之間提供的通用服務(wù)。它通過解決大范圍、異構(gòu)、分布等網(wǎng)格環(huán)境下的問題,提供開發(fā)網(wǎng)格應(yīng)用系統(tǒng)的統(tǒng)一模型。數(shù)據(jù)網(wǎng)格中的網(wǎng)格中間件主要負(fù)責(zé)異構(gòu)資源的資源管理和數(shù)據(jù)訪問等方面工作。多種不同網(wǎng)格中間件都可以很好的支持網(wǎng)格環(huán)境下的不同應(yīng)用的開發(fā),如Globus、Legion、Unicore等等[6]。其中Globus是應(yīng)用最廣的開源系統(tǒng)。在本文提出的框架結(jié)構(gòu)中采用的就是Globus工具包。它提供了安全性、資源管理、數(shù)據(jù)管理和信息服務(wù)等主要功能。基于Globus的數(shù)據(jù)網(wǎng)格由兩層組成。下層是數(shù)據(jù)網(wǎng)格的核心服務(wù),高層則是應(yīng)用組件。如圖2所示的數(shù)據(jù)網(wǎng)格體系結(jié)構(gòu):
圖2 數(shù)據(jù)網(wǎng)格體系結(jié)構(gòu) 其中存儲系統(tǒng)是基礎(chǔ)數(shù)據(jù)網(wǎng)格組件。如HPSS、DPSS這樣的文件系統(tǒng)都被包含其中。數(shù)據(jù)訪問服務(wù)是一組關(guān)于訪問策略的集合,保證了數(shù)據(jù)在存儲系統(tǒng)中的管理和傳輸。元數(shù)據(jù)服務(wù)是用來管理和訪問元數(shù)據(jù)的,包括數(shù)據(jù)網(wǎng)格的一些信息。元數(shù)據(jù)是一些用來描述在數(shù)據(jù)環(huán)境下文件和信息的數(shù)據(jù),也就是通常說的——描述數(shù)據(jù)的數(shù)據(jù)。復(fù)制元數(shù)據(jù)可以用來管理數(shù)據(jù)對象的復(fù)制。資源管理負(fù)責(zé)保障存儲系統(tǒng)、網(wǎng)絡(luò)和其他數(shù)據(jù)網(wǎng)格資源端到端的訪問效率,技術(shù)評估測試的效率,以及一些重要資源的管理。網(wǎng)格安全基礎(chǔ)設(shè)施面向大規(guī)模用戶群體提供認(rèn)證機制和授權(quán)環(huán)境。副本管理是數(shù)據(jù)網(wǎng)格能夠成功處理大量數(shù)據(jù)的關(guān)鍵部件。它負(fù)責(zé)決定何時何地產(chǎn)生副本,產(chǎn)生的這些副本用于提供資源的定位信息。
5 數(shù)字圖書館網(wǎng)格框架綜上所述,將網(wǎng)格技術(shù)與數(shù)字圖書館技術(shù)相結(jié)合具有明顯的好處,具體體現(xiàn)在以下幾個方面:(1)網(wǎng)格有利于數(shù)字圖書館的信息集成,避免數(shù)字圖書館的反復(fù)重構(gòu);(2)網(wǎng)格為數(shù)字圖書館提供統(tǒng)一平臺,為用戶屏蔽操作的復(fù)雜性和資源的異構(gòu)性;(3)網(wǎng)格有利于實現(xiàn)數(shù)字圖書館的資源共享,提供收放自如的訪問機制。所以本文在傳統(tǒng)的數(shù)字圖書館的單一模式之上,針對數(shù)字圖書館的發(fā)展新需求,設(shè)計了網(wǎng)格環(huán)境下聯(lián)合模式的數(shù)字圖書館框架結(jié)構(gòu),即數(shù)字圖書館網(wǎng)格框架結(jié)構(gòu)。網(wǎng)格面向服務(wù)的體系結(jié)構(gòu)十分適合構(gòu)建聯(lián)合模式的數(shù)字圖書館。網(wǎng)格服務(wù)和Web服務(wù)在數(shù)字圖書館中扮演著十分重要的角色[7]。表1中列出部分服務(wù),這些服務(wù)由數(shù)字圖書館網(wǎng)格中的不同部件提供。表1 數(shù)字圖書館網(wǎng)格中部分部件提供的服務(wù)
服務(wù)名稱服 務(wù) 功 能知識庫存儲和傳輸文檔,這些文檔可以是結(jié)構(gòu)化的,也可以是半結(jié)構(gòu)或無結(jié)構(gòu)的多媒體存儲存儲和管理流媒體,下載視頻文件,傳送視頻或只傳送文檔的一部分或?qū)傩院涂蚣軋D書館管理提交、撤銷和更換文檔。這部分功能可以通過對元數(shù)據(jù)的配置完成索引元數(shù)據(jù)格式的文獻(xiàn)檢索參數(shù),索引字段集、結(jié)果集和查詢語言查詢中介通過檢索服務(wù)將查詢請求實例化,并且合并結(jié)果集,同時考慮可能的特殊的檢索實例瀏覽構(gòu)建并使用相應(yīng)的數(shù)據(jù)結(jié)構(gòu)、條目索引對圖書館內(nèi)容進(jìn)行瀏覽用戶接口連接用戶與應(yīng)用服務(wù)
6 系統(tǒng)設(shè)計與實現(xiàn)在網(wǎng)格組織中,網(wǎng)格門戶服務(wù)將網(wǎng)格用戶和網(wǎng)格功能相銜接,提供給用戶基于Web界面的訪問接口,方便用戶使用網(wǎng)格中服務(wù)和資源。同時網(wǎng)格門戶還具有連接網(wǎng)格和非網(wǎng)格環(huán)境的功能。圖3 數(shù)字圖書館網(wǎng)格體系結(jié)構(gòu)在該框架中,使用Globus作為網(wǎng)格中間件,而網(wǎng)格門戶則負(fù)責(zé)網(wǎng)格服務(wù)與最終用戶之間的交互。這種結(jié)構(gòu)有利于屏蔽各種不同數(shù)字圖書館的軟件異構(gòu)性。使用Globus和GridSphere這樣的網(wǎng)格技術(shù)可以將多個數(shù)字圖書館統(tǒng)一運行在同一模式下。此外還需考慮以下幾方面,進(jìn)一步完整該框架:(1)為了使用網(wǎng)格服務(wù)每個網(wǎng)格成員必須搭建基礎(chǔ)網(wǎng)格結(jié)構(gòu),比如安裝Globus工具包和數(shù)據(jù)網(wǎng)格軟件包;(2)每個加入到網(wǎng)格的成員都應(yīng)能夠識別共享一種數(shù)據(jù)格式;(3)在啟動副本管理機制之前,網(wǎng)格數(shù)據(jù)存儲在個人存儲系統(tǒng)中,用來描述這些數(shù)據(jù)的元數(shù)據(jù)存儲在元數(shù)據(jù)庫中。系統(tǒng)內(nèi)的數(shù)據(jù)都應(yīng)使用XML語法進(jìn)行描述;(4)ISBN將作為一個重要的索引關(guān)鍵字;(5)使用GridFTP作為本框架的數(shù)據(jù)傳輸協(xié)議。與傳統(tǒng)的數(shù)字圖書館相比,這種聯(lián)合模式的網(wǎng)格數(shù)字圖書館具有以下幾點優(yōu)勢:所有的組織或機構(gòu)都可以成為網(wǎng)格數(shù)字圖書館的用戶,并且只需要通過網(wǎng)格門戶提交服務(wù)請求即可獲得服務(wù),不受傳統(tǒng)模式下單一數(shù)字圖書館的限制;由于在網(wǎng)格數(shù)字圖書館中加入了副本管理,不僅可以快速的返回給用戶資源定位信息,還可以在結(jié)果集中選擇最高效的資源,滿足用戶對服務(wù)質(zhì)量方面的要求;通過網(wǎng)格技術(shù)不僅可以將多個獨立的數(shù)字圖書館運行在一個聯(lián)合模式下,對用戶提供一個統(tǒng)一的訪問的借口和界面,還可以在調(diào)度各個分布式資源時根據(jù)整個框架的性能加入負(fù)載均衡的控制,從而更加高效的為用戶提供服務(wù)。
7 結(jié) 論本文提出一種數(shù)字圖書館網(wǎng)格框架,用來解決各個異構(gòu)分布式數(shù)字圖書館的整合問題。該框架不僅能夠提供高效的資源管理、數(shù)據(jù)存儲和統(tǒng)一的用戶訪問接口,還加入了對服務(wù)質(zhì)量的控制,從而給傳統(tǒng)數(shù)字圖書館用戶提供了全新的服務(wù)體驗。下一步工作主要將考慮該聯(lián)合模式下的數(shù)字圖書館網(wǎng)格的安全問題。
參考文獻(xiàn)
[1]Digital Library Technology Trends[R].Sun Microsystems,Inc,2002.
[2]Grid Computing[EB].www.educause.edu/eli,2006.
[3]Web Services Data Grid Architecture[D].Chip Watson,2002.
[4]How to Build Digital Library[D].Ian H.Witten,David Bainbridge,2003.
[5]Federating Digital Library Services for Advanced Applications in Science and Education[D].Michal Kosiedowski etc.,2008.
[6]Grid Middleware Services for Virtual Data Discovery,Composition,and Integration[D].Yong Zhao etc.,2005.
[7]Embedding Legacy Environments into A Grid-Based Preservation Infrastructure[D].Claus Peter Klas etc,2008.