〔摘 要〕本文就數(shù)字圖書館網(wǎng)格存儲模型體系結構、模型總體設計和網(wǎng)格存儲關鍵技術進行分析。
〔關鍵詞〕網(wǎng)格存儲模型;數(shù)字圖書館;海量存儲;動態(tài)存儲;異構存儲
〔中圖分類號〕G250.76 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)11-0085-02
Key Techniques on Resources Storage of the Digital Library Based on GridWei Xiaoping
(Library,Hunan University of Arts and Science,Changde 415000,China)
〔Abstract〕Digital library is constructed on the basis of the enormous quantity of digital information resources which can be read and used,and quality service from digital libraty is based on quality digital resource.This paper presented the key techniques on resources storage of the digital library based on grid,such as model system structure,digital library model of Grid storage architecture.
〔Keywords〕grid storage;digital library;mass storage;dynamic storage;heterogeneous storage
1 模型體系結構
數(shù)字圖書館網(wǎng)格存儲系統(tǒng)是在現(xiàn)有的數(shù)字圖書館存儲系統(tǒng)基礎之上構建一個整合存儲資源,為用戶屏蔽底層異構存儲資源細節(jié),具有統(tǒng)一邏輯視圖的高性能虛擬的存儲系統(tǒng)。因此該系統(tǒng)必須能向下兼容,不能破壞現(xiàn)有數(shù)字圖書館存儲系統(tǒng)。基于此原則,本文在網(wǎng)格五層沙漏結構和開放網(wǎng)格服務體系結構的基礎上構建了數(shù)字圖書館網(wǎng)格存儲模型體系結構。
該模型體系結構自底向上分為4層:第一層是基本構造層,該層為網(wǎng)格存儲服務提供基本的網(wǎng)絡環(huán)境、物理存儲資源和邏輯存儲資源,包括存儲設備(磁盤陣列、光盤庫和磁帶庫)、存儲系統(tǒng)(DAS,NAS,SAN,IP存儲和集群存儲)、數(shù)據(jù)邏輯存儲系統(tǒng)(文件系統(tǒng)、數(shù)據(jù)庫、檔案庫和元數(shù)據(jù)集)等。
第二層是連接層,該層主要是為下層的物理存儲資源和邏輯存儲資源提供安全的數(shù)據(jù)通信能力。
第三層是網(wǎng)格存儲服務層,它是網(wǎng)格體系結構的核心。該層通過全局命名服務和存儲資源代理將最上層的用戶存儲請求映射為異構分布存儲環(huán)境中的底層存儲操作,并能夠提供有效存儲監(jiān)控、調度、存儲作業(yè)管理、副本管理和存儲遷移管理。
第四層是用戶層,為用戶提供了數(shù)字圖書館的各類存儲應用界面,包括數(shù)字圖書館資源采集、組織、管理所需的存儲;資源的發(fā)布與服務所需的存儲以及本地和異地容載備份所需的存儲。用戶在該層可以通過存儲入口,經(jīng)網(wǎng)格存儲授權認證,向下層發(fā)出存取請求。
2 模型總體設計
從整體規(guī)劃來看,系統(tǒng)主要包括網(wǎng)格存儲服務點GSSP(Grid Storage Service Point)、認證中心CA(Certificate Authority)、全局命名服務器GNS(Global Name Server)、資源管理器RM(Resource Manager)、存儲代理SA(Storage Agent)、客戶端[4]。整個設計中主要分為以下6個部分:(1)網(wǎng)格存儲服務點GSSP是整個系統(tǒng)的入口,對系統(tǒng)所有模塊的訪問都通過GSSP,它主要提供CA接口、GNS接口、RM接口和SA接口;系統(tǒng)中SSP的個數(shù)可以根據(jù)需要動態(tài)增加。(2)認證中心CA包含證書管理系統(tǒng),主要負責系統(tǒng)的安全性和數(shù)據(jù)的訪問控制,同時它記錄了用戶的注冊信息。(3)全局命名服務器GNS負責系統(tǒng)的元數(shù)據(jù)管理,主要包括元數(shù)據(jù)操作接口、元數(shù)據(jù)容錯系統(tǒng)、元數(shù)據(jù)搜索系統(tǒng)。(4)資源管理器RM包括資源監(jiān)控模塊、資源調度模塊和副本管理模塊,其主要負責發(fā)現(xiàn)網(wǎng)格存儲服務設備、監(jiān)控存儲服務設備的狀態(tài)、存儲資源的申請和調度,同時提供透明的副本創(chuàng)建和選擇策略。(5)存儲代理SA是系統(tǒng)中非常關鍵的部分。(6)客戶端目前支持3種形式:通用FTP客戶端、文件訪問接口和特制客戶端。用戶通過系統(tǒng)提供的特制客戶端,不但能夠進行用戶組操作,具有搜索和共享等功能,還可以獲得更高性能的服務。
3 數(shù)字圖書館網(wǎng)格存儲關鍵技術
3.1 海量存儲技術
近幾年來,數(shù)字圖書館信息資源呈幾何級數(shù)增長,存儲信息的度量單位由MB,GB向TB,PB轉變,其存儲的數(shù)據(jù)總量達到了海量規(guī)模。系統(tǒng)的存儲容量總受硬件條件的限制,故采用傳統(tǒng)的存儲模式則永遠無法滿足存儲容量不斷增長的需要。但在網(wǎng)格環(huán)境下,由于數(shù)字圖書館采用的是第三代P2P混合網(wǎng)絡體系結構的存儲系統(tǒng)[5]。這種系統(tǒng)結構可以將任何一個NAS或SAN作為存儲網(wǎng)格的一個節(jié)點進行管理,在原有網(wǎng)絡存儲基礎上進行擴展,具有良好的可升級性。它將以數(shù)據(jù)中心的集中式存儲管理轉化為分布式的管理和控制,從而解決了海量數(shù)據(jù)存儲問題。具體地講,數(shù)字圖書館網(wǎng)格存儲采用了3個方面的技術策略:
(1)在這種存儲結構中,共享的文件不是集中存放在服務器上,而是分布在眾多的存儲系統(tǒng)節(jié)點上。系統(tǒng)的存儲容量是所有節(jié)點貢獻出來的空閑磁盤空間的總和,且隨著加入系統(tǒng)的節(jié)點數(shù)量線性增長。也就是說,由于大量的端系統(tǒng)的存儲空間處于閑置狀態(tài),因此將大量節(jié)點的空閑存儲容量利用聚集存儲技術就可以形成一個巨大的存儲空間。此外,網(wǎng)格上還有大量的文件,其內容不多但需要長久存儲以備后續(xù)訪問,利用聚集存儲技術可以把多個小文件聚集成一個復合文件存儲在網(wǎng)格存儲空間,增加存儲空間的有效利用率。由此可見,數(shù)字圖書館信息資源的存儲任務可以在多個節(jié)點上進行,并且遵循就近跨節(jié)點存儲的原則。
(2)網(wǎng)格環(huán)境下的數(shù)字圖書館數(shù)據(jù)流量大,為了避免大量的數(shù)據(jù)傳輸而造成通信資源阻塞,也為了避免單點故障造成損失,通過在網(wǎng)格中不同位置創(chuàng)建文件副本,節(jié)點就可以就近訪問所需的文件,降低訪問延遲,很好的適應網(wǎng)絡的動態(tài)變化,大大提高文件的訪問性能。這樣網(wǎng)絡上所有的節(jié)點也就可以從其他節(jié)點上共享存儲資源。利用P2P技術的就近原則,圖書館可以將經(jīng)常訪問的內容發(fā)布到其他的數(shù)字圖書館,讀者可以就近訪問,從而有效地解決了大數(shù)據(jù)量并發(fā)訪問瓶頸問題。
(3)對于客戶機/服務器模式的存儲系統(tǒng)來說,高度動態(tài)的網(wǎng)絡環(huán)境嚴重影響了文件服務性能,而龐大的用戶數(shù)量也給服務器帶來了沉重的負擔。而對于網(wǎng)格模式下的存儲系統(tǒng),由于文件的存儲和服務分散到了系統(tǒng)的每個節(jié)點,使得每個節(jié)點只需要承擔少量的任務,很好地起到了負載均衡的作用,從而避免以服務器為中心的網(wǎng)絡結構的性能瓶頸。
3.2 動態(tài)存儲技術
數(shù)字圖書館系統(tǒng)在不同時刻對服務的需求是不同的,白天或某段時間內可能因為訪問人數(shù)激增造成對某部分的計算資源需求增加,一段時間后可能需求又有所下降。而這些都是無法預知的。為此,網(wǎng)格存儲技術必須有效地解決數(shù)字圖書館資源存儲動態(tài)存儲和按需存儲的問題。
(1)基于網(wǎng)格的數(shù)字圖書館館存儲系統(tǒng)必須能夠根據(jù)應用系統(tǒng)的需求,動態(tài)擴展存儲設備數(shù)量和容量而不影響其上層應用。網(wǎng)格環(huán)境下,數(shù)字圖書館采用的是P2P存儲結構。該存儲結構中,每臺計算機既是客戶機,也是服務器。它們之間可以直接交換信息,共同分擔文件的存儲和服務,而不需要中央服務器。這種對等的體系結構使得P2P存儲系統(tǒng)在擴展性上有著天然的優(yōu)勢,特別是對分布式結構化的P2P系統(tǒng)結構來說,系統(tǒng)規(guī)模能夠擴大和縮小,而性能幾乎不受影響。
(2)基于網(wǎng)格的數(shù)字圖書館館存儲系統(tǒng)能夠根據(jù)各種應用系統(tǒng)的動態(tài)工作負載和內部設備能力的變化,動態(tài)改變自己的配置、策略以提高I/O性能。要滿足數(shù)字圖書館動態(tài)性的需求,就必須實現(xiàn)存儲資源與計算資源的按需動態(tài)組合。網(wǎng)格環(huán)境下借助存儲虛擬化技術,通過兩者在邏輯層面實現(xiàn)分離,最終實現(xiàn)兩者的動態(tài)映射關系。具體而言,存儲虛擬化技術通過封裝和虛擬化的存儲服務有效地分離主機層(包括:應用、操作系統(tǒng)、HBA (Host Bus Adapter)等)、存儲網(wǎng)絡層(包括:交換機、路由器和網(wǎng)管等)、存儲層(包括:磁盤陣列、磁帶庫、光盤庫等),并且實現(xiàn)物理路徑、硬件設備特征、物理設備位置對主機透明,存儲資源與應用分離,對存儲資源的管理可以實現(xiàn)動態(tài)的擴充和配置管理,將存儲的邏輯層與物理層相分離,使得數(shù)據(jù)的移動不再依賴于主機和應用。
(3)由于網(wǎng)格可以根據(jù)數(shù)據(jù)對用戶業(yè)務的關鍵性設定一定策略,從而決定數(shù)據(jù)的存儲位置,所以數(shù)字圖書館存儲可以靈活、動態(tài)地選擇網(wǎng)格節(jié)點中的物理存儲設備,這樣可以避免低價值數(shù)據(jù)浪費昂貴的高端存儲空間。也就是說利用智能數(shù)據(jù)遷移將日訪問量不是很大的大部分數(shù)據(jù)保持“脫機”,但又不“離線”的狀態(tài)。
3.3 異構存儲技術
由于數(shù)字圖書館系統(tǒng)具有主機系統(tǒng)多類型、數(shù)據(jù)來源多方向性、數(shù)據(jù)存儲格式復雜,數(shù)據(jù)用途多樣等特點,使得資源存儲在實現(xiàn)功能、性能和訪問接口上變化很大。但無論數(shù)據(jù)存儲接口如何變化,無論數(shù)據(jù)存儲在什么位置,用戶都要求完全無縫地訪問到所需數(shù)據(jù),而不必關心存儲設備所處的位置、采用何種存儲系統(tǒng)以及資源如何配置。存儲網(wǎng)格方案就能滿足此需求,它結合虛擬存儲技術、開放的標準規(guī)范和網(wǎng)格數(shù)據(jù)傳輸機制將異構的存儲變成統(tǒng)一的虛擬存儲。
4 結 語
本文闡述了數(shù)字圖書館網(wǎng)格存儲模型及關鍵技術,分別從模型體系結構、模型總體設計、海量存儲技術、動態(tài)存儲技術和異構存儲技術5個方面進行了詳細的探討和分析,為利用網(wǎng)格技術解決數(shù)字圖書館資源發(fā)現(xiàn)、整合、跨倉儲檢索、安全等問題,為實現(xiàn)大規(guī)模數(shù)字圖書館的互操作提供了相應基礎條件。
參考文獻
[1]張蕾,陳玲.下一代互聯(lián)網(wǎng)技術在網(wǎng)絡中心戰(zhàn)中的應用概述[J].電子工程師,2008,34(10):67-69.
[2]李超,王亮,楊學印.基于網(wǎng)格的數(shù)字圖書館研究現(xiàn)狀分析[J].現(xiàn)代情報,2009,(3):74-77.
[3]韓毅,畢強,李賀.國外基于網(wǎng)格技術的數(shù)字圖書館內容與應用的比較研究[J].情報學報,2006,(2):221-230.
[4]余玲,李玉海.基于網(wǎng)格的數(shù)字圖書館資源存儲研究[J].情報雜志,2007,(9):105-107.
[5]劉廣亮.基于Globus Toolkit 4的網(wǎng)格服務研究開發(fā)[D].西安理工大學,2008.