●陳克儉,孫 倩,王 融,季士妍(國家圖書館,北京100081)
海量數據環境下數字圖書館存儲面臨的挑戰及應對策略
●陳克儉,孫 倩,王 融,季士妍(國家圖書館,北京100081)
海量數據;數字圖書館;應對策略
隨著數字圖書館的發展,數據量呈幾何式增長,數字圖書館的存儲系統正面臨前所未有的挑戰,如何在有限條件下最大可能地滿足海量數據帶來的存儲需求,是我們需要解決的問題。本文闡明了數字圖書館海量數據的來源,分析了數字圖書館存儲所面臨的挑戰,并從存儲策略、存儲架構和存儲技術等方面對海量數據環境下數字圖書館存儲系統采取的相應策略進行了探討。
信息技術與網絡的快速發展已推動社會進入萬物互聯時代。在信息爆炸的今天,計算機數據處理能力的增長速度遠比世界經濟的增長速度快9倍之多。[1]從全球化電子商務的崛起到大型門戶網站和無紙化辦公深入社會生活,人們獲取信息的方式及手段不斷發生改變,并帶來了信息網絡中數據的急劇膨脹。在數據庫向數據海轉變過程中,網絡中存儲的電子資源總量很難衡量,根據IDC(Internet Data Center)公司的相關調查,僅2011年全球的數據增長達1.8ZB,是2006年的10倍,預計2020年全球數據量將達到90ZB,是2011年的50倍。[2]這些數據無時無刻不在影響著我們的生活、工作,促使新的技術手段產生并進一步優化信息社會形態。而海量的數據對存儲系統的容量、性能、可用性等也提出了越來越高的要求,如何存儲和高效利用這些數據是當前亟需解決的問題。
在社會信息化建設過程中,數字圖書館履行著提供信息資源服務和數字資源長期保存的職能。隨著高速網絡和移動圖書館的普及應用,以及RFID(Radio Frequency Identification無線射頻識別技術)、跨平臺搜索等新技術在數字圖書館服務方面的拓展,數字圖書館在獲得更廣泛數據來源的同時,也在迎接著這一波信息爆炸帶來的挑戰。[3]
1.1 數字資源類型的多樣化
多種多樣的電子文獻資源,是目前數字圖書館主要的數據來源。總的來說,數字圖書館的電子資源大體可以分為四類:一是原始紙質資源的數字化,很多早年的紙質資源并沒有電子版本,如古籍或民國時期的文獻需要進行文獻數字化,是數字圖書館重要的原始數據積累;二是從其他圖書館、出版社等文化機構新提交的數字化文獻資源,除了紙質文獻的數字化資源外還有各種講座、沙龍等音視頻資源;三是來自國內外定購資源庫的電子資源,包括期刊、報紙、論文等,隨著數字圖書館的壯大發展,引進的國內外資源數據庫也在逐年增多,資源量不斷增大;四是網絡采集的信息資源,從目前來說這部分資源占有量還較為有限,但隨著時間推移和采集范圍的擴大,這部分的數據擁有量也是非常壯觀的。
1.2 移動圖書館的發展應用
伴隨著無線網絡的發展以及智能手機等移動終端的普及應用,移動圖書館也逐步成為數字圖書館的關鍵性服務內容。例如國家圖書館的“掌上國圖”,作為圖書館移動服務的重要形式之一,目前主要包括讀者服務、在線服務、讀者指南、文津圖書獎、資源檢索等欄目,為讀者提供8000余種電子期刊的在線閱讀。隨著數字圖書館建設的不斷推進,移動圖書館服務內容的擴展和完善勢必成為數字圖書館服務的重要發展方向。在未來三年內,移動圖書館的數據量將呈現翻倍的趨勢。
1.3 數字圖書館新型技術的拓展
RFID技術和跨平臺搜索技術是當前比較顯著的數字圖書館新技術應用。基于RFID技術和設備的圖書管理系統可以實現圖書借還、順架、查找及館藏盤點等功能,使圖書管理工作智能化、規范化、系統化和程序化,避免圖書管理的隨意性,提高信息處理的速度和準確性,從而提高工作效率。跨平臺數字資源的檢索也初現端倪,如國家圖書館的“文津搜索”系統,有效整合了國家圖書館自建數據和部分外購數據庫的各類數字資源,實現了資源的“一站式”發現與獲取,使圖書館內的封閉資源能夠對網絡用戶開放。除此以外,社交網絡、云計算等技術手段,也正在成為數字圖書館建設者重視的新型服務應用技術手段。這些新技術的拓展,都為數字圖書館提供了大量的數據來源。
數字圖書館數據量的快速增長,勢必對數字圖書館的存儲帶來非常大的困難,就是“空間不足,性能不夠”。
(1)存儲空間不足。以國家圖書館為例,2006年一套空間為30TB的盤陣設備已經能夠基本滿足所有存儲的需求。然而,截至2014年,國家圖書館僅在線存儲的總容量已經擴展到了930TB,連接存儲的應用系統也從原來的四五個達到了目前的50多個。即便如此,這個容量也僅僅是滿足近兩年的需求。隨著數字圖書館服務項目的增多,數據量的增大,存儲空間不足的問題尤為突出。
(2)存儲性能較差。存儲系統的數據量大小總是與操作性能成反比。[4]如果存儲性能跟不上,將會成為制約數字圖書館整體服務的瓶頸。業務的數據量增加,會造成業務數據的增刪改等正常操作的速度和處理性能不斷下降,甚至會出現數據丟失的現象。隨著數字圖書館各項業務量的增大,如果只是單純進行容量的堆積而不改善存儲系統的整體性能,也是遠遠不能滿足未來數字圖書館存儲需求的。存儲性能受多重因素影響,包括存儲的架構、帶寬、存儲設備的性能和所匹配的存儲介質的性能等多個方面,都會制約整套存儲系統的性能。
一套高性能高容量的存儲系統往往意味著高額的投入,而且后期的運維投入也非常高。而公共圖書館作為一個公共文化體系下的公益性機構,在資金方面通常無法負擔高額的存儲系統帶來的投入成本。因此,如何在有限條件下盡最大可能地滿足海量數據帶來的存儲需求,是數字圖書館建設者需要探討和解決的重要問題。
2.1 完善的存儲布局:統籌規劃,清晰分配
按照在線、近線、離線三個層面來區分對待資源,劃分不同的存儲介質,在有限的資金規劃下提高存儲的整體性能。對于數字資源發布與服務過程中需要使用的數據、實時產生的書目記錄、用戶信息等數字圖書館核心在線系統所使用或者產生的數據采用在線保存方式;對于利用率低的在線數字資源、永久保存的高質量的數字化文件數據、數字資源加工后的數據、國內資源供應商保存的數據、互聯網采集到的資源、文化信息共享的資源、購買的資源等數據采用近線/離線保存方式;對于沒有利用率的數字資源、進入永久保藏的數字資源、備份的近線/離線資源的數據,采用離線的保存方式。[5]其中,可采用高轉速性能高的硬盤(SAS、FC硬盤)或者固態硬盤保存在線數據,采用性價比高的低轉速硬盤(SATA硬盤)保存近線數據,采用磁帶或者光盤等離線存儲介質來保存離線數據,達到資源的合理分配。
2.2 合理的存儲架構:以SAN為主,NAS為輔
高性能的SAN(StorageAreaNetworkandSANProtocols,存儲區域網絡及其協議)系統與性價比高的NAS(Network Attached Storage,網絡儲存設備)系統相結合是數字圖書館理想的存儲架構方式。SAN是一種高速網絡或子網絡(可以是基于光纖鏈路的FC SAN,也可以是基于以太網的IP SAN),提供在計算機與存儲系統之間的數據傳輸,連接到服務器的存儲設備,將被操作系統視為直接連接的存儲設備。與SAN相比較,NAS使用的是基于文件的通信協議,例如NFS或SMB/CIFS通信協議就被明確定義為遠程存儲設備,計算機請求訪問的是抽象文件的一段內容,而非對磁盤進行的塊設備操作。雖然SAN擁有NAS無法比擬的優勢,性能高、不占用帶寬等優勢,但是NAS依然有著獨特的地方:首先是NAS具備架構簡單、造價相對便宜、易于部署、高效的文件共享等特點;第二,NAS能夠實現更高的空間利用率,SAN是以塊狀的數據存儲而NAS是文件級的存儲方式,由于塊狀的數據存儲對于應用系統的空間需求是“要多少給多少”的方式,往往會給應用系統分到根據一兩年的增量進行申請的空間,進而造成空間或多或少的浪費,而NAS是基于文件級的存儲方式,能夠實現“用多少給多少”的方式,避免了這種浪費。數字圖書館的數字資源,其中有大量的臨時數據,如格式轉換的中間數據、長期保存的中間數據,對于性能要求并不高,采用NAS的方式更加合適。因此,建立合理的存儲架構,以SAN為主,必要時結合NAS為輔的方式,是十分必要的。
2.3 有效解決重復數據,提升數據存儲空間
解決重復數據的問題需要從兩方面入手:一是采用消重技術提高空間利用率,通過刪除運算、消除冗余文件、數據塊或字節,實現只有單一的數據存儲在系統中,從而減少存儲系統中的數據占有量,增大可用存儲空間;二是從源頭抓起,降低文獻數字化或者資源采集過程中的資源重復,如果文獻數字化過程中對同一本書進行了兩次數字化,其帶來的資源浪費不僅是文獻數字化的存儲資源浪費,還會造成中期資源組織的存儲資源浪費、后期對外發布的存儲資源浪費以及最終的長期保存的存儲資源浪費,這種資源的浪費往往還附加著更大的人力、物力和財力的重復浪費。
2.4 重視存儲虛擬化,提高數據存儲利用率
數字圖書館數據存儲可考慮采用存儲虛擬化技術來提高存儲的整體利用率。隨著一套存儲系統年限的增長,往往其性能和空間無法滿足現有的需求,新存儲設備的采用往往會造成舊存儲設備的境地尷尬,“食之無味棄之可惜”。采用存儲虛擬化的方法,可以把不同廠家、不同型號、不同類型、不同通信技術的存儲設備互聯起來,統一提供有用的全面功能性服務,使得許多零散的存儲資源整合起來,不但能夠充分利用舊存儲資源,提高存儲的整體利用率,而且也能降低系統管理成本。
2.5 緊密追蹤存儲新技術尋求存儲介質的突破
近年來,隨著數據爆炸性增長,存儲技術也在相應地不斷發展。其中,值得關注的是分布式存儲以及云存儲技術,這兩種新技術的提出給存儲方式帶來另一種思路。分布式存儲技術并不是將數據存儲在某個或多個特定的節點上,而是通過網絡使用企業中的每臺機器上的磁盤空間,并將這些分散的存儲資源構成一個虛擬的存儲設備,數據分散地存儲在企業的各個角落。而云存儲更是分布式存儲的升華,讓網絡中存在的大量、不同類型的存儲設備協同工作,共同對外提供數據存儲和業務訪問功能。雖然就目前而言,分布式存儲和云存儲只是非常前端的想法,真正實現的案例并不多,傳統的集中式存儲仍然是最佳選擇,但是可以肯定的是這種存儲分散、云端的理念針對海量數據的存儲更為有效。同時,存儲介質的突破也是值得關注的,從最原始的軟盤到現在高性能的固態硬盤,存儲設備的容量、性能都在大幅度提升。現在固態硬盤價格高昂,也是存儲成本面對的重要問題。隨著技術手段的突破,我們相信固態硬盤也會逐步普及,更加高效、大容量的存儲介質也會被不斷發掘出來。
就目前情況而言,雖然數字圖書館數據存儲水平還較為有限,針對海量數據存儲技術的研究還處于起步階段,面臨著許多問題,但是隨著信息網絡市場的快速發展和信息技術的不斷升級,相信在不久的將來,針對海量數據的存儲與管理必定會有新的突破,屆時也必將會為數字圖書館的數據存儲帶來革命性、持續性和創造性的變化。更加有效安全的數據存儲模式將為數字圖書館以用戶為中心提供優質高效的信息資源服務帶來基礎性保障,從而推進公共數字文化服務體系不斷完善。
[1](英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013.
[2]Tom White.Hadoop:The Definitive Guide:MapReducefortheCloud[M].2stedition.California:O'Reilly Media,Inc,2009.
[3]朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013(5):9-13.
[4]姜宇鳴.海量數據存儲系統研究[J].電腦知識與技術,2011(8):1922,1928.
[5]魏大威.國家數字圖書館工程系統建設[J].國家圖書館學刊,2008(3):12-17,32.
G250.76
B
1005-8214(2015)06-0001-03
陳克儉(1985-),男,國家圖書館信息網絡部工程師,研究方向:數字資源存儲與管理;孫倩(1984-),女,國家圖書館數字資源部館員,研究方向:數字圖書館數字資源整合;王融(1987-),女,國家圖書館數字資源部館員,研究方向:數字圖書館新媒體設計;季士妍(1978-),女,國家圖書館信息網絡部工程師,數字資源存儲與應用管理組副組長,研究方向:數字資源長期保存與管理。
2014-12-02[責任編輯]劉丹
本文系文化部科技創新項目“數字圖書館云平臺建設及其在公益性數字文化建設中的應用研究”(項目編號:3-2011)的研究成果之一。