鄭偉青(浙江工業(yè)職業(yè)技術(shù)學(xué)院圖書(shū)館 浙江 紹興 312000)
云計(jì)算(Cloud Computing)是一種新興的商業(yè)計(jì)算模型。它是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計(jì)算(Grid Computing)的發(fā)展產(chǎn)物,它的獨(dú)特之處就是能將巨大的計(jì)算任務(wù)分散在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和各種軟件服務(wù),從而大大提高了系統(tǒng)的資源檢索效率和運(yùn)算能力[1]。
云計(jì)算概念興起于2007年,初露頭角便受世人矚目,各大公司紛紛推崇。在國(guó)外,很多IT巨頭公司都已經(jīng)開(kāi)發(fā)了各自具有較高實(shí)用性的云計(jì)算框架或系統(tǒng), 如Google內(nèi)部開(kāi)發(fā)了GFS(Google File System)云文件系統(tǒng)、BigTable海量結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)、MapReduce[2]簡(jiǎn)單海量數(shù)據(jù)并行處理框架,并且在內(nèi)部的實(shí)際應(yīng)用系統(tǒng)內(nèi)已經(jīng)大量使用了該并行處理框架。Sun Microsystems公司在自己以前的并行處理平臺(tái)上開(kāi)發(fā)了Sun Grid Engine計(jì)算機(jī)集群軟件,目標(biāo)也是針對(duì)云計(jì)算市場(chǎng)。還有更多的應(yīng)用單位,如歐洲的一些頂級(jí)科研院所已經(jīng)利用這些并行計(jì)算框架實(shí)現(xiàn)了自身的因特網(wǎng)并行計(jì)算網(wǎng)絡(luò),任何用戶(hù)都可以貢獻(xiàn)自己個(gè)人電腦上的計(jì)算能力,只要下載相應(yīng)的微型計(jì)算代碼即可。
隨著圖書(shū)館不斷發(fā)展,圖書(shū)館的資源內(nèi)容已經(jīng)覆蓋社會(huì)生活各個(gè)領(lǐng)域,種類(lèi)不斷細(xì)分、深化和專(zhuān)業(yè)化,各個(gè)圖書(shū)館根據(jù)自身的條件分別擁有其中的部分或全部資源。今天的圖書(shū)館資源極其豐富。
然而,因?yàn)椴煌瑢傩缘膱D書(shū)館提供的館藏電子資源服務(wù)的專(zhuān)業(yè)性和綜合性不同,并且各個(gè)電子資源廠商提供的基于各自標(biāo)準(zhǔn)的電子資源檢索服務(wù)方式也不同,因而形成了電子資源的“百花齊放,百花爭(zhēng)艷”的服務(wù)方式。這種服務(wù)方式造成圖書(shū)館電子資源豐富但分散,用戶(hù)如果想從不同的圖書(shū)館中獲取最全面、最有價(jià)值的資料,往往需要在不同的圖書(shū)館對(duì)不同的資源檢索系統(tǒng)分別操作,這樣非常不方便。只有采取基于圖書(shū)館群的電子資源整合服務(wù)方式,才能從分散的各個(gè)圖書(shū)館資源中獲取到所需的最豐富、最準(zhǔn)確的信息。
有了云計(jì)算之后,讀者端不再需要計(jì)算能力很強(qiáng)的計(jì)算機(jī),而可以直接從資源池上獲得計(jì)算能力;服務(wù)端也可以將自己的計(jì)算任務(wù)分散在整個(gè)系統(tǒng)的資源池上,從而分解了運(yùn)算量,提升了運(yùn)算速度。云計(jì)算這一為Google、IBM等巨頭公司所倍加推崇的理念為改變目前圖書(shū)館電子資源利用率低、搜索質(zhì)量差、缺乏互動(dòng)的現(xiàn)狀提供了良好的技術(shù)基礎(chǔ)。
對(duì)于圖書(shū)館服務(wù)端來(lái)說(shuō),通過(guò)建立基于云計(jì)算的簡(jiǎn)單海量存儲(chǔ)模型和簡(jiǎn)單海量計(jì)算模型,可以將巨大的存儲(chǔ)任務(wù)和計(jì)算任務(wù)分散在與之資源共享的服務(wù)器或客戶(hù)端PC機(jī)上,從而可以在同等服務(wù)器條件下大幅度擴(kuò)大資源共享范圍,提高運(yùn)算速度。對(duì)于讀者端來(lái)說(shuō),可以通過(guò)訪問(wèn)應(yīng)用程序從資源池上獲取巨大的計(jì)算能力,從而實(shí)現(xiàn)高精確度、高速度的個(gè)性化搜索。同時(shí),讀者端還可以將自己的知識(shí)數(shù)據(jù)存儲(chǔ)在服務(wù)器上,供其他讀者搜索讀取。因此,對(duì)于圖書(shū)館來(lái)說(shuō),云計(jì)算為其電子化發(fā)展提供了良好的技術(shù)基礎(chǔ)。
一項(xiàng)國(guó)際性新理論的推廣應(yīng)用必定會(huì)對(duì)學(xué)界、業(yè)界乃至整個(gè)社會(huì)帶來(lái)巨大的影響,以云計(jì)算理論為基礎(chǔ),開(kāi)發(fā)出基于云計(jì)算的圖書(shū)館群資源檢索技術(shù),將圖書(shū)館系統(tǒng)的服務(wù)器(計(jì)算機(jī))連成資源池,建立一個(gè)高資源利用率、高運(yùn)算速度的圖書(shū)館電子資源管理服務(wù)平臺(tái),同樣可謂意義重大[3]。第一,以復(fù)雜的圖書(shū)館電子資源作為資源池開(kāi)展研究,為資源檢索提供了技術(shù)平臺(tái),并為實(shí)現(xiàn)更復(fù)雜的搜索運(yùn)算提供了實(shí)踐基礎(chǔ);第二,大大提高了區(qū)域(行業(yè))圖書(shū)館和機(jī)構(gòu)圖書(shū)館資源的整合服務(wù),實(shí)現(xiàn)了基于各種類(lèi)型圖書(shū)館的電子資源云整合,形成一個(gè)圖書(shū)館電子資源群服務(wù)體系,為讀者的資源檢索提供廣闊的資源空間和搜索對(duì)象,并有利于區(qū)域(行業(yè))、機(jī)構(gòu)圖書(shū)館資源的有效流通、利用,減少圖書(shū)館資源的重復(fù)建設(shè),大大地促進(jìn)人們知識(shí)利用水平的提升;第三,基于云計(jì)算的圖書(shū)館網(wǎng)絡(luò)運(yùn)算平臺(tái)可以實(shí)現(xiàn)圖書(shū)館電子資源的跨地域、跨行業(yè)、跨機(jī)構(gòu)并行利用。為讀者的資源檢索服務(wù)平臺(tái)提供海量的資源儲(chǔ)備,可以讓讀者在此平臺(tái)上實(shí)現(xiàn)一站式資源檢索,并最終提升區(qū)域(行業(yè))、機(jī)構(gòu)讀者的文化素質(zhì)、經(jīng)濟(jì)實(shí)力等,從而提升區(qū)域(行業(yè))、機(jī)構(gòu)的核心競(jìng)爭(zhēng)力。
基于云計(jì)算的圖書(shū)館群資源檢索不僅可以用于國(guó)內(nèi)成千上萬(wàn)家傳統(tǒng)圖書(shū)館,還可以應(yīng)用于各個(gè)科研院所、政府機(jī)構(gòu)、大型企業(yè)等。
對(duì)于傳統(tǒng)圖書(shū)館而言,可以實(shí)現(xiàn)區(qū)域內(nèi)的“塊”的云計(jì)算圖書(shū)館群資源檢索服務(wù),也可以實(shí)現(xiàn)行業(yè)內(nèi)的“條”的云計(jì)算圖書(shū)館群資源檢索服務(wù),同時(shí)還可以實(shí)現(xiàn)區(qū)域和行業(yè)的“條塊”整合的圖書(shū)館群資源檢索服務(wù)。通過(guò)基于云計(jì)算的圖書(shū)館群資源檢索服務(wù),傳統(tǒng)圖書(shū)館可以建立自己的基于云計(jì)算的超級(jí)海量信息服務(wù)平臺(tái),集中行業(yè)專(zhuān)家等的優(yōu)勢(shì),為海量因特網(wǎng)用戶(hù)提供更專(zhuān)業(yè)的信息服務(wù)[4]。
在市場(chǎng)經(jīng)濟(jì)環(huán)境下的大型企業(yè)賴(lài)以生存的基礎(chǔ)條件中,信息無(wú)疑是除資金以外的另一個(gè)重要因素。如何對(duì)各種不同格式的海量信息進(jìn)行有效存儲(chǔ)、如何更有效地獲取和利用這些海量信息,都將是各個(gè)企業(yè)面臨的主要問(wèn)題。對(duì)此,基于云計(jì)算的資源檢索系統(tǒng)將為其提供支撐平臺(tái)。
對(duì)于各種機(jī)構(gòu)而言,其信息資源量巨大,資源服務(wù)的任務(wù)也更加艱巨。機(jī)構(gòu)內(nèi)部在日常工作中沉淀了大量有用的信息,如何更有效地挖掘其潛在價(jià)值,也是每個(gè)機(jī)構(gòu)需要面對(duì)的問(wèn)題。
基于云計(jì)算的圖書(shū)館群檢索可以說(shuō)是網(wǎng)格計(jì)算檢索的實(shí)現(xiàn)和延伸,它能借助云計(jì)算理論及現(xiàn)有的云計(jì)算研究基礎(chǔ),克服網(wǎng)格計(jì)算檢索過(guò)程中網(wǎng)絡(luò)環(huán)境的異構(gòu)性、可擴(kuò)展性和虛擬網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)自適應(yīng)難題,實(shí)現(xiàn)圖書(shū)館高效率的檢索。
就目前來(lái)說(shuō),國(guó)內(nèi)還沒(méi)有真正基于云計(jì)算框架的網(wǎng)絡(luò)應(yīng)用,而海量圖書(shū)資源的充分利用正需要基于云計(jì)算的MapReduce等技術(shù)框架的支撐。因此可以說(shuō)云計(jì)算技術(shù)在海量圖書(shū)資源的處理方面具有廣闊的發(fā)展空間,迅速開(kāi)展基于云計(jì)算的圖書(shū)館群資源檢索研究合乎時(shí)宜[5]。開(kāi)源云計(jì)算框架與平臺(tái),是依托于互聯(lián)網(wǎng)上的圖書(shū)館資源服務(wù)群,利用云計(jì)算技術(shù)實(shí)現(xiàn)分布式圖書(shū)館資源的分布式信息服務(wù),并集中大量圖書(shū)館的資源,研究海量數(shù)據(jù)的存儲(chǔ)服務(wù)、海量數(shù)據(jù)的并行計(jì)算等,最終實(shí)現(xiàn)基于云計(jì)算的圖書(shū)館群集合、電子資源整合檢索服務(wù),而開(kāi)發(fā)出來(lái)的適合海量數(shù)據(jù)存儲(chǔ)與海量數(shù)據(jù)并行計(jì)算檢索的服務(wù)平臺(tái)(見(jiàn)圖1)。

4.1.1 圖書(shū)館數(shù)字資源的簡(jiǎn)單海量存儲(chǔ)模型研發(fā)
簡(jiǎn)單海量存儲(chǔ)模型是一種基于云計(jì)算理論的存儲(chǔ)模型。它針對(duì)區(qū)域性、行業(yè)性乃至全國(guó)性大規(guī)模數(shù)字圖書(shū)資源的存儲(chǔ)需求,以最前沿的Hadoop等開(kāi)源云計(jì)算平臺(tái)為基礎(chǔ),實(shí)現(xiàn)面向海量資源數(shù)據(jù)的云存儲(chǔ),具體包括:(1)實(shí)現(xiàn)跨域自適應(yīng)的云文件系統(tǒng)。(2)以BigTable數(shù)據(jù)存儲(chǔ)系統(tǒng)為基礎(chǔ),針對(duì)圖書(shū)館結(jié)構(gòu)化海量元數(shù)據(jù)資源的特征,研究面向圖書(shū)資源的特定云存儲(chǔ)模型,并提出高效、簡(jiǎn)單、適合圖書(shū)資源的特定的結(jié)構(gòu)化元數(shù)據(jù)存儲(chǔ)機(jī)制與方法。
4.1.2 圖書(shū)館數(shù)字資源的簡(jiǎn)單海量并行計(jì)算模型研發(fā)
并行計(jì)算模型針對(duì)區(qū)域性、行業(yè)性乃至全國(guó)性大規(guī)模數(shù)字圖書(shū)資源的海量分布特征,參考MapReduce云計(jì)算框架,開(kāi)發(fā)適合海量數(shù)字圖書(shū)資源的索引和檢索算法。它主要利用云計(jì)算在海量數(shù)據(jù)處理方面的優(yōu)勢(shì)提高海量圖書(shū)資源在檢索和索引方面的性能。具體包括:(1)定義特定的海量資源檢索邏輯,實(shí)現(xiàn)適合海量圖書(shū)資源的分布式檢索算法,提高區(qū)域性數(shù)字圖書(shū)資源檢索的實(shí)時(shí)性和高效性。(2)定義特定的海量資源索引邏輯,實(shí)現(xiàn)適合海量圖書(shū)資源的分布式索引算法,以支持海量數(shù)據(jù)存儲(chǔ)的高效并行檢索。
4.1.3 基于圖書(shū)館群海量資源檢索的并行計(jì)算框架研發(fā)
在實(shí)現(xiàn)海量圖書(shū)資源存儲(chǔ)和處理的基礎(chǔ)上,參考Hadoop、GFS、 Section/Sphere、Sun Grid Engine等并行計(jì)算模式,探索面向分布在因特網(wǎng)下的圖書(shū)館群海量資源的并行計(jì)算框架。
核心技術(shù)包括:開(kāi)發(fā)適合因特網(wǎng)復(fù)雜網(wǎng)絡(luò)環(huán)境的針對(duì)分布式獨(dú)立性海量資源檢索的并行計(jì)算框架,解決在圖書(shū)館群海量資源檢索環(huán)境下的并行計(jì)算框架問(wèn)題。
4.2.1 面向圖書(shū)館數(shù)字資源的海量元數(shù)據(jù)存儲(chǔ)模型
現(xiàn)有的BigTable等數(shù)據(jù)存儲(chǔ)模型主要針對(duì)網(wǎng)頁(yè)類(lèi)型的數(shù)據(jù)來(lái)設(shè)計(jì),而圖書(shū)館信息資源的結(jié)構(gòu)化程度更高,目前在國(guó)內(nèi)還缺乏專(zhuān)門(mén)針對(duì)圖書(shū)館信息資源的海量數(shù)據(jù)存儲(chǔ)模型。
4.2.2 面向圖書(shū)館群的海量資源檢索的并行計(jì)算模式
目前前沿的海量云計(jì)算模式基本上都基于一定小范圍內(nèi)的超大集群系統(tǒng),集群系統(tǒng)內(nèi)的各個(gè)主機(jī)之間的網(wǎng)絡(luò)通訊帶寬都很高,基本在千兆/秒,每個(gè)主機(jī)的穩(wěn)定性相對(duì)較高,因此整體集群的主機(jī)失效率比較低。而圖書(shū)館群海量資源檢索的環(huán)境相對(duì)而言比較獨(dú)立。因此,開(kāi)發(fā)適合于圖書(shū)館群的海量資源檢索環(huán)境的并行計(jì)算框架是一個(gè)具有重要意義的創(chuàng)新點(diǎn)。
4.2.3 面向分布式圖書(shū)館海量資源檢索的統(tǒng)一調(diào)度管理模型
各圖書(shū)館都具備多個(gè)電子資源數(shù)據(jù)庫(kù),都有自己的服務(wù)系統(tǒng)和運(yùn)算模式。針對(duì)圖書(shū)館的分布特性,需要在多個(gè)圖書(shū)館、多個(gè)電子資源之間建立一個(gè)能夠檢索調(diào)度、分發(fā)及分類(lèi)去重的統(tǒng)一調(diào)度管理模型。統(tǒng)一調(diào)度管理模型是采用基于OpenURL(開(kāi)放鏈接)標(biāo)準(zhǔn)的多級(jí)調(diào)度、以動(dòng)態(tài)腳本技術(shù)制定調(diào)度規(guī)則、向第三方提供電子資源注冊(cè)標(biāo)準(zhǔn)和接口等方法的調(diào)度管理模型。它實(shí)現(xiàn)了圖書(shū)館群內(nèi)各個(gè)電子資源的有效利用,使得任何一個(gè)檢索請(qǐng)求都能準(zhǔn)確無(wú)誤地被發(fā)送、結(jié)果準(zhǔn)確快捷地被返回。統(tǒng)一調(diào)度管理模型的開(kāi)發(fā)是海量存儲(chǔ)模型和并行計(jì)算模型整合應(yīng)用的升華,具有非常關(guān)鍵和重要的地位。
4.2.4 面向分布式圖書(shū)館統(tǒng)一服務(wù)模式的探索
現(xiàn)今圖書(shū)館都只服務(wù)于本區(qū)域或本機(jī)構(gòu)、本行業(yè),雖然圖書(shū)館聯(lián)盟正在興起,但是還是基于目錄級(jí)的、單一功能性的整合,如區(qū)域(行業(yè))聯(lián)合目錄、聯(lián)合參考咨詢(xún)、區(qū)域館際互借與文獻(xiàn)傳遞服務(wù)等,缺乏基于圖書(shū)館群的區(qū)域(行業(yè))整體服務(wù)模式[6]。基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)服務(wù)已經(jīng)成為圖書(shū)館服務(wù)的重點(diǎn),這為區(qū)域(行業(yè))圖書(shū)館群統(tǒng)一服務(wù)提供了可能,因而,云計(jì)算在圖書(shū)館群資源檢索中的應(yīng)用可以提供的是區(qū)域(行業(yè))“一館式”服務(wù)享受。
[1] 肖 鵬. 云計(jì)算對(duì)圖書(shū)館事業(yè)的雙重影響[J] . 圖書(shū)館學(xué)研究, 2009(8):42-44.
[2] MapReduce[EB/OL] .[2009-07-12] .http://baike.baidu.com/view/2902.htm?fr=ala0.
[3] 胡小菁, 范并思. 云計(jì)算給圖書(shū)館管理帶來(lái)挑戰(zhàn)[J] . 大學(xué)圖書(shū)館學(xué)報(bào), 2009(4):7-12.
[4] 盧曉娟. 云計(jì)算與未來(lái)圖書(shū)館數(shù)字信息資源建設(shè)[J] . 四川圖書(shū)館學(xué)報(bào), 2009(2):23-24.
[5] 米 勒.云計(jì)算[M] . 姜進(jìn)磊, 孫瑞志, 向 勇, 等譯. 北京:機(jī)械工業(yè)出版社, 2009.
[6] 王 龍, 萬(wàn)振凱. 基于服務(wù)架構(gòu)的云計(jì)算研究及其實(shí)現(xiàn)[J] . 計(jì)算機(jī)與數(shù)字工程, 2009(7):88-91.