圖書館和閱覽室的數據存儲系統和其他行業的存儲有幾點不同,主要是:一是龐大的數據。一座中等的圖書館每年可增長10TB的數據。二是存儲的時間久。圖書館的數據存儲時間相對較久遠,可以達到幾十年甚至上百年。三是數據存儲種類多。現在圖書館、閱覽室存儲的類型有影像文件、文字文件、聲音文件等多種形態。四是較高的安全性。作為一個大型的圖書館,為了滿足各種需求,可以利用數據壓縮、相同數據可刪除和自動尋找等技術,對數據進行分類和快速高效的管理。
一、圖書館、閱覽室數據存儲容量不足的問題與解決對策
1.利用壓縮技術提高空間利用率
書籍等圖書資料,其文件內以及文件間都具有一定的相似性,因此,Delta壓縮技術可以對于這些文件之間的數據進行相互比較,從而刪除其中的冗余數據,讓數據的內容實現最小化。文件間相似程度越高,其被壓縮的內存就越小。雖然這種壓縮技術最后要在這種文件上產生一定的引伸數據,但是從美國加州大學方面所獲得的數據顯示,最后文件總的數據量只占原先數據的1%~4%左右。
2.利用消重技術提高空間的利用率
圖書館的數據進行存儲時,一般都會對數據進行備份,而數據在進行了多次備份之后,就會產生一定的重復,因此,對于重復的數據進行刪除,可以在備份時有效節省數據存儲的空間。而對于重復備份的數據,可以將其劃分為時間數據消重以及空間數據消重兩種。而電子書籍等產生的數據,可歸納為自然數據的范疇,其特征主要在于:數據的變化頻率較低、數據備份較完整、保存周期較長以及數據內容可以感知等。因此,針對這種情況,可以采用時間數據消重的方式進行消重。其消重技術具體如下所示:
首先,將數據文件劃分為一組數據塊,再按照技術的相關要求,提前設定每個模塊內存的大小,可以設定為4k、24k等,模塊的內存越小,消重的效率就越高。最后再對于每組數據塊進行指紋計算,再以指紋為關鍵詞進行Hash查找,如能夠查找到與之相配的數據,則斷定其為重復數據,再將該數據塊的索引號進行儲存;如果沒有找到相應的數據塊,則表示其為唯一的數據模塊。
■
這種計算方式為物理文件做了很好的標識,其與邏輯標識相對應,最后通過Hash函數計算出數據模塊的指紋。當對于一個文件進行讀取時,首先是對其邏輯標識進行讀取,之后再按照數據模塊的指紋,依次從存儲系統中讀取與之相應的物理數據,最后將文件的副本進行一定的還原。Hash的計算過程如下圖所示:
二、數據備份問題與解決對策
圖書館和讀者的相關數據對借閱、身份確認以及相關資料儲存而言是最為重要的依據,因此,要長期穩定且安全地進行保存,就提高了對儲存系統的性能要求。圖書出入信息系統的最主要特點就是持續不間斷地運行,儲存系統的可靠性較高,對于數據的恢復能力也較強。除此之外,圖書館以及閱覽室等各部門的專業化信息系統也越來越多,服務器數量呈現出不斷上升的趨勢,為了有效防止系統與系統之間的干擾,除了提高對于容量、備份以及容災等方面的要求外,還要求備份數據能夠進行統一管理,數據的恢復能力與速度也要較強。
眾所周知,圖書館的數據量是非常大的,一所五千人的學校中,圖書館的電子圖書數據就具有15TB之多。因此,備份方案不可以簡單運用,因為大量數據進行備份時,需要花費很多時間。最好的方法就是,運用備份的相關功能,讓復制的數據在保證該程序能夠正常運行的情況下,還能夠讓客戶端正常使用。而重要的數據備份可以通過冗余配置的主機或者硬盤進行備份。運用這種技術,當某個磁盤或者陣列出現問題時,不會影響整個系統的正常運行。
三、存儲空間利用率低的問題與解決對策
目前,大多數高校圖書館存儲設備的使用容量幾乎都不到整個容量的一半。圖書館在管理的過程中,由于技術較為落后的設備,會經常性地通過整理碎片的方式來增加存儲的利用率以及改善數據查詢功能等。這種方式對于容量較小的存儲而言具有一定的可行性,但當面臨較大的數據機制時,就要花費較多的時間了。
對于某項應用來說,傳統空間的分配機制一般是采用供給的方式進行,能夠有效保證應用具有較充分的增長空間。如果這樣的話,肯定會使得大量的空間產生閑置,不僅浪費了空間,而且還使能源遭受了一定的損失。自動精簡配置屬于一種較先進的存儲空間管理系統,它可以幫助用戶在保證系統管理效率的同時,有效提高存儲空間的使用效率。它主要依據數據的空間系統進行相關分配的,因此幾乎不存在較多的多余空間。
對圖書館的相關數據進行有效存儲以及管理是非常重要的,這同時也是圖書館電子化發展的重要標志之一。與此同時,較好的數據管理可以在一定程度上提高客戶的滿意度,最終達到節約成本的目標。所以,我們在對圖書館的所有數據進行集中儲存、管理以及備份的同時,要充分運用目前的相關數據,有效提高圖書館在市場中的核心競爭力。