孔燦, 于洋, 姜林彤
(深圳供電局有限公司, 廣東,深圳 51800)
檔案數字化已經成為現今數據存儲的主要形式,數字化檔案的存儲數量也呈現爆發式增長的趨勢。不同于傳統的紙質檔案,數字檔案具有檢索速度快、查找文件準確、信息資源共享等特點[1]。但是由于網絡數據傳輸負載不均衡,造成異質異地數字檔案的備份數據分配能力較弱,備份系統的響應時間較長,如何提高數字化檔案的備份性能成為了現今網絡存儲領域研究的重點。NAS作為一種網絡附加存儲類型,可以在數據存儲服務器上應用。NAS以數據作為工作核心,使得服務器和存儲設備成為各自獨立的存在,實現數據的集中管理。伴隨著現代科技的進步,NAS技術得到了發展,促進其得到廣泛推廣應用的是千兆以太網的出現與使用[2]。存儲網絡帶寬將NAS存儲的性能大幅度提升。并且,在NAS中,具有專門管理文件的功能。通過一個文件系統管理磁盤陣列。對存儲、備份的文件進行管理,設置相應的網絡安全和訪問授權[3]。在工作過程中,NAS可以根據服務器或客戶端的指令,對相關數據文件進行優化管理。降低數據備份過程中,數據傳輸時間,同時還可以提升日后的數據運行效率[4]。作為企業的核心信息資源,檔案是業務活動的重要工具,也是憑證性信息記錄。隨著企業檔案的復雜化,其數字化管理變得越來越重要。尤其是一些不可缺少的信息,為了保證其安全性,數字化檔案異質異地備份被提上日程[5]。本文以NAS架構為基礎,完成數字化檔案異質異地備份系統的設計,實現檔案異質異地完美備份。
對于網絡附加存儲設備,也就是NAS架構的設計,其具體結構如圖1所示。其中包括存儲器件,例如: CD/DVD驅動器、可移動的存儲介質等[6],以及內嵌系統軟件,可提供跨平臺文件共享功能。

圖1 NAS結構示意圖
在備份系統設計過程中,一般情況下,將NAS設備配置為文件服務器,通過工作站或服務器[7],進行網絡協議、應用程序的操作,實現文件訪問的效果。通過客戶端和 NAS文件共享設備進行NAS連接,依靠企業的網絡基礎設施,來保障設備的正常運行。
系統設計中,另外一個不可或缺的硬件,就是磁盤列陣。一般磁盤陣列包括三種樣式,分別是外接式磁盤陣列柜、內接式磁盤陣列卡、軟件仿真[8]。文中設計的數字化檔案異質異地備份系統,需要的是內接式磁盤陣列卡,可以為數據提供保護性、可靠性、可管理性[9]。由于磁盤陣列在整個系統中,作為數據存儲的主要工具,對其技術上的領先性作出考量,并結合本單位的實際應用數據規劃合理安排[10]。其主要內部結構如圖2所示。

圖2 磁盤列陣結構圖
網絡附加存儲設備、磁盤列陣的設計,作為備份系統的硬件設施,支撐著系統軟件的開發與設計。
數字化檔案異質異地備份系統軟件的設計,主要包括幾個方面,首先對需要備份的數字化檔案進行預處理,然后對備份數據進行均衡負載處理。最終實現數字化檔案異質異地備份。
在數字化檔案異質異地備份工作進行前,需要預先將數據進行處理,對文件中包含的重復數據進行剔除,從而加強對備份數據的管理。文件分塊是數據預處理的重點,通過對數據塊的單實例化存儲,實現重復數據刪除的目標。首先,將需要備份的源文件進行分塊,數據塊的邊界,通過字節區域產生的hash值確定。分塊方式主要包括固定分塊、變長分塊兩種。其中,由于變長分塊對數據變化的敏感性比較低,并且該方式是以內容為基礎,所以該方式成為主要手段。此外,在進行重復數據刪除的過程中,可以對Rabin Figerprint算法進行應用。該算法的思想內容是當A([b1,b2, …,bm])中,包含m個二進制字符,而t作為不定元,那么,通過A可得出關于m-1度的多項式,如式(1):
A(t)=b1tm-1+b1tm-2+…+bm-1t+bm
(1)
隨后,形成一個k次多項式P(t),如式(2):
P(t)=a1tk+a1tk-1+…+ak-1t+ak
(2)
將A(t)處P(t)的余數用f(t)來表示,則其度數為k-1。并且,以給定的字符串A作為依據,可以得出關于f(A)的公式:
f(A)=A(t)modP(t)
(3)
但是該算法有一個特殊點,就是當字符串A與字符串B的指紋不同時,字符串A和字符串B也不同。但是當字符串A和B的指紋相等時,不能代表字符串A一定等于字符串B。所以,該算法滿足了弱哈希的性質,在重復數據刪除技術中,作為基于內容的變長分塊算法,受到了廣泛應用。但是在重復數據的判斷過程中,總會存在小部分誤判的情況。這種時候,可以根據數據塊位數組的大小,進行數據誤判率的計算。當用n代表元素數量,ε表示允許的最大誤判值,m為位數組的位數,現在使誤判率f小于ε,可得到式(4):
(4)
通過式(4),可以使得哈希函數取得最優個數。此外,在對數據進行預處理的過程中,可以建立目錄層級哈希樹,用以作為預處理的數據結構。在哈希樹建立完成后,在備份服務器中,利用哈希樹查找相應的已備份文件。若存在相同數據,則進行該哈希樹的剪枝,減少備份的目錄結構和文件個數,完成重復數據的刪除。在節約帶寬同時,降低服務器壓力。
在數據預處理完成后,經由網絡附加存儲設備進行存儲。但是,由于NAS的特點是文件保存,對于存儲的數據不能進行處理。因此基于NAS架構,通過客戶端程序的輔助,完成了NAS集群管理,如圖3所示。在這個過程中,打破傳統想法,使用戶發送請求時處于分散發送的情況,并且直接將請求發送給管理NAS服務器。這樣對NAS服務器的并行度有所增強,也就提升了整個備份系統的工作性能。此外,由于對NAS服務器數據進行了統一的管理,有效提升了管理源數據安全性、高效性。

圖3 NAS集群用戶請求處理流程
根據圖3所示,在客戶端發送備份請求后NAS服務器進行接收,并且查看該數據種類。如果適合該服務器存放則直接返回數據。相反,則會將數據應該存放的NAS服務器地址返回。經由負載均衡設備,將數據向正確存儲服務器發送。在這個過程中,每個NAS服務器對自己存儲數據負責。對于其他數據,直接告訴客戶端對應NAS服務器IP地址,實現了負載平衡,達到很好的并行訪問性。并且根據負載均衡的特點,設計備份系統的負載均衡模型。用以計算分配站點數,實現備份任務最短時間內完成。假設,某一備份任務有k個站點,其觸發時,通過預測機,對每一個MOSS代理和存儲服務器的負載情況進行預測,并將信息發送給調度機,調度算法將備份任務進行分配,則每個MOSS分配到的站點數為
θi=(βi/Σβi)*k
(5)
式中,βi表示第i個MOSS代理空閑度。當我們將第i個存儲器的空閑度用pi表示時,可以得到:
ζi=(pk/Σpi)*k
(6)
則每個存儲器分配的站點個數為ζi(1≤i≤n)。至此,完成了關于NAS集群的數據分配,以及數據的分布式均衡負載處理。加快了數據備份處理時間。
在數字化檔案異質異地備份過程中,每一個集群的NAS服務器都有可能成為數據源。因此,在融合備份源和備份目的的功能后,對備份代理程序進行設計,達到備份功能的靈活化。由于集群NAS中的NAS服務器,都可以執行多對多的關系。因此,每一個NAS服務器,可以提高備份源數量,并且完成多個備份目的。該程序包含的有兩個任務列,負責記錄NAS服務器中包含的備份源,如圖4所示。

圖4 備份代理程序結構圖
如圖4所示,每個節點與兩個線程相連接,其中備份源引擎響應線程的作用,在于響應備份過程中引擎的命令。輔助備份過程中,管理員對備份過程的管理。除此之外,可以通過NBP協議的定義,實現數據備份。該協議規定了整個備份過程的各個步驟,并對備份管理器、備份源、備份目的進行定義。最終,實現基于NAS架構的數字化檔案異質異地備份。
為了驗證該系統的運行效果,進行實驗測試。實驗所需硬件、軟件需求如表1、表2所示。

表1 硬件需求表

表2 軟件需求表
完成對實驗所需軟件和硬件的準備后,進行運行環境的搭建。首先確定其以太網為100 Mb,實驗測試通過四臺IP交換機相連接,其中一臺作為客戶機存在,其余的是NAS服務器。然后,進行網絡化的管理,在控制器中完成IP地址更改,將現有局域網和磁盤陣列管理相連接。為了保證實驗的科學性,選擇兩種傳統系統,作為對照組,進行數字化檔案異質異地備份測試,并對三種系統性能進行分析。
基于上述實驗準備,在實驗中,選擇分別為10 GB,50 GB,100 GB,150 GB,200 GB大小的備份文件,進行系統備份速度的測試,其結果如表3所示。

表3 三種系統備份速度變化表
通過表3可以看出,隨著文件的增大,三種系統的備份速度都在降低。相比兩種傳統系統,文中系統速度下降最低,從7.5 kB/ms降到了6.0 kB/ms,而兩種傳統系統,在文件大小為200 GB時,備份速度已經分別降到了4.8 kB/ms與4.5 kB/ms,足可以看出文中系統的優勢。
此外,對于系統實現備份工作的響應時間做出具體測試,設置備份數據任務量逐漸上漲,三種備份系統的數據響應時間如圖5所示。這個過程中所謂的響應時間,表示系統從接收備份請求開始,直到完成備份工作的時間,以此來驗證系統性能。

(a) 文中系統
通過圖5我們可以明顯看出,三種備份系統隨著備份數據量的不斷增加,其響應時間也在逐漸延長。但是文中設計系統還是占據優勢的。文中設計備份系統從數據量增加開始,其響應時間增長速度一開始比較緩慢,直到數據量達到256 kB時,上升幅度才開始增加,直到數據量達到1 024 kB時,系統響應時間為80 ms左右。傳統系統2也是前期響應時間增長緩慢的,但是到達數據量增至256 kB時,響應時間開始急速增長。直到數據量為1 024 kB時增加到了190 ms左右。而此時,傳統系統1,其響應時間大概為150 ms。綜上所述,文中設計的系統,通過對備份數據的優化管理,將系統的響應時間降低了50%左右。
依托于NAS架構,進行了數字化檔案異質異地備份系統的設計。設計軟件與硬件部分,首先進行數字化檔案預處理,并優化管理群集 NAS中的備份數據,減少備份數據響應時間。通過本文的設計,在保證數據安全性的情況下,提升了企業備份數據的速度。但是由于一些條件約束,文中設計系統雖然可以產生良好的應用效果,但是還不夠完善,將來可以向這方面深入研究。