崔建軍,董馨
(昆侖銀行股份有限公司,北京 102206)
數據容災、數據存儲是連續執行的數據處理行為,數據容災指的是網絡主機通過建立異地數據系統的方式,完成對數據文件的復制與備份處理;數據存儲則是指網絡主機對數據文本的記錄行為。從宏觀角度來看,數據容災是數據存儲與備份的高級執行層次,能夠在保證數據安全傳輸的同時,提高信息對象的持續可用性[1]。選擇容災備份數據的依據是確保丟失數據與未丟失數據之間的代價比關系,特別是在硬件備份空間無法滿足數據存儲需求的情況下,為實現對網絡數據的容災,應在實施處理前,建立數據信息存儲表單結構。
對于多源數據對象而言,保障主機元件對數據樣本的容災處理能力,從而節省信息存儲空間,成為了一項亟待解決的問題。針對上述情況,文獻[2]提出了利用Hilbert 曲線與Cassandra 技術的數據存儲與索引方法。利用Cassandra 數據庫,降維處理多源數據,融合Hilbert 曲線編碼原則,分割處理數據存儲單元,從而將多源數據對象映射到不同的結構單元中。文獻[3]提出了基于Hyperledger Fabric 與星際文件系統相結合的數據存儲方法。分別利用Hyperledger Fabric 的Level DB 架構體系和星際文件模型,存儲規模較小和規模較大的多維數據樣本,根據擴展性原則,完成對存儲源節點的深度追蹤。然而上述兩種方法的應用能力有限,不能保障壓縮后數據樣本的存儲容量完全符合實際需求標準,易導致不完全容災問題的出現。
分段擬合壓縮是指由分段到壓縮處理的完整執行流程。相較于其他類型的數據壓縮方法,分段擬合壓縮注重對已獲取信息對象進行分段式辨識,并可以通過按需擬合的方式,將所涉及信息對象整合成既定存儲格式,以便于主機元件可以在壓縮數據樣本的同時,定義具體的信息存儲方案。利用分段擬合壓縮技術的應用特性,設計一種新型的多源數據容災存儲算法,并通過對比實驗的方式,突出該方法在解決數據樣本壓縮后所占存儲容量過大問題方面的應用能力。
分段擬合壓縮算法是主機元件估算多源數據容量所應用的技術手段。所謂分段擬合壓縮就是指按照壓縮信道分段條件,確定尋優擬合參數的實際取值范圍[4-6]。通常情況下,壓縮信道的分段數量值越大,表示主機元件所必須存儲的多源數據樣本總量越多,與之對應的尋優擬合參數計算值也就越大。
對于多源數據壓縮信道分段條件的求解參考如下表達式:
式中,χ表示多源數據在網絡體系中的實時傳輸參數,表示多源數據樣本的單位累積量,βχ表示數據傳輸信道的分段系數,α表示主機元件對多源數據對象的壓縮處理閾值,a表示多源數據的分段標記向量,˙表示傳輸信道內的多源數據壓縮處理特征。
尋優擬合參數是在壓縮信道分段條件下求解所得的物理量[7-8]。多源數據擬合結果影響主機元件對信息對象的壓縮處理能力,特別是在尋優方向不一致的情況下,擬合參數的計算數值越大,就表示主機元件對多源數據的處理能力越強。
假設g表示多源數據尋優向量,φ表示主機元件內的數據信息實時擬合向量,聯立式(1),可將多源數據尋優擬合參數計算結果表示為:
式中,ε表示多源數據對象的尋優定義項,f表示數據樣本在主機元件內的尋優方向向量,ΔD表示主機元件內多源數據的單位擬合量。
多源數據容量就是指數據樣本的實時存儲量[9-10],對于網絡主機而言,該項物理量的求解需參考分段擬合壓縮條件,且壓縮定義項的分類越細致,主機元件在單位時間內所能存儲的數據樣本類型也就越多,多源數據的實時容量水平也就越高。
設γ表示基于分段擬合壓縮算法所定義的多源數據存儲系數,Gmax表示多源數據壓縮定容參量的最大取值,表示數據樣本存儲容量估算指數,φ表示數據樣本的存儲定容值,表示數據樣本的多源分類特征,聯立式(2),推導基于分段擬合壓縮的多源數據容量估算表達式定義為:
利用分段擬合壓縮算法估算多源數據容量,遵循實時性原則,以主機元件按照容量估算條件容災數據樣本時,只能將即時所得數據信息存儲于數據庫體系中。
主機元件完成容災糾錯,首先應將多源數據分割成多個存儲部分;然后通過分別糾正的方式,將各個單元組織中的錯誤數據對象提取處理;最后按照分段擬合壓縮算法,定義具體的數據容災方案。
假設η表示多源數據在主機元件中的傳輸效率,κ表示多源數據糾錯向量,pκ表示基于參數κ的數據對象糾錯參數,ι表示實時容災系數,表示基于分段擬合壓縮算法的多源數據取樣特征,˙表示標準容災參量[11-12]。在上述物理量的支持下,聯立式(3),可將多源數據容災糾錯表達式定義為:
LDPC 碼決定了主機元件對多源數據的容災與處理能力[13-14]。在已知糾錯標準的前提下,主機元件對LDPC 碼的定義參考分段擬合壓縮算法,且隨著數據樣本累積量的增大,主機元件所需定義的LDPC 碼源數值水平也會不斷增大,但由于容災處理的核心目的是在保證數據信息完整性的同時,控制其壓縮編碼后所占的存儲容量,因此為避免錯誤識別情況的出現,每一個數據庫單元結構只能存儲一種類型的LDPC 碼源向量。
容災后的多源數據存儲就是將容災備份所得的多源數據對象寄存于互聯網數據庫主機中[15-16]。容災后數據信息保持集群式存在狀態,且壓縮前數據對象的相似性等級越高,備份后容災對象所處的存儲位置就越接近。多源數據存儲流程如圖1 所示。

圖1 容災后的多源數據存儲流程
利用式(5),推導容災后的多源數據存儲條件如下:
基于分段擬合壓縮的多源數據容災存儲算法,實驗根據壓縮后數據樣本所占存儲容量判斷主機元件對多源數據對象的容災處理能力,選擇基于分段擬合壓縮的多源數據容災存儲算法(所提方法)、利用Hilbert 曲線與Cassandra 技術的數據存儲與索引方法(文獻[2]方法)、基于Hyperledger Fabric 與星際文件系統相結合的數據存儲方法(文獻[3]方法)進行對比實驗。
在互聯網環境中,主機元件對多源數據的容災與存儲需借助數據庫終端體系,通常情況下,終端組織的輸入端口與網絡信道直接相連,負責提取處于傳輸狀態的數據對象,輸出端口負載于服務器平臺中,負責輸出未被完全消耗的數據對象?;ヂ摼W數據存儲終端結構如圖2 所示。

圖2 互聯網數據存儲終端結構圖
該實驗所選設備元件的具體型號如表1所示。

表1 實驗設備選型
出于公平性考慮,實驗過程中相關設備元件的運行始終保持穩定狀態。
在不考慮其他干擾條件的情況下,壓縮后數據樣本所占存儲容量越小,表明主機元件對多源數據對象的容災處理能力越強。在基于分段擬合壓縮的多源數據容災存儲算法(實驗組)、利用Hilbert 曲線與Cassandra 技術的數據存儲與索引方法(A 對照組)、基于Hyperledger Fabric 與星際文件系統相結合的數據存儲方法(B 對照組)作用下,壓縮后數據樣本所占存儲容量如圖3 所示。

圖3 壓縮后數據樣本所占存儲容量
圖3 中1 號、2 號、3 號、4 號、5 號區域,存在比B對照組曲線顏色更深的曲線,這些曲線為A 對照組、B 對照組重合后的存儲容量曲線。
分析圖3 可知,實驗組壓縮后數據樣本所占存儲容量的均值水平相對較低,在20~25 min 之間時,其存儲容量取得最大值4.9×107MB;A 對照組壓縮后數據樣本所占存儲容量的均值水平較高,第20 min時,其存儲容量取得最大值6.4×107MB,與實驗組最大值相比,增大了1.5×107MB;B 對照組壓縮后數據樣本所占存儲容量的均值水平處于實驗組、A對照組之間,第15 min 時,其存儲容量取得最大值5.8×107MB,與實驗組最大值相比,增大了0.9×107MB。
綜合上述分析可得出實驗結論:應用基于分段擬合壓縮的多源數據容災存儲算法,可以實現對壓縮后數據樣本所占的存儲容量的有效控制,能夠較好解決主機元件不能完全容災多源數據對象的問題,符合實際應用需求。
該文提出了基于分段擬合壓縮的多源數據容災存儲算法,根據數據容量估算條件,確定多源數據容災后的具體存儲方案。在實用性方面,這種新型算法的應用能夠解決由壓縮后數據樣本所占存儲容量過大導致的主機元件無法完全容災多源數據對象的問題,在數據樣本有效壓縮方面具有突出作用價值。