付鋆 汪浩 陳運晶



摘 要: 為了提高大量信息數據快速分析的能力,設計了一種通過內容分塊技術來優化層次化冗余去重過程的方法。先分層處理元數據索引表,再以分層方式完成文件級與數據塊級冗余去重的過程,之后為數據塊級設置了智能化程度更高以及具備更優性能的內容分塊優化算法。重點分析了通過內容分塊方式實現的層次化去冗優化方案,同時對其開展了系統性測試。根據測試結果評價了各算法處理性能。結果表明,該設計的優化方案可以達到更智能的程度并獲得更優的處理效果。
關鍵詞: 云存儲; 冗余去重技術; 數據分塊; 層次化
中圖分類號: TP 312 ? ? ?文獻標志碼: A
Abstract: In order to improve the ability of rapid analysis of a large amount of information and data, this paper designs a method to optimize the hierarchical redundant de-duplication process through content partitioning technology. Firstly, the metadata index table is processed hierarchically, and then the process of redundancy and de-duplication at the file level and the data block level is completed in a hierarchical way. After that, the content partition optimization algorithm with higher intelligence degree and better performance is set for the data block level. This paper focuses on analyzing the hierarchical de-redundant optimization scheme by means of content partitioning and carries out systematic testing on it. The performance of each algorithm is evaluated according to the test results. The results show that the optimized scheme designed in this paper can reach a more intelligent level and obtain better processing effect.
Key words: cloud storage; redundancy deduplication technology; data partitioning; hierarchical tructure
0 引言
當前,在信息化發展過程中大量信息數據快速產生,可以根據這些數據分析各個企業的實際運營狀況并挖掘其中的高價值信息。如何實現對上述各類數據進行高效管理也因此成為了現階段的一個重點研究內容[1-5]。即使構建了足夠數量的存儲設備來完成數據的存儲過程,當數據進行傳輸時也需要占據大量網絡帶寬,造成網絡堵塞的問題[6-9]。
由于存儲數據時會產生許多相互重復的類似數據,這類重復數據通常是為了保證數據穩定性及避免丟失而產生的備份部分,還有部分數據是因為發生了錯誤操作或某些以外因素,導致同一數據發生了被重復存儲的情況[10-12]。受數據量迅速增加的影響,當前存儲系統開始受到多方面的挑戰,為了進一步提高存儲速度,需要采取有效措施來消除各類冗余信息,這也是克服存儲容量制約的關鍵方法??梢砸肴哂嗳ブ胤椒ㄊ垢魑募嬖诘闹貜蛿祿浄治鎏幚砗蟊幌?,由此達到縮減數據的效果,有效降低數據的存儲空間[13]。
1 基于內容分塊的層次化冗余去重優化策略1.1 層次化冗余去重
通過內容分塊技術實現的層次化冗余去重優化方法包含了層次去冗以及內容分塊優化二個過程,結果如圖1所示。
其中,索引信息的層次化去冗優化需要實施分層處理,同時在硬盤上建立第2級索引信息;利用分塊優化算法改進傳統形式的基于內容分塊算法,避免形成過大或過小的數據塊。
使用層次化冗余去重方案時,需從以下二個方面進行分層處理。
先構建由元數據組成的索引表作為首個分層結構。對大量數據進行處理時,該索引表會產生很高的內存占有率,導致系統發生運行性能下降的情況。本文構建了一種分層模式的索引結構,只在內存中加載文件級的索引表,之后采用快速訪問設備存儲數據塊索引表,同時文件級索引表只保存指針部分,使內存壓力獲得釋放,有效改善系統整體性能。
看到建立在內容基礎上的層次化冗余去重策略對應的索引結構,如圖2所示。
對圖2進行分析可以發現,在文件索引表中各記錄的主鍵都是由文件ID構成,并且還可以從該表中看到文件的Hash參數、數據塊指針以及總的出現次數。按照各文件的ID編號順序存儲于文件索引表內,確保可以完成快速查詢的過程。在數據塊索引表內包含了各文件非冗余數據塊參數,各項記錄中含有數據塊Hash、文件塊ID、偏移量、引用次數以及一個指針,可以根據指針獲得數據實際存儲地址。在數據塊索引表內存在各項非冗余數據塊的參數,因此占據了很大的存儲空間,這就要求。為了盡量降低內存占用率,需避免將上述數據長期存儲于內存中,此時可以選擇快速訪問設備來處理數據存儲的問題。由此實現在獲得較高訪問效率的前提下有效降低內存占用比例,最大程度發揮內存的作用。