戚永豐
【關鍵詞】信息技術 網絡備份 重復數據刪除技術
生活在信息網絡社會,我們對數據的需求越來越高,我們使用計算機、硬盤等工具儲存了大量的寶貴信息和數據,一旦數據被破壞或者丟失,都將給企業、單位造成巨大的損失,在一些高可用性環境和高連續性環境中,中斷業務、丟失數據都將帶來難以估量的經濟損失,社會對數據保護也越來越重視,網絡備份作為一種應用較為普遍的數據備份形式,被企業、公司廣泛應用,但是隨著信息爆炸增長和對數據存儲的大量需求,網絡備份面臨著新的挑戰。
1 網絡備份現狀分析
我們在生產生活中產生的信息數據,一方面是使用互聯網產生的信息,另一方面是生產生活和科學實驗產生的數據等,例如飛行動力學、仿真技術、科學計算和虛擬現實等,科學技術水平較高的行業產生的數據量更是無法估量,數據顯示,全世界在2007年一年產生的信息數據多達2810億GB,全世界人均產生的數據量達到了45GB,并且隨著信息技術的發展,每天產生的數據量仍然在高速增長。雖然儲存技術也在隨著信息技術的發展不斷發展,但是仍然很難趕上數據信息的產生速度。2007年世界生產的各種儲存工具總共的儲存量為264EB,與數據信息產生量相差不大,但是近年來兩者的增長曲線快速分離,儲存量遠遠跟不上信息數據的增長速度。
對于數據存儲來說,要滿足高速增長數據存儲需求,一方面要求存儲系統有較好的擴展性,另一方面要求存儲系統由魯棒性以確保數據信息的安全性,網絡備份是海量存儲系統的關鍵的組成部分,可以看到諸如Google等大型網絡公司都在世界各地建立了多個數據中心,將重要數據通過網絡備份存儲在分散的數據中心中,一旦發生災難就能使用網絡備份技術快速恢復,確保連續型應用系統能夠正常運行。網絡備份對存儲空間的需求已經由幾PB上升到了幾百PB,并且在以非常快的速度增長,現有的網絡帶寬已經很難滿足數據信息存儲需求。
2 開發重復數據刪除技術的必要性
數據信息爆炸性增長,其中關鍵的影響因素是大量的重復數據,例如計算機文件系統、web對象、郵件附件和數據定時備份等,都會產生大量的重復數據。數據顯示,將近23%的Html文件都是相同的,48%左右的Html文件內容基本相同。傳統數據備份方式主要是文件快照、文件定期備份、周期備份和連續數據保護等,這些技術也會產生難以估量的重復數據。大量的重復數據造成存儲空間和網絡帶寬資源緊缺,并且給數據管理工作帶來了很大的難度,為了實現資源的優化配置,降低數據管理的成本和難度,必須著力研究和開發重復數據刪除技術。
傳統數據保護技術存在較大的局限性,已經無法滿足現今數據信息對存儲穩定性和容錯率的要求,企業、公司存儲數據要求能夠隨取隨用,但是傳統數據保護技術很難滿足這種需求。對于現有的傳統數據保護技術,其局限性可以從以下幾個方面得以體現。
2.1 全量備份
就是將指定的數據全部備份,如果數據遭到破壞或者丟失,用全量備份能夠方面的恢復全部數據,但是全量備份會占用大量的存儲空間。
2.2 增量備份
一般數據備份需要進行多次,增量備份就是只備份上一次與這一次備份之間發生改變數據,雖然能夠在一定程度上減少存儲空間,但是這種節省非常有限,并且增量備份的數據恢復時間較長,因為要恢復數據就要恢復若干個增量備份和一個全量備份,需要耗費大量時間。
2.3 快照技術
這是在很多恢復系統和現代備份系統中都廣泛使用的備份技術,這種技術的優點是在備份和恢復數據時,不會對數據的完整性產生影響,也能充分保證系統的在線性能。快照,顧名思義,就是某個時間點的數據的鏡像,對于連續型服務來講,采用快照的方式備份數據將會占用大量的存儲空間,因此很多快照備份系統都會定期刪除過期快照以節省存儲空間。
3 網絡備份中的重復數據刪除技術
網絡備份中的重復數據刪除技術,主要是將文件分割為小塊,采用特定的算法計算文件小塊的信息指紋,根據信息指紋的相似度判斷文件內容是否相同,如果文件內容相同,那么在備份時只需要存儲一部分數據。
3.1 劃分重復數據
運用重復數據刪除技術確定重復的數據塊和文件,一般運用的重復數據刪除技術主要有兩種,即數據塊重復數據刪除和文件重復數據刪除。先將文件劃分成若干數據塊,用哈希算法計算每個數據塊的數據指紋,如果這個指紋與指紋索引中的某個指紋不相符,就將這個指紋對應的數據塊寫入到存儲設備中,否則就將這個數據塊刪除。
3.2 數據指紋算法
目前普遍采用哈希算法來計算數據指紋,分析文件內部是否存在重復數據,先對數據進行哈希得到哈希值,較為流行的哈希函數算法為SHA1算法和MD5算法,兩種算法生成的哈希值不同,而計算哈希值的速度也不同,應該根據實際情況選擇合適的哈希函數。
3.3 數據塊劃分
一般文件數據塊的劃分長度為4K到24K,數據分塊主要有CDC分塊和定長切分算法,CDC算法能夠實現將文件劃分為不同長度的數據塊,而定長切分算法使用簡單方便,但是對于數據刪除和數據插入等操作敏感性很高,處理數據存在效率較低的缺點。
3.4 異地容災
網絡備份一般要建立若干個數據中心,建立遠程災備系統需要把數據遷移到異地系統中,采用重復數據刪除系統,能夠在數據傳輸前刪除重復的數據,減少數據傳輸量,提高傳輸效率。
4 結束語
綜上,網絡備份中的重復數據刪除技術主要是找到數據流或者文件中的重復數據并刪除,這樣系統中只會存在一個元數據實例,采用重復數據刪除技術,能夠有效節省備份空間,降低數據管理難度,提高管理效率。
參考文獻
[1]冉祿純.一種基于重復數據刪除的網絡文件備份系統設計與實現[J].計算機應用與軟件,2014,(10):65.
[2]舒繼武.一種基于重復數據刪除的備份系統[J].計算機研究與發展,2012,(07):33.
[3]俞婷.網絡備份中重復數據消重技術研究[J].科技創新與應用,2016,(04):117.