重復數據刪除技術已經引起了廠商和IT管理者的高度關注,人們寄希望以此來減少大多數數據中心遇到的數據急劇增長所帶來的困難。但是部署這一新技術時,需要從各方面考慮清楚。
大約在十年前,重復數據刪除技術(DataDeduplication)就開始浮出水面,而只是最近它才成為一項主流技術。在接下來的幾年里,重復數據刪除技術可能會像今天的時間點拷貝和RAID技術一樣常見。
重復數據刪除是一種激動人心的概念,因為它能夠大幅降低存儲及移動數據的成本。許多廠商在介紹自身產品優點的同時,夸大了其他替代產品的缺點,這使得潛在的客戶不由得犯疑:“我該不該部署重復數據刪除技術?該把它用在何處?什么產品最適合我的環境?”
我們還是來客觀地分析一下這項技術以及每種方案各自的優缺點,以免IT管理員、IT經理和CIO們盲目相信廠商們營銷時的一套說法。
重復數據刪除是如何工作的?
重復數據刪除技術基于數據壓縮的概念和方法,包括重復數據集刪除及其他技術。重復數據刪除借鑒了數據壓縮采用的尋找冗余信息這一概念,但所處理的數據量大大增加。重復數據刪除要處理的數據達到TB級或PB級,而不是壓縮技術的KB級。
所有重復數據刪除解決方案都會尋找數據中的冗余信息,無論是在文件級、對象級還是子對象塊級。早期的重復數據刪除技術著眼于文件,旨在消除重復文件。目前市場上仍存在這些方法,稱為單實例存儲(single instance storage)。最近的改良版技術可以針對多種類型的數據尋找重復數據,找出長度不一的重復部分。
重復數據刪除的工作方式通常是先分析數據,為某部分信息計算出簡寫或惟一的標識。子文件級或塊級的重復數據刪除技術通常把數據細分成幾段,用于進行重復數據刪除。每段數據都有指紋印,使用密碼散列來查看這部分信息之前有沒有存儲過。只要存在相同部分的數據,就用原始數據的索引來替換,因而節省了空間。計算簡寫指紋索引的數學算法稱為“密碼散列”(cryptographic hash)。目前有許多散列算法,包括MD5和SHA-256,另外還有其他專用算法。
何時考慮部署?
通過消除冗余數據來節省成本能夠在整個數據中心引起連鎖反應。若能推遲購買新的存儲系統,或者擴展現有存儲系統的實際容量,就有望節省成本。由于使用物理存儲系統的數量減少了,因而電力、冷卻和場地等方面的要求也隨之減小,這就進一步節省了成本。另一個潛在的優點就是可以減少通過局域網、廣域網和存儲網絡傳輸的數據量,從而減少了對網絡設備的需要,并降低了帶寬需求。
一旦了解了重復數據刪除技術,就比較容易知道何時部署解決方案、部署到何處及怎樣部署。不是所有數據都很適合采用重復數據刪除技術,得到的好處也不盡相同。因而,用戶在考慮是否部署重復數據刪除時,應該提出這樣幾個問題:
● 我該何時對數據進行重復數據刪除?
● 我該在何處對數據進行重復數據刪除?
● 市面上有什么樣的方案可以選擇?
我們還需要考慮有關架構方面的問題:該對所有數據進行重復數據刪除,還是只要對部分數據進行這種處理?我該在存儲數據時進行重復數據刪除,還是以后再進行這種處理?在選擇總體架構之前,應分析及了解所有這些問題,然后再選擇一家廠商。
需要關注的問題
消除冗余數據的想法聽上去有風險。新技術通常都會帶來一些額外風險,但隨著產品的不斷改進,問題也會隨之得到解決。重復數據刪除背后的許多理念在數據壓縮領域運用了幾十年了,已經是成熟的技術了。
一些新技術都會重新映射數據,并改變數據的物理布局,比如磁帶驅動器的邏輯塊尋址、RAID、時間點拷貝和復制。最初,有許多這樣的技術被認為有風險,但是隨著這些技術的日漸成熟,以及廠商們拿出了性能可靠的產品,這些技術便逐漸得到了采用及接受。近十年來,重復數據刪除技術一直不斷進步,目前的產品存在的風險非常小。
一些用戶希望將重復數據刪除與歸檔和法規遵從存儲產品一起部署,他們目前面臨的問題是,符合標準的歸檔產品是否支持重復數據刪除技術。盡管政府的法規通常要比技術滯后好多年,但仍可以預料,正如WORM磁帶驅動器和WORM磁盤存儲設備逐漸得到監管部門的接受一樣,重復數據刪除技術也會逐漸得到接受。
部署在何處?
了解了部署方面的選擇后,下一個問題通常是使用虛擬磁帶庫(VTL)還是使用磁盤到磁盤(D2D)設備。決定利用備份軟件中重復數據刪除技術的企業可能仍想使用VTL或D2D設備,以便加快備份和恢復速度。
對許多D2D和VTL產品來說,重復數據刪除是作為一項附加功能提供的。有幾家廠商提供的重復數據刪除用于主存儲系統,另一些廠商提供了可把普通硬件變成D2D設備的軟件,還有一些廠商把重復數據刪除技術內含在備份應用軟件中。
最終,重復數據刪除有望成為一項服務,可能用于整個數據中心的許多不同地方。到那時,IT管理員和架構師必須設計出能夠在效益最明顯的地方使用重復數據刪除的解決方案。數據備份過程通常是重復數據刪除技術用得最多的地方。
由于這個原因,大多數廠商把精力集中于在備份過程對數據進行重復數據刪除,這是由于這一過程涉及數量眾多的重復數據。盡管一些備份應用軟件在最初的完全備份后會使用增量備份,但仍存在著相當多數量的重復數據,而重復數據刪除還能減少這些數據集的存儲需求。
由于重復數據刪除會帶來處理上的開銷,因此,針對備份或歸檔數據部署重復數據刪除技術很常見,而針對主存儲系統來部署的卻很少。因而,提供重復數據刪除技術的產品大多與備份和歸檔聯系在一起,包括備份應用軟件和基于磁盤的備份及歸檔平臺,如NAS設備或VTL。
選擇使用D2D設備還是使用VTL取決于IT環境,包括所用的其他存儲系統、所用物理磁帶的數量及其他因素。如果IT環境已在磁帶方面做了大量投入,而且主要使用塊存儲系統,那么,部署VTL常常能收到比較好的效果。相比之下,如果IT環境沒有在磁帶驅動器或存儲介質方面進行大量投入,又使用大量的文件或NAS存儲,那么,D2D設備可能比較合適。
如何部署?
決定了怎樣部署重復數據刪除及部署在何處后,仍需要為何時使用重復數據刪除做出重要決定。一個選擇是,數據在發送到備份設備時進行重復數據刪除,這種實時或流式重復數據刪除被稱為“在線處理”(in-line)重復數據刪除;另一個選擇是以后再對數據進行重復數據刪除,這種以后進行的通常被稱為“后處理”(post-process)重復數據刪除。
對于期望盡量縮短數據備份時間的管理員來說,最佳選擇通常是使用后處理方法。這種方法具有加快數據備份速度、縮短備份窗口的優點。但缺點是,它要占用額外的存儲空間。也就是說,備份數據需要傳送到臨時保存區,目的是為了加快備份過程; 一旦這一步完成,再重新檢查數據有無重復部分,在以后的“后處理”時間段刪除重復數據。
除了備份后進行重復數據刪除,另一種辦法是,當數據傳送到備份設備時,進行“在線式”重復數據刪除。這種方法的優點是,不需要額外的存儲空間;另外,一旦數據經重復數據刪除處理后存儲起來,這個過程就完成了,數據可能復制到異地存儲系統上。因而,如果使用在線處理重復數據刪除方法,就能縮短完成整個備份過程(包括復制到異地存儲系統)的時間。
產品比較與選擇
從架構方面來說,重復數據刪除有幾種方法。重復數據刪除也許內含在備份應用軟件中,也許通過存儲設備來實現。選擇產品時,首先要考慮的就是了解這些架構之間有什么區別。
提供給客戶的重復數據刪除功能絕大部分結合了軟硬件。重復數據刪除在計算數據的散列值時,要耗用大量的CPU和內存資源。硬件設備需要就存儲容量、輸入/輸出性能和可用計算功能做出決定。因而,與基于硬件的解決方案相比,基于軟件的系統在選擇合適數量的CPU、內存和存儲容量等方面通常具有更大的靈活性。
許多IT用戶喜歡購買集成的軟硬件,充分發揮硬件模式便于部署及支持的優點。另一些用戶則更喜歡用通用硬件上的軟件,覺得這種方法更靈活。很難說兩種模式孰優孰劣,各有優缺點。
重復數據刪除能夠顯著減少備份數據所需要的磁盤空間數量,同時保留了基于磁盤的備份設備較之磁帶大幅提升性能的優點。因而,只要IT環境希望控制與備份及歸檔有關的存儲成本,同時為數據保護提供很高的服務級別,都應該考慮部署重復數據刪除。
目前對數據進行重復數據刪除方面有諸多選擇。一些產品允許通過NAS協議或D2D設備,把其系統用做備份目標,提供了在傳統備份場景之外對數據進行重復數據刪除的靈活性。其他產品專門用來與VTL結合使用,旨在幫助VTL在成本上與傳統的備份到磁帶系統相比具有競爭力。
隨著時間的推移,重復數據刪除會成為與多種產品類型和部署場景一同提供的一項功能。最終,重復數據刪除會逐漸進入到多種存儲產品中。重復數據刪除技術可能會在幾年內部署到存儲備份或歸檔數據的大多數產品中。下一步就是在主存儲中運用重復數據刪除技術,同時又不影響性能。
未來幾乎所有的數據在存儲或傳送時都會進行重復數據刪除處理。到那時,IT部門應該認真評估本公司在成本、性能和數據保留等方面的目標,之后再選擇怎樣部署重復數據刪除、部署在何處。只有慎重選擇,大大小小的IT部門才能夠用更低成本獲得更高性能。