一.引言
2012年初,中央電臺媒資備份存儲系統正式投入使用。經過一年的運行,大量的節目內容,豐富的歷史資料迅速將中央電臺媒資備份存儲系統填滿,嚴重掣肘了節目歸檔、素材入庫等媒資管理工作。近期中央電臺完成了媒資備份存儲系統在線擴容工作。備份存儲的磁盤容量由之前的20TB,增加30TB,總計達到50TB。短短一年時間,磁盤空間需求已經翻番,可以預見,中央電臺媒資備份存儲系統還將面臨磁盤空間短缺的問題。面對日益爆炸的數據增長和由此不斷上升產生的存儲壓力難題,如何控制和有效降低海量數據顯得尤為重要。重復數據刪除技術無疑是“瘦身”的一項不錯選擇。
二.數據冗余
三.重復數據刪除概念
通過相關研究和對實際系統的分析發現,在海量數字存儲系統中,存在大量的重復數據和相似數據。通過重復數據刪除技術可以有效去除這些重復數據,對相同數據只存儲一份和只存儲相似數據的不同部分,可以有效利用存儲空間,從而有效降低存儲系統成本。
重復數據刪除是一種數據縮減技術,旨在最小化文件之間的冗余和重復的無損壓縮,并對存儲容量進行有效優化。它通過刪除數據集中重復的數據,只保留其中一份,從而達到消除冗余數據目的。
目前,絕大多數的重復數據刪除算法都工作在二進制數據層次上,通常使用一些數據切分算法,如以整個文件為切分粒度,固定大小的數據切分,或者某些HASH函數(如Rabin Fingerprinting算法),將每一個帶歸檔的文件切分成若干相互不重疊的數據片段,并把這些數據片段作為邏輯單位進行后續處理和存儲操作。在這些數據片段中,只有不重復的數據片段才真正存儲到存儲設備中,而其他的重復數據片段只需記錄其ID和相應的依賴文件的對應關系即可。
2. 文件切分
重復數據刪除對于S48音頻文件切分算法的實現基于以下的觀察和思考:許多不同的文件有著相同的音頻內容和不同的TAG描述信息,即相同的歌曲由同一個歌手演唱,但發布在不同專輯,或者相同的內容由不同編輯制作,這樣就有了不同的TAG。因此,一般把每個S48文件劃分成三個部分:幀頭、音頻幀、TAG,其中幀頭和音頻幀被解析和存在元數據服務器數據庫的某張表中,音頻幀作為一個邏輯數據片段存儲,以便進一步被打包成物理對象實際存儲在磁盤設備上。
具有相同音頻的數據內容被切成一個數據片段,只需保存其中一份即可。由于某些HASH函數(如Rabin Fingerprinting算法)可以捕獲到二進制層次上的重復,所以若兩個數據對象具有相同的內容,則可進一步進行重復數據刪除,只存不重復的數據對象。圖3展示了上述過程,并說明在存儲系統中數據組織的層次關系。
3. 方案實施
重復數據刪除主要是針對大規模存儲系統設計,其進程可以部署在不同的應用服務器上,且可作為核心進程運行。因此,其方案需要有較好的可擴展性,易于進行數據容災的部署。
因此在媒資備份存儲系統內部署重復刪除技術至少需要包括應用服務器,文件歸檔服務器,元數據服務器和智能存儲節點等四部分組件實現重復數據刪除和數據存儲。圖4展示存儲系統體系結構。
應用服務器為各種應用的宿主服務器,如WEB服務器,流媒體服務器等部署應用服務端軟件。文件歸檔服務器主要是將文件歸檔到存儲節點,同時部署重復數據刪除軟件的地方。元數據服務器主要對元數據管理、與應用服務器交互、安全機制的部署等服務。智能存儲節點是完全由通用組件,即操作系統、陣列柜、磁帶庫、文件系統等組成。
對于每個存儲文件首先根據其相應的元數據信息,被文件歸檔服務器切分成若干不重疊的數據片段。每一個數據片段將對內容通過某些Hash函數計算得到的簽名作為其標識符,用以判斷當前是否有重復的數據片段存在。不重復的數據片段將被封裝成定長的數據對象,由元數據服務器決定將它們存儲到對應的智能存儲節點中。最后當數據的存儲位置信息將會返回到文件歸檔服務器。文件歸檔服務器可以與智能存儲節點直接進行數據傳輸。這樣應用服務器產生、調用的節目素材等內容就通過入庫、切割、計算、存儲等步驟進行了“瘦身”,最大限度的精減系統內冗余、重復數據的產生,從而實現了重復數據刪除。
六.總結
隨著中央電臺編播系統數字化的發展,節目內容、節目素材將呈現爆炸式增長趨勢,數據總量將急劇膨脹。我們將面臨諸多挑戰,如媒資備份存儲空間不足、成本高昂等問題。本文通過對重復數據刪除技術的探討,采用標準、科學、先進和可靠的技術,闡述了全新的媒資備份存儲系統,為今后的媒資備份存儲系統發展規劃,提供了有效的支持,并確保系統在今后相當長一段時間留有擴充余地。希望能為廣播電視的媒資備份存儲系統建設提供一種新思路。BP
參考文獻
[1] 袁玉宇 劉川意 郭松柳 . 云計算時代的數據中心. 電子工業出版社 .2010
[2] 李棟 數字聲音廣播 北京廣播學院出版社 2001
[3] Dave Reinesl. Our Expanding Digital World:Can we contain it? Can we manage it? Intelligent Storage Workshop(ISW2008),UMN,MN,2008
[4] 張為民 唐劍鋒 羅治國 錢嶺 . 云計算:深刻改變未來 . 01版 . 北京 . 科學出版社 . 2009
[5] 朱近之 張振倫 金海龍 蔣建華 王春海未來,在云端 微型計算機 2011(2)