繆嘉嘉,付印金,余沛毅,毛捍東
(1.解放軍理工大學 指揮信息系統學院,江蘇 南京 210007;2.北京普世時代科技有限公司,北京 100192)
低能耗磁光混合歸檔系統的設計與實現
繆嘉嘉1,付印金1,余沛毅1,毛捍東2
(1.解放軍理工大學 指揮信息系統學院,江蘇 南京 210007;2.北京普世時代科技有限公司,北京 100192)
層次型混合歸檔系統是數據存儲領域的研究熱點,在工業界也被廣泛接受,小到個人存儲大到數據中心都在使用混合存儲系統。針對大數據中心的能耗問題,引入更為廉價低能耗的光介質存儲,建立陣列、在線光盤庫、離線光盤庫構成的混合歸檔系統,采用低能耗磁光混合的存儲架構,在犧牲陳舊文件讀取速度的情況下,大幅降低了存儲能耗;在研究分析數據的一致性保證機制以及多級存儲系統的彈性設計的基礎上,針對光介質的讀寫特性,重點研究了磁光混合歸檔系統的文件緩存和預取機制。采用基于整體訪問頻率的數據遷移策略解決了熱度文件的訪問效率不受影響的問題,采用基于I/O特征預測模型的預取算法,提升了多級存儲結構的命中準確度。實驗結果表明,所構建的系統能夠有效節省能源并可維持數據檢索查詢的時效性。
低能耗;光盤庫;磁光混合;多級存儲系統;文件預取;文件緩存
隨著數據量的增長以及人們對于數據價值的深刻認知,歸檔系統的高并行性、高可靠性、高性價比變得越來越重要。然而在建、在用的數據中心,電力的消耗越來越嚴重,數據中心的能耗成本還在不斷增加。早在2006年,Jonathan等[1]認為美國數據中心能耗占到了該國總能耗的1.2%,且其增長速度大約為5年翻一番;William等[2]估算的數據中心能耗密度范圍為1 076~2 150 W/m2。國內數據中心規模呈快速增長趨勢,數據中心能耗也隨之快速增加。2009年,國內數據中心總耗電量約364億kWh,占當年全國總電耗的1%。未來,國內數據中心仍將快速發展,如果維持當前的低能效水平,到2015年,僅全國的數據中心就將消耗掉三峽電站1年的發電量[3]。
因此,加強數據中心節能、提高數據中心能效是必要和緊迫的。北京、上海、南京等地均有相關的實際數據采集[4-5],分析后發現,IT及網絡通信設備的能耗占51%,空調制冷系統的能耗占24%,空調通風加濕系統的能耗占11%,照明能耗占2.5%,其他能耗占11.5%,因此數據中心機房的節能重點是IT及網絡通信設備和機房空調。國內研究者也進行了相關的能耗分析及節能措施,主要手段是調整機房的物理結構,采用低能耗設備等等[6-7]。
一方面,為節約數據中心能耗,干福熹院士攜手國內外20多位院士聯合署名,倡議為迎接大數據的挑戰,應該開展安全、節能和長壽命的光存儲技術研發和應用。另一方面,據行業調查分析顯示,歸檔系統中無論何時都有70%~80%的數據是靜止不動的[8]。數據不同時期有其存在的不同意義:數據剛生成時,訪問頻率最高;隨著時間的推移,訪問頻率降低,低訪問頻率的數據量遠遠超過高訪問頻率的數據量。將這部分數據稱為“冷”數據。“冷”數據由于訪問頻率降低,如果在歸檔系統中依然在線存儲,這是對能耗的極大浪費。綜上所述,節約能耗是數據中心規劃建設運行過程中不可忽視的重要一環,采用低速的光介質設備能夠降低能耗,但帶來了訪問效率低下的問題。為此,提出了一種磁光混合歸檔系統,采用高速介質緩存方法,能夠在降低能耗的情況下保障數據的訪問速度在可接受范圍。
混合存儲系統(Hybrid Storage System)通常是指在閃存技術飛速發展的背景下出現的一種集固態盤和磁盤驅動器技術于一體,以大容量、高性能和低成本為目標的異構性非易失外歸檔系統。其設計思想在于使性能好、價格高的SSD在歸檔系統中發揮杠桿作用,發揮SSD和HDD的各自優勢并彌補對方的短處,讓系統以接近磁盤的價格提供近似固態盤的性能。
所提出的磁光混合歸檔系統在緩存技術、預取技術方面借鑒了現有混合存儲系統中的現有研究成果,針對光盤本身的I/O特性進行了相應調整。
2.1 緩存技術
Cache技術被廣泛地運用于多層存儲體系結構中,通過程序局部性原理將I/O集中于高性能存儲層,從而彌補不同層次存儲器之間性能和價格的差異,實現以低購置成本得到高性能的設計目標。
已有的緩存算法研究多基于磁盤存儲和DRAM Cache,并針對磁盤的內部特征進行了大量優化,比如盡量以順序方式訪問磁盤、讓磁盤空閑時段延長等。近期,緩存技術被移植到基于Flash、磁盤的混合歸檔系統,針對Flash介質的獨特特性,如有限的擦寫(Program/Erase,P/E)次數、不對稱的讀寫性能(Asymmetric Read and Write)等問題,也有研究跟進。
此外,在以往基于磁盤的DRAM Cache中,命中率(Hit Rate)是最主要的Cache性能指標。而在混合歸檔系統中,無論是Flash層之上的DRAM Cache,還是磁盤層之上的Flash Cache,緩存算法的評價指標都將變得更為復雜。Intel公司的Matthews等[9]指出,僅當一個請求完全命中Flash Cache(Full Hit)時,才能減少磁盤訪問,若請求部分命中(Partial Hit)Flash Cache并不意味著系統性能的必然提升。CFLRU[10]指出,對于Flash存儲之上的DRAM Cache,臟頁(Dirty Page)替換的代價要高于干凈頁(Clean Page)替換。在DRAM Cache中數據替換的代價可以忽略不計,然而OP-FCL[11]指出,在Flash Cache中數據替換的代價很高,必須要將數據在Flash Cache中的寫入時間和被替換數據的垃圾回收時間考慮進去。
因此,磁光混合歸檔系統的緩存管理技術的設計,必須針對光盤的內部特征重新量化Cache的成本收益(Cost-benefit)模型,建立Cache插入策略。
2.2 預取技術
預取技術應用的領域非常廣泛,包括處理器、Web系統結構、數據庫、文件系統、存儲控制器等。在歸檔系統中,應用最廣泛的預取技術是順序預取(Sequential Prefetching),即通過順序流偵測來預測未來的請求模式。順序預取之所以被普遍采用源于其所需語義簡單、預取精度高,且I/O成本低[12]。現有的順序預取方案主要分為三大類,即持續預取(Prefetch Always,PA)、缺失預取(Prefetch On Miss,POM)和命中預取(Prefetch On Hit,POH)[13]。PA型預取并不需要預測模塊,對每一個請求它都會預取與之連續的數據。
Gill等提出了AMP[14]預取算法,通過漸進性的啟發式策略來不斷調整預取的強度和觸發器(trigger)位置,從而獲取最高的聚合吞吐量。一些研究建議把預取、緩存和調度權限交給應用程序來控制。還有一些研究提出不去修改應用程序的代碼,而是通過特殊的方式執行應用程序來分析該預取哪些數據。這些方法都涉及到I/O接口的修改、應用的重構和一些復雜計算。
在混合存儲系統中,異構介質的存儲設備構成了多層緩存系統。多層緩存系統有其不同于傳統緩存的特點。伊利諾斯大學的Zhou等[15]指出,在第一層Cache中往往使用基于局部性的Least Recently Used (LRU)替換算法,因而訪問第二層Buffer Cache的訪問體現出較第一層相對更弱的時間局部性。此外,FAST[16]使用基于固態盤的預取策略來加快個人電腦中程序的啟動速度。該系統是將SSD中的數據預取到DRAM緩存中,并非將磁盤數據預取到SSD中。
2.3 藍光相關技術指標
以硬盤和磁帶為代表的磁存儲技術,由于存儲速度快、存儲量大和使用方便,成為當今主流的存儲技術,被廣泛應用于數據中心乃至企業中。現有主流的存儲技術難以滿足大數據時代對海量數據長期、安全、高效存儲的要求。藍光盤利用波長較短的藍色激光讀取和寫入數據,極大地提高了光盤的存儲容量。光存儲的主要優勢有三個:一是基盤由堅固、耐久的材料制成;二是光存儲的非易失性;三是可長期保存。光存儲技術發展至今,其安全、能耗低、壽命長和單介質數據容量增加快的特點,使之在大數據時代滿足對數據長期、安全、高效存儲需求上具有獨特的優勢。
不同存儲介質的特性對比見表1。

表1 不同存儲介質的特性對比
磁光混合歸檔系統主要由離線盤柜、光盤庫、存儲陣列、服務器組成,根據數據的訪問速度將存儲陣列中的稱為在線數據,光盤庫中的為近線數據,離線盤柜的稱為離線數據,服務器中的元數據服務存儲元數據組織信息,具體如圖1所示。
上述存儲架構中客戶端主動或被動將數據移動至歸檔服務器的陣列中,通過API接口或Web接口可以完成對已歸檔數據的使用,若陣列中數據已滿或有部分數據長久不被訪問,那么逐步遷移至近線存儲即光盤庫中。其中離線設備需要通過人工干預才能進行數據訪問,因此不在討論范疇之內。
圖2是磁光混合多級存儲的體系結構,對用戶端系統支持客戶端API,允許以服務方式提供數據的查詢、訪問,對數據源接口采用歸檔計劃、任務方式,設置定期的歸檔時間,自動或手動方式完成數據歸檔,非結構化數據通過數據預處理進入元數據服務器,結構化數據通過ETL工具完成關系型數據到面向對象數據結構的轉換,并加載到元數據集群中。

圖1 基于藍光存儲架構

圖2 磁光混合多級歸檔的體系結構
元數據集群中存儲面向對象的文件屬性結構,以值對方式記錄對象的屬性,存在外部文件鏈接,指向對象實體,對象實體可以是文本、圖片、視頻等富媒體方式文件。元數據庫采用ES架構,一方面利用ES本身的易擴展性、高可靠性等特點,能夠縱向或橫向進行節點擴展,ES本身也能夠很好地支持全文檢索。
通過上層的元數據服務,可以支持查閱用戶進行全文檢索、數據可視化展示,也允許用戶利用API接口與其他應用程序對接。
文檔數據進入歸檔服務器采用光盤存儲結構按照藍光盤片大小進行組織目錄,允許一個藍光盤片中存儲多個任務數據,也允許一個任務數據橫跨多個藍光盤片。歸檔數據采用新的組織結構的原因在于,便于與近線存儲進行遷移,并且歸檔系統中不再關注文檔的物理路徑存放,可以通過元數據的再組織,形成邏輯視圖供用戶查閱。
數據遷移:在數據量不超過在線存儲容量的情況下,所有數據以光盤大小劃分組織目錄,對外提供在線的數據檢索,隨著數據容量的增大,在線容量不能滿足歸檔需求時,系統將訪問量較小的數據內容,開始向光盤庫進行遷移,訪問量的統計單位是每個光盤上數據的訪問統計,而不是以單個文件的訪問來進行核算。
數據預取:通過較長時間的使用,歸檔系統的數據根據使用情況產生了不同情況的分布,基本可以確定的是在線存儲基本處于80%使用狀態,如果發生用戶訪問到近線存儲的文件,需要調度光盤庫將光盤內容寫入在線存儲,普遍想法是將用戶指定的讀取文件寫入即可,在這種訪問速度上,訪問時間從秒級下降到分鐘級。
3.1 數據一致性機制
由于每一縷燈光都是從一點發出來,在周圍空間呈現輻射狀。飛蛾根據進化的習慣,依然保持跟每一縷光線相同的夾角飛行。最后的結果,就是旋轉地一圈一圈墜入燈光的中心。飛蛾的飛行曲線被稱為斐波拉契螺旋線。它描述的就是一個在輻射狀的網格圖里,按照和每條輻射線保持固定夾角的曲線模型。
數據歸檔系統屬于分布式架構,必然存在一致性保證問題。該系統有兩處隱患,一是元數據存儲,元數據底層采用分布式架構,允許多臺設備存儲冗余存儲元數據,使得系統能夠負載均衡和容錯;二是文件副本可以分布在在線存儲的緩沖區,也可以存儲于近線存儲的光盤介質中[17]。
系統的元數據集群可采用橫向擴展,通過增加節點來傳播負載和增加可靠性,如圖3所示,其中外圍方框標識節點,帶星號的為主節點,小正方形表示分片。節點是運行的元數據實例。一個集群是一組具有相同節點的集合,節點間協同工作、共享數據并提供故障轉移和擴展功能,當加入新節點或者刪除節點時,集群就會感知到并自動平衡數據。集群中一個節點會被選舉為主節點,用來管理集群中的一些變更,例如新建或刪除索引、增加或移除節點等。任何一個節點互相知道數據存在于哪個節點上,可以轉發請求到外部需要數據所在的節點上,主節點負責收集各節點返回的數據,最后一起返回給客戶端。當元數據集群擴容或縮小,系統將會自動在節點間遷移分片,以使集群保持平衡。

圖3 元數據橫向擴展架構
對于第二點,該混合歸檔系統不支持數據文件本身改變,在進入近線存儲,即進行光盤刻錄后,不支持數據文件的改寫,因此不涉及文件副本的不一致問題。
3.2 系統彈性設計
歸檔系統的元數據和文件數據分離存儲。在數據一致性機制中提及元數據的存儲采用易于擴展的ES架構,元數據中包括全文索引數據可能會大于原數據文件,但是通過增加處理節點,一方面可以增加實際容量,另一方面也可以提升并發能力。從元數據角度來看,系統具備較好的擴展性。從實際數據文件存儲上來看,保持在線存儲和近線存儲的容量比例不變,同比擴充增加存儲容量,不會導致數據遷移或數據預取的性能損耗,因此在數據文件的存儲上,系統也具備較大彈性。
該混合歸檔系統采用藍光存儲作為二級存儲介質,采用陣列作為一級存儲介質,將元數據信息存放在一級存儲介質上,確保信息檢索速度,在數據量超過一級存儲容量時會產生數據遷移和數據預取需求。
4.1 基于整體訪問頻率的數據遷移策略
定義BD表示某個盤片數據的被訪問次數,盤片數據中存在n個文件,An為第n個文件的被訪問次數,則有:
其中,α表示訪問和的權重,β表示最大訪問次數的權重,兩者取值范圍均為0~1。如果用戶讀取歸檔數據時側重于突發性讀取,那么α<β,如用戶突發讀取后,基本會采用順序讀取獲取周圍的數據文件,那么α>β。
IBM在STEPS架構中提出了Policy Cache的概念,Policy Cache可以看作為一個三元組的表,其中包含策略號(Rule Number)、策略預期執行時間(Time)、文件iNode唯一對應的文件對象號(file object ID)。
在磁光混合歸檔系統中借鑒Policy Cache的思想,將記錄下整個文件系統的文件完整路徑名,數據類型,數據創建時間,最后修改時間以及文件訪問頻率信息記錄在Policy Metadata Container (PMC)中,根據(R,D,T)從PMC中查詢得到屬于該策略的數據分類文件的應用導向和程序導向的元數據,作為該策略的元數據庫,即相應策略的Policy Cache。
系統采用過濾驅動技術記錄文檔的訪問次數、訪問時間。
4.2 基于I/O特征預測模型的預取算法
文件預取技術中,如何提高文件預取的命中率和適用度一直是研究的焦點。尤其是在面對大批量數據讀取時,如何提高預取命中率對系統的性能提升有著至關重要的影響。提出了識別I/O特征的預測模型,該模型通過記錄文件的歷史訪問信息獲得I/O特征,再分析這些I/O訪問模式,設計一個簡單高效的特征符號表來表示這些模式。此預測模型可有效地識別出順序讀、固定點讀、逆序讀、跳讀、多步跳讀等多種模式。同時,該模型添加應用程序的信息,可有效地對不同程序之間的交叉讀做出預測,有很高的預測命中率。
蹤跡模塊捕獲應用程序的外存數據I/O操作,構建I/O訪問信息流,提供特定I/O訪問操作的查詢功能;模式識別模塊根據蹤跡模塊捕獲的應用程序I/O訪問信息流識別應用程序的I/O訪問模式。可以支持順序讀、固定點讀、逆序讀、單步跳讀、多步跳讀等模式;數據預取模塊提供一些預取庫函數,完成順序讀、固定點讀、逆序讀、單步跳讀、多步跳讀等模式數據塊的預取工作。文件預取框架圖如圖4所示。

圖4 文件預取框架圖
當有讀線程的時候,先判斷數據是否在緩存中。如果在,則直接從緩存中取數據;否則向系統發出讀磁盤的請求,此時,判斷是否在stable狀態,如果在,則根據I/O特征表的一些信息預測下次讀請求的offset和size并預取到緩存中。
針對不斷增多的數據中心建設,關注度持續走高的能耗問題,系統設計多級存儲架構,擬在犧牲數據訪問效能的基礎上大幅降低數據中心能耗。該系統引入更為廉價低能耗的光介質存儲,建立了由陣列、在線光盤庫、離線光盤庫構成的混合歸檔系統,理論上當在線存儲與近線存儲容量為1:9時,能夠節省90%的能量損耗,而在輔以文件緩存和預取機制的基礎上,文件的突發讀寫在20%情況下會造成分鐘級等待,但大部分情況或是順序讀取時,系統能夠恢復在線查詢效率。實驗證明,該系統能夠有效節省能源并維持數據檢索查詢的時效性。
[1] Koomey J.Estimating total power consumption by servers in the u.s. and the world[R].Berkeley:Lawrence Berkeley National Laboratory,2007.
[2] Tschudi W,Xu Tengfang,Sartor D,et al.Energy efficient data centers[R].Berkeley:Lawrence Berkeley National Laboratory,2003.
[3] 谷立靜,周伏秋,孟 輝.我國數據中心能耗及能效水平研究[J].中國能源,2010,32(11):42-45.
[4] 黃 森,潘毅群.上海某數據中心能效調研分析[J].制冷與空調,2011,25(2):208-211.
[5] 林 明,劉振安,李 彤.北京電信IDC機房網絡機柜的節能分析[J].郵電設計技術,2012(5):75-79.
[6] 柳運昌,楊二瑞,許建霞.面向云數據中心的能耗管理[J].電信科學,2012,28(12):96-102.
[7] 田寶華,蔣句平,李寶峰,等.基于統一資源管理的超級計算機系統節能方案[J].計算機應用,2012,32(3):835-838.
[8] He Mei,Xing Ling,Li Guo.A data migration strategy for HSM based on data value[J].Journal of Information & Computational Science,2011,8(2):312-317.
[9] Matthews J,Trika S,Hensgen D,et al.Intel turbo memory:nonvolatile disk caches in the storage hierarchy of mainstream computer systems[J].ACM Transactions on Storage,2008,4(2):1-24.
[10] Park S Y,Jung D,Kang J,et al.CFLRU:a replacement algorithm for flash memory[C]//Proceedings of the 2006 international conference on compilers,architecture and synthesis for embedded systems.Seoul,Korea:ACM,2006:234-241.
[11] Oh Y,Choi J,Lee D,et al.Caching less for better performance: balancing cache size and update cost of flash memory cache in hybrid storage systems[C]//Proceedings of the 10th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2012:25.
[12] Yang L,Feng W.SoAP:a strip-oriented asynchronous prefetching for improving the performance of parallel disk systems[C]//Proceedings of the high performance computing and communication.[s.l.]:[s.n.],2012:96-103.
[13] Li M,Varki E,Bhatia S,et al.TaP:table-based prefetching for storage caches[C]//Proceedings of the 6th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2008:1-16.
[14] Gill B S,Bathen L A D.AMP:adaptive multi-stream prefetching in a shared cache[C]//Proceedings of the 5th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2007:26.
[15] Zhou Y,Chen Z,Li K.Second-level buffer cache management[J].IEEE Transactions on Parallel and Distributed System,2004,15(6):505-519.
[16] Joo Y,Ryu J,Park S,et al.FAST:quick application launch on solid-state drives[C]//Proceedings of the 9th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2011:19-39.
[17] 丁海駿,盧 菁.云環境下元數據彈性分級一致性保障機制研究[J].計算機應用研究,2016,33(7):2039-2042.
[18] 周 斌,汪 浪,張 瑩,等.基于數據塊級遷移策略的設計與實現[J].計算機工程與設計,2016,37(7):1822-1826.
Design and Realization of Energy-efficient Hybrid Magneto-optical Filing System
MIAO Jia-jia1,FU Yin-jin1,YU Pei-yi1,MAO Han-dong2
(1.Institute of Command Automation,PLA University of Science and Technology,Nanjing 210007,China;2.Pushtime Technology Inc.,Beijing 100192,China)
Hierarchical hybrid archiving system is a research hotspot in the field of data storage and is also widely accepted in the industry.The hybrid storage systems have been used by not only personal storage but also the data center.In order to solve the problem of energy consumption in large data center,a hybrid archiving system composed of array,online optical disk library and off-line optical disk library with low cost and low energy consumption has been introduced and low energy consumption magneto-optic hybrid storage architecture has been adopted.Based on the study of data consistency guarantee mechanism and the elastic design of multi-level storage system,the optical read/write characteristics of optical media has been investigated as well as the characteristics of magneto-optical hybrid.The file cache and prefetch mechanism of the archiving system has been adopted and the data migration strategy based on the overall access frequency is adopted to solve the problem that the access efficiency of the thermal file is not affected.The prefetching algorithm based on the I/O characteristic prediction model has also been adopted and the multi-level storage structure has been improved.The experimental results show that the proposed system can effectively save energy and maintain the timeliness of data retrieval query.
energy-efficient;optical disk library;hybrid magneto-optical;multilevel storage system;file prefetching;file caching
2016-09-07
2016-12-22 網絡出版時間:2017-06-05
國家自然科學基金資助項目(61402518);總裝預研基金(9140A15070414JB25224)
繆嘉嘉(1980-),男,博士,高級工程師,研究方向為數據處理、數據安全。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170605.1510.080.html
TP302
A
1673-629X(2017)08-0052-05
10.3969/j.issn.1673-629X.2017.08.011