摘 要: 隨著數據量激增,數據中心日益暴露出能耗高,污染大,浪費嚴重等諸多問題,因此節省能源,構建綠色存儲就成為計算機領域意義重大、迫切需要解決的問題。目前越來越多的研究人員開始關注這一領域,但尚未有系統的總結。從宏觀和微觀兩個方面對綠色存儲技術從原理、實現機制到評測手段進行分析和討論。
關鍵詞: 綠色存儲; 存儲虛擬化; 重復數據刪除; 自動精簡配置; 分級存儲
中圖分類號: TN919.5?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2013)11?0165?03
0 引 言
信息技術的迅猛發展使得數據存儲量呈爆炸式增長,數據量的激增又導致數據中心的規模不斷擴大,能耗成本日益突出。據美國EPA(Environmental Protection Agency)的報告指出[1]:2006年美國數據中心消耗6.10×109 kW·h電力,這相當于580萬中等家庭的耗電量。此外在一個IT公司中,數據中心的年能源消耗成本已成為繼人力成本后的第二大成本支出,而且在隨后的幾年里將會持續增加。高能耗不僅帶來運營成本的增加,而且容易引起設備故障。最新結果表明[2],約50%的設備故障和環境過熱有關。每當溫度上升15 ℃,則磁盤的故障率提高一倍。因此Google公司的首席執行官EricSchmidt就曾表示[3]:“最影響Google設計人員的不是計算機系統速度而是能耗,因為一個數據中心能消耗一座城市的電力”。
如何做到即降低能耗,節省成本,又能滿足實際性能的需要已經成為迫切需要解決的難題,由此引入綠色存儲的概念。綠色存儲的最終目的是利用最少的存儲容量來滿足業務的需求,從而消耗最低的能源。
1 技術分類
近年來,存儲能耗問題已經引起人們的廣泛關注,國內外的不少團隊開始對其進行研究,并取得了豐碩成果。然而目前國內尚未有人對其進行系統總結,因此本文從宏觀和微觀兩個角度對綠色存儲技術的發展現狀進行了系統分析。
1.1 宏觀方面
(1)存儲虛擬化
以往數據中心的每臺服務器都有自己專屬的存儲空間,服務器之間很難“借用”存儲空間,造成不同設備的個體利用率差別很大而總體利用率偏低[4]。虛擬化技術就是將實際的物理存儲實體和存儲的邏輯表示分離開,將不同設備的存儲資源整合到一個統一的虛擬化“存儲池”中,通過整合分散的存儲空間來解決容量和管理方面的制約。
(2)重復數據刪除
重復數據刪除技術[5]是一種數據縮減技術,消除分布在存儲系統中相同文件或數據塊,保留惟一的數據實例。利用重復數據刪除技術可以減少對存儲空間和網絡帶寬的占用,使硬盤存儲成為可能。
(3)自動精簡配置
傳統的存儲系統中,當某用戶、某應用需要存儲空間時,需要事先預留足夠大的存儲空間以分配給該用戶或該應用,其他用戶或應用無法使用這些已經分配但尚未使用的存儲空間,這將導致閑置空間不斷增大。因此實際上,往往采用自動精簡配置[6]來進行容量分配。自動精簡配置則可以根據某項應用的實際需要,動態并且實時地改變存儲容量資源的劃分,因此能更加充分有效地利用存儲資源,節約總成本。
(4)MAID
MAID[7] (大規模非活動磁盤陣列存儲)最初的理論依據來自“80/20”定律,具體來說就是80%的訪問活動圍繞著20%的物理存儲進行。因此,那些暫時沒有數據被訪問的磁盤驅動器,完全可以進入能耗相對較低的待機狀態,甚至完全關閉,需要訪問時再“喚醒”也來得及,從而達到節能的效果。
(5)分級存儲
數據分級存儲[8],是指利用存儲設備的性能差異(磁盤、磁盤陣列、光盤庫、磁帶庫),將不同的數據存放在不同的存儲設備中。通常是根據數據的重要性、訪問頻率、性能、容量、保留時間等因素確定的最佳存儲策略,通過分級存儲管理軟件實現數據客體在存儲設備之間的自動遷移。一般方法就是將不經常訪問的數據遷移到存儲性能較低的層次(如磁帶),節省出性能較高的存儲空間(如磁盤陣列,磁盤)存放被頻繁訪問的數據,以達到更好的系統性能。
1.2 微觀方面
(1)細分磁盤活動狀態
基于低轉速消耗低能量的理論,將磁盤盤片轉速劃分為多個速度等級,在系統負載較輕時使磁盤運轉在低速旋轉狀態;而當系統負載變重時,將磁盤相應的調整到高速旋轉狀態。
缺陷:實現困難,僅有少數廠家能實現兩級轉速。
(2)減少磁頭定位開銷
磁盤的性能和能耗越來越受到磁頭定位延遲的限制,例如尋道時間和查找時間,讓磁盤盡可能地進行順序訪問是減少磁頭定位開銷的最有效方法,Huang等人為數據創建多個副本并將其存儲在文件系統的空閑塊上,通過I/O調度的方法使用戶請求盡可能地順序訪問磁盤上的數據[9]。
缺陷:未考慮冗余。
(3)延長磁盤處于空閑狀態的周期
節省能耗的最常見的方法是當磁盤沒有請求時,讓磁盤處于等待狀態。然而服務器端面臨的請求太多,導致磁盤的平均空閑時間非常短無法滿足磁盤停止、啟動的時間需求。所以目的就是人為地提升磁盤的空閑時間,同時又不影響系統系能。
提高磁盤處于空閑狀態周期的因素有以下幾部分:
①cache命中率
cache管理策略能產生不同的磁盤請求序列,這將嚴重影響磁盤的耗能。比如說一個讀請求所要的數據塊在cache中命中,它就不需要再去訪問磁盤,可以延長磁盤的空閑時間。
②數據流特征
讀/寫請求一起到來可能導致磁盤有較長的空閑期,如果讀/寫請求在時間上是均勻到來,則可能因為空閑間隔太小而不能將磁盤轉到低功耗模式。對于多磁盤,多個連續讀/寫請求指向一簇磁盤節省的能耗要比分散指向所有磁盤節省的能耗多。
不同的磁盤有不同的數據流特征,例如請求到來的時間分布,冷未命中的數量,平均請求時間間隔等。這些數據流特征又對磁盤的能耗有著較大的影響。因為人們無法知道下一時刻數據流的到來情況,先前對數據流特征的研究主要是從兩個角度出發:
預測:eRAID[10]根據前一時刻和當前數據流狀態,利用ARMA等模型預測未來工作流的可能變化。缺點是可靠性不高。
動態變化:根據數據流到來的狀態,動態調整某些參數,降低能耗。文獻[7]給出了基于能耗感知的cache管理策略PA?LRU和PB?LRU。
③磁盤的冗余信息
利用磁盤間的冗余信息能夠將對一個非活躍磁盤的非阻塞讀平等的轉移成對其他活躍磁盤的讀請求(請求重定向)。
eRAID利用RAID1的冗余特性來重定向I/O請求,通過停止部分或整個冗余組來降低能耗,同時將系統性能的降低控制在一個可控的范圍內;當鏡像磁盤處于等待狀態,讀請求由主磁盤來完成,寫請求由控制緩存或活躍磁盤來延遲,當鏡像磁盤啟動時再更新到鏡像磁盤里。
(4)數據布局
根據數據訪問方式的改變在磁盤間遷移數據,典型的代表就是PDC[11]。PDC模型根據數據訪問頻率的差異性,周期性地將熱點數據遷移到部分磁盤上,并將訪問頻率較低的數據集中于剩下的磁盤中。但是由于PDC將大多數請求都集中到了一小部分磁盤上,這樣就容易形成系統瓶頸,增大系統響應延遲。。
(5)存儲介質的改變
隨著存儲介質的發展,新型存儲介質日益受到人們的關注,其中的典型應用就是固態盤。固態盤[12]由控制單元和FLASH芯片組成,沒有可移動的機械部件(如磁頭臂尋道,盤片旋轉),因此在性能和能耗方面有著明顯優勢,但是在小文件寫入,使用壽命,性價比方面還有缺陷。
2 磁盤能耗的測量
通過對現有論文分析,對磁盤能耗的測試和優化可以在已有磁盤能耗模型(2?參數模型,3?參數模型,粗糙?dempsey模型,dempsey模型)的基礎上利用磁盤仿真器disksim得到,已有磁盤能耗主要牽扯到兩方面的參數,平均功率參數和時間參數,平均功率參數可以通過磁盤規格得到,屬于已知內容,需要求的是時間參數,時間參數主要是靠disksim得到。
對于磁盤能耗的建模或者系統的整體能耗建模一般是兩種方法:仿真或者黑盒建模,為了驗證模型的正確性,需要真實的測量結果進行校驗。
3 結 語
隨著信息技術的迅猛發展,數字信息呈爆炸式增長,數據中心的規模不斷擴大,能耗成本日益突出。由此引入以提高所有網絡存儲技術的能源效率為最終目的的綠色存儲的概念,并從宏觀和微觀兩個方面,對綠色存儲技術進行了分析。綠色存儲技術的發展不僅是IT產品供應商的責任,也是終端用戶的責任,每一個用戶必須意識到自己既是綠色存儲技術發展的驅動者又是綠色存儲技術發展的實踐者,有責任有義務為節能減排保護環境做貢獻。可以預見隨著終端用戶對綠色存儲的需求不斷提高,未來會有更多的綠色存儲產品和解決方案面世。
參考文獻
[1] Conversion A P. Determining total cost of owership for data centers and network room infrastructure [R]. [S.l]: [s.n], 2005.
[2] MANKOFF J, KRAVETS R, BLEVIS E. Some computer science issues in creating a sustainable world [J]. IEEE Computer, 2008, 41(8): 102?105.
[3] ZHU Qing?bo, CHEN Zhi?feng, TAN Lin, et al. Hibermator: helping disk arrays sleep through the winter [C]// Proceedings of the twentieth ACM symposium on Operating systems principles. New York, NY, USA: ACM, 2005: 177?190.
[4] 朱圣瑜.虛擬化:輕松化解存儲瓶頸[J].中國計算機用戶,2003(38):22?23.
[5] ZHU B, LI K, PATTERSON H. Avoiding the disk bottleneck in the data domain deduplication file system [C]// Proceedings of the 6th USENIX Conference on File and Storage Technologies. San Jose, CA, USA: USENIX Association,2008: 269?282.
[6] 邱紅飛.存儲的自動精簡配置技術應用研究[J].電信科學,2010(11):12?17.
[7] COLARELLI D, GRUNWALD D. Massive arrays of idle disks for storage archives [C]// Proceedings of the 2002 ACM/IEEE Conference on Supercomputing. Los Alamitos, CA,USA: IEEE Computer Society Press, 2002: 1?11.
[8] 舒繼武.分級存儲與管理[J].中國教育網絡,2007(7):70?72.
[9] HUANG Hai, HUNG Wanda, SHIN G K. FS2: dynamic data replication in free disk space for improving disk performance and energy consumption [C]// Proceedings of the twentieth ACM symposium on Operating systems principles. New York, NY, USA: ACM, 2005: 263?276.
[10] LI D, WANG J. eRAID: a queueing model based energy saving policy [C]// 2006 14th IEEE International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems, Washington, DC, USA: IEEE Computer Society, 2006: 77?86.
[11] PINHEIRO E, BIANCHINI R. Energy conservation techniques for disk array?based servers [C]// Proceedings of the 18th annual international conference on Supercomputing. New York, NY,USA: ACM, 2004: 68?78.
[12] 李剛,韓松.大容量高速固態盤設計[J].電子測量技術,2006(2):129?130.