中國核電工程有限公司鄭州分公司 蘆 杉
針對云計算數據中心結構復雜,構成要素繁多,指標量化困難等問題,提出蒙特卡洛仿真方法對其可用度進行分析研究。首先分析確定可用度指標,然后應用可靠性框圖結合蒙特卡洛模擬對中心可用度進行實例仿真分析,最后提出提高可用度的建議。該方法能夠有效完成云計算數據中心可用度的仿真分析,為提升中心運行可靠性提供支持。
數據中心是信息化的核心,承擔著各單位的關鍵性業務。隨著云計算、物聯網等信息技術的發展,數據中心由傳統的IDC機房轉變為云計算數據中心。云計算數據中心的特點是虛擬化、共享性,一旦數據中心出現故障,將給單位帶來不可預測的損失,其可用度是運維人員關注的核心問題。然而,云計算數據中心的構成要素較多,各指標的量化方法不統一,導致無法采用傳統的計算方法衡量數據中心的可用度。因此,構建云計算數據中心的可用度評估指標體系,探索可用度的仿真方法勢在必行。
云計算服務類型包括三種,分別為IaaS、PaaS、SaaS。這里主要研究云計算數據中心IaaS的可用度。典型的云計算數據中心主要由虛擬化平臺架構、網絡通信系統、運維監控系統、供電系統、業務服務系統五個模塊組成,如圖1所示。

圖1 云計算數據中心結構
(1)可用度的相關概念
MTTR:系統由故障狀態轉為正常工作狀態時修復時間的平均值。MTTR越短,易修復性越好。
MTBF:對于可修復的系統,每次故障后又投入使用,平均故障間隔時間。
可用度:用來表示系統性能好壞的指標之一,用A表示。即:

(2)可靠性方框圖
可靠性方框圖(RBD-Reliability Block Diagrams)是一種圖解方法,定義了復雜系統內部子系統的邏輯關系(串聯、并聯、串并混合)。
(3)蒙特卡洛模擬法
蒙特卡洛模擬法是一種基于隨機抽樣、概率分析的模擬方法,包括隨機抽樣、構造概率模型、隨機數產生、系統仿真計算、結果統計擬合等過程。云計算數據中心具有結構復雜、設備種類繁多、數量大、故障模式多種多樣等特點,可利用可靠性框圖完成結構建模,再采用蒙特卡洛模擬仿真完成可用度計算。
蒙特卡洛模擬仿真的基本分析步驟如下:
(1)通過分析云計算數據中心的構成和功能層次等,建立功能結構圖,確定故障判別標準,建立可靠性框圖模型。
(2)輸入系統中單個部件的故障函數、MTBF等參數,使用蒙特卡洛法對基本部件壽命隨機抽樣,取得n個基礎樣本,分別將這n個基本部件至于失效,找出系統的失效時間。進行N次仿真后,可統計出系統N次失效時間。
(3)用區間統計方法進行系統失效數的分布統計,得出系統失效時間在每個區間內的失效數。
(4)通過蒙特卡洛仿真,可以計算出平均故障間隔時間MTBF和平均修復時間MTTR,從而可以得出系統的可用度。
使用同樣的方法,可以推導計算出MTTR,最后利用公式可以計算出系統可用度A。
結合圖1所示的云計算數據中心結構,某云計算數據中心組成見表1所示。該中心能夠提供虛擬機服務、存儲管理、業務訪問、業務監控等功能,無法實現上述任一項功能視為系統故障。

圖2 虛擬化架構子系統可靠性框圖模型

表1 某云計算數據中心的結構
應用仿真平臺軟件建立RBD分析模型。
(1)建立云計算數據中心總可靠性框圖,由五個子系統串聯組成。
(2)建立各子系統可靠性框圖
深入分析搭建各子系統可靠性框圖模型,部分子系統的可靠性框圖如圖2所示,其他子系統的可靠性框圖構建方法類似。

表2 輸入參數表

表3 數據中心各子系統得仿真結果
結合云計算數據中心設備型號,通過調研生產單位及用戶應用情況,得到10種設備的可靠性輸入參數,具體如表2所示。
(1)模擬仿真
依據設備更新時間間隔和用戶對該數據中心的運行要求,設置數據中心仿真運行壽命為15年,系統仿真次數為100次。人員調集延誤時間1h,維修間隔期為720h,備品備件到達延遲時間為0.5h。
對數據中心壽命周期可用度仿真分析,結果如表3所示。
(2)結果分析
在系統運行的15年間,云計算數據中心共計停工239次、923.8h,平均故障間隔時間為733.1h(約30.55天、1個月)。服務子系統的故障率最高,主要是由于該子系統組成數量較多,且離用戶最近,操作次數較多。在虛擬化架構、網絡通信系統、監控及解析、供電子系統中,主要節點例如服務器、出口、供電均采取了冗余備份方式,且市電、通信線路本身故障率較低,故該四個子系統的故障率較低。
網絡通信子系統故障引起的修復時間最長,主要是由于光纖通信線路的中斷,需要找故障點,并進行光纖熔接,這樣導致修復時間較長。由于虛擬化主機、存儲等均設有備品備件,因此修復時間最短。
基于上述的實驗仿真方法以及計算結果,可從以下四個方面提升云計算數據中心的可用度:
(1)重視機房巡檢工作,加強機房溫度、濕度等環境的監控,為設備的運行提供良好的環境,從而減低設備故障的風險;
(2)強化對機房設備的管理以及操作系統的維護。確保每天查看設備的硬件情況,保障設備硬件無故障,以月份為單位對數據中心的操作系統和應用軟件進行檢查,升級版本,提高軟件的可用率。
(3)提升設備的質量,對于關鍵設備優選可靠性高、壽命時間長的硬件設備,如服務器、存儲等;針對數據中心的核心設備采取必要的冗余熱備份措施,實現自動切換功能。
(4)規范備件管理。對于核心設備,采購配置足量的備品、備件以及零部件等,同時建設一套完備的備品備件管理系統,當有故障發生時,能夠快速更換有效的備品備件。
結束語:通過深入分析云計算數據中心的構成要素以及功能結構,確定了中心的典型結構,利用可靠性框圖分析與蒙特卡洛模擬相結合的方法仿真分析中心的可用度,完成了某中心的實例仿真應用,提出了改進措施建議。實踐表明,該方法能夠為云計算數據中心的運維決策提供理論參考,為提高云計算數據中心的可用度提供依據。