文|中國惠普有限公司 常 菲
世源科技工程有限公司 牛 悅
企事業的數據中心,如金融、保險及通信運營商等計算機及網絡通信設備投入服務后,若無一個長期穩定的外圍物理環境來保證IT設備的正常運行,一旦造成服務器的宕機,勢必造成一定的經濟損失或不好的社會影響。數據中心的基礎設施是IT設備連續穩定運行的保證,建設高可用性和高可靠性的數據中心則成為建設單位及設計單位考慮的重點。國內外的數據中心規范、標準對數據中心的等級劃分,歸根結底還是在可用性和可靠性要求上的一個劃分,等級越高其可用性和可靠性就越高。
可用性是指長時間的一個平均數值,用這個數值來表示某一運行中的可修復設備或系統在這段時間內能按其功能穩定運行的能力。可用性(A)可用平均無故障時間(MTBF)和平均故障維修時間(MTTR)來計算:

如2008年某城市電網的平均無故障時間為8756小時,平均故障維修時間為4小時,則2008年此城市電網的可用性為:

可用性并沒有對故障次數有限制。如上例,2008年某城市電網系統的可用性為0.99954,表示出2008年總的停電時間為4小時,但是,并不確定停電次數,有可能只停電一次,停了4小時,也可能停了四
國家標準《電子信息系統機房設計規范》(GB 50174-2008)要求設計時根據機房的使用性質、管理要求及其在經濟和社會中的重要性,確定所屬級別,并對不同的級別提出了不同的性能要求。A級機房的基礎設施要達到容錯的要求;B級機房的基礎設施達到冗余配置;C級機房的基礎設施滿足基本需求配置。并對不同級別的機房在技術要求方面進行了說明,如抗震設防的要求、冷凍機組配置要求、供電電源要求、柴油發電機及UPS的配置要求等,這些方面的要求都是為了建設一個滿足相應等級的可靠性和可用性的數據中心。
美國通信工業協會的TIA 942標準將數據中心分為4級,并對建筑結構、供電系統、空調系統等基礎設施按不同級別、不同可靠性的配置要求進行了描述。Tier1級別要求基礎設施滿足基本需求配置;Tier2級別要求滿足冗余配置;Tier3級別要求可達到在線維護的冗余配置;Tier4級別要求可達到容錯的配置。國內外規范、標準的分級既有相同之處,也有不同之處,但都對不同級別的數據中心提出了不同的可用性和可靠性的要求。
數據中心由多個系統構成,包括供配電系統、空調系統、綜合布線系統、消防系統等,每個系統的可用性共同決定了整個數據中心的可用性。供配電系統又由市電、柴油發電機系統、UPS系統等構成,其中任何一個部分有問題都會降低系統的可用性。每個系統基本上是由不同的設備或子系統通過串聯或并聯組成的。
若系統1由設備1和設備2串聯組成,系統1的可用性為A,設備1的可用性為A1,設備2的可用性為A2,如圖1所示。

若系統1由設備1和設備2并聯組成,系統1的可用性為A,設備1的可用性為A1,設備2的可用性為A2,如圖2所示。

以一個簡單的供配電系統為例,UPS采用1+1冗余方式配置。若整個系統可用性為A,市電電網可用性為A1,主配電柜可用性為A2,UPS1(包括電池系統)可用性為A3,UPS2(包括電池系統)可用性為A4,分配電柜可用性為A5。如圖3所示。

圖1 串聯系統

圖2 并聯系統

圖3 UPS 1+1 冗余配置
則此系統的可用性A= A1×A2×(A3+A4- A3×A4)×A5。
系統的結構及配置直接決定了數據中心的可用性和可靠性。如果一個系統是由各個子系統串聯而成,則任何一個子系統出現故障將導致整個系統的癱瘓,因此這樣系統的可用性和可靠性低于任何一個子系統的可用性和可靠性。這就是消除和減少單點故障的原因,保證為用戶提供連續不間斷的7×24小時服務,在設計和建設時要減少單點故障的存在,對可能存在單點故障的環節,在設計上要盡可能的減少其對整個系統的影響,機房各系統也都具有足夠的冗余能力。《電子信息系統機房設計規范》(GB 50174-2008)中的A級機房和TIA 942標準中的Tier4級別機房,都對系統提出了容錯的要求。數據中心基礎設施的容錯配置是可以消除系統的單點故障,如2N配置的系統可用性能夠達到99.9998%。冗余配置可以減少系統的單點故障,如果系統結構合理還能滿足在線維護的要求,這都在很大程度上提高了系統的可用性和可靠性。
數據中心的運維管理是很重要的,科學合理的運維管理體系可以直接降低系統發生故障的可能性。數據中心的系統是比較復雜的,復雜的系統會增加故障處理的難度,甚至很長時間找不到故障的原因,這就可能增加了宕機的時間。很多實例證明,人為操作失誤是導致系統宕機的一個重要原因,因此提高運維人員的素質是保證數據中心穩定運行的有效手段,而對運維人員的定期培訓則是必要的。人為錯誤的減少直接降低宕機的風險,甚至在設備出現故障時,能夠通過合理快速的操作,避免宕機或減少宕機時間。設備的日常維護可以降低設備故障的幾率,任何設備其實都是需要維護的,平常能夠發現潛在的問題并及時處理,消除本來可以避免的問題。例如,UPS的蓄電池就是供配電系統中一個比較薄弱的環節,一般電池出現故障的概率要高于其他配電設備,任何一節蓄電池出現問題都可能給整個系統帶來風險,因此電池的日常監測與維護是必不可少的,電池的壽命達到預期值時要及時更換。
數據中心設計的靈活性、可拓展性也是一些客戶比較關心的問題,尤其是對一些需要分期實施、分期投入運行的企業。如果在分期實施的過程中對已運行的設備產生影響甚至需要停機一段時間,則對高可用性的機房是不可接受的。因此,數據中心必須做好準備應對未來的發展變化,在系統設計上盡量做到具有較大的靈活性,“統一設計、分期實施”的方法就顯得尤為重要。如果客戶有需求,需要考慮空間規劃、容量規劃和系統設計的合理性,確保系統具有可擴展性和靈活性。
雖然數據中心基礎設施的容錯、冗余配置可以提高系統的可用性和可靠性,但需要準確的定位數據中心的等級,是否真的需要如此高的可靠性。有些企事業的數據中心對可靠性并沒用太高的要求,服務器宕機并不會給他們帶來很嚴重的后果,因此設計前期需要與客戶充分的溝通,了解其需求,甚至幫助客戶定位需求,避免不必要的投資。數據中心的初期建設成本包括設備購置費用及設備占地面積所耗用成本,2N配置的系統和N+1配置的系統在設備費用及占地面積上會有一定的差別,導致初期投資成本的或高或低。另外,運營費用也有差別,如電氣設備自身的電力損耗、線路損耗,設備的維護費用,尤其是UPS電池需要定期維護和更換。電力損耗的增加也增加了PUE值,在倡導綠色節能的今天,PUE值越來越受到人們的關注。
因此,各系統的設計應考慮先進性與實用性相結合,在滿足功能需求和可靠性要求的前提下,盡量節省總體建設投資、降低長期運營成本。
1 Robert Arno, Peter Gross, PE and Robert Schuerger. PE《What Five 9’s Really Mean and Managing Expectations》.IEEE Industry Applications Society Conference 2008.
2 鐘景華,朱利偉等.《新一代綠色數據中心的規劃與設計》.電子工業出版社.
3 張廣明,韓林.《數據中心UPS供電系統的設計與應用》.人民郵電出版社.