王凱
(北京清控人居光電研究院有限公司)
隨著物聯(lián)網(wǎng)、5G網(wǎng)絡、智慧城市等新興技術的發(fā)展,數(shù)據(jù)中心做為大數(shù)據(jù)和云計算的核心載體,其“城市大腦”的重要性也日益提高。其中,UPS(Uninterruptible Power System)配電系統(tǒng)作為數(shù)據(jù)中心的重要組成系統(tǒng),其配置類型和供電模式的可用性、適應性、擴展性、可維護性及建設成本,受到越來越多設計師和運維人員的關注。
根據(jù)《工業(yè)與民用供配電設計手冊》第四版第2.6節(jié),UPS的配置類型大致分為單臺、并聯(lián)和冗余等三個大類[1];按照供電方式又可細分為后備式(離線式)、互動式、雙變換(在線式)、串聯(lián)冗余、備用冗余和并聯(lián)冗余等類型。
對于后來衍生出來的雙總線供電模式,可保證每一套電源的獨立性,這種UPS配置也被稱為2N或2(N+1)模式。
在工業(yè)產(chǎn)品領域的“可靠”與“可信”,并不是人們通常認為的可以依靠、真實可信,而是有一套完整的定義和度量方法。
GB/T 2900.99-2016《電工術語 可信性》中規(guī)定,可靠性(Reliability)是在給定的條件和給定的時間區(qū)間,能無失效地執(zhí)行要求的能力;可用性(Availability)是處于按要求執(zhí)行狀態(tài)的能力。
下面引入幾個常用的度量指標和公式:平均故障間隔時間(MTBF)、平均故障修復時間(MTTR)、可用性(A)、可靠性(R)、失效率(λ)。

關于式(1)的可用性公式,很容易理解,通常大家習慣用N個9來表征系統(tǒng)的可用性,比如99.9%、99.99%等。假設一個系統(tǒng)的宕機時間(Downtime)等于MTTR,其余時間均為正常運行(Uptime),系統(tǒng)可用性想要達到5個9,需要宕機時間不大于5min/a;可用性想要達到6個9,需要宕機時間不大于31s/a[2]。
其實一般情況下,數(shù)據(jù)中心的系統(tǒng)可用性指標不需要設置的過高,依照相應的規(guī)范要求設計即可;比如城市照明控制系統(tǒng)的可用性,依據(jù)CJJ/T 227-2014《城市照明自動控制系統(tǒng)技術規(guī)程》第4.2.11條,“中心級系統(tǒng)故障恢復時間應小于2h,平均故障間隔時間(MTBF)應大于 30000h”,按式(1)計算,其可用性約為99.9933%。
上節(jié)描述的是一個組件的可用性計算,當系統(tǒng)中具有多個組件時,根據(jù)現(xiàn)代控制理論和概率學公式,串聯(lián)與并聯(lián)的可用性如下[3]:

串聯(lián)冗余的可用性

比如有兩個一模一樣的產(chǎn)品組件構造的系統(tǒng),每個組件的可用性均為0.9,則根據(jù)式(4)、式(5)可以得出,并聯(lián)時的可用性為0.99,串聯(lián)時的可用性為0.81;所以串聯(lián)冗余系統(tǒng)的可用性較低,已經(jīng)很少使用了。
根據(jù)2.1節(jié)給出的定義,可靠性是指從系統(tǒng)開始運行到某個時刻,這個時間段內(nèi)正常運行的概率;可用性是指系統(tǒng)在執(zhí)行任務的任意時刻能正常工作的概率。比如A系統(tǒng)每年因故障中斷十次,每次恢復平均要20min;B系統(tǒng)每年因故障中斷2次,每次需5h恢復。
根據(jù)式(1)、式(2)計算,A系統(tǒng)的可用性為0.999618,可靠性為0.740818;B系統(tǒng)的可用性為0.998858,可靠性為0.904837。
可以看出,雖然A系統(tǒng)的可用性比B系統(tǒng)高,且A系統(tǒng)的總故障修復時間較少,但其可靠性比B系統(tǒng)要差很多。

圖1 UPS單路供電系統(tǒng)組件
通過上節(jié)的計算,可以看出并聯(lián)系統(tǒng)的可用性較高,依據(jù)GB 50174-2017中對于“冗余”和“容錯”的定義,兩者都是重復配置,但冗余是針對系統(tǒng)中的組件、單元、模塊或路徑,而容錯是針對整個系統(tǒng)的。簡而言之,兩個以上的重復單元可稱為冗余,但兩個以上的重復系統(tǒng)才可稱為容錯;所以,N模式為基本需求,N+1或N+X模式為冗余需求,2N或2(N+1)模式為容錯需求。
數(shù)據(jù)中心的供電可靠性,不僅要考慮UPS的冗余,其后端的隔離變壓器、UPS配電柜、機架負載電源、轉換開關等,也應納入分析計算。
以圖1這個滿足基本需求的簡化模型為例,整個供電系統(tǒng)由4個組件組成:①UPS;②隔離變壓器;③配電柜;④負載電源。當采用冗余配置時,根據(jù)⑤轉換開關的位置,可以把常用的冗余系統(tǒng)分為:僅有UPS冗余、變壓器冗余、配電柜冗余以及完全冗余(即容錯)等四種模型。
為量化分析不同的UPS冗余模型,以及冗余組件的多少對于系統(tǒng)供電可用性的影響,以上節(jié)中的5種模型為例,分別進行可用性計算。
為簡化計算,冗余模型中采用的幾個組件,其基礎數(shù)據(jù)MTBF和MTTR如表1:
通過對上節(jié)模型的分析,根據(jù)式(4)、式(5)代入表1的數(shù)據(jù),可以計算得出下表:
可以看出,隨著UPS系統(tǒng)的冗余組件逐漸增加,系統(tǒng)整體可用性也逐漸提高;在使用機架式ATS的模型中,可用性已達到6.3個“9”;在完全冗余配置的模型中,可用性可以達到7.7個“9”。
冗余組件的增加,意味著單點故障的減少,同時系統(tǒng)的可維護性也隨之提高;年宕機時間也從1.2h,最多可減少到0.72s。
提升UPS的系統(tǒng)可用性,不僅是意味著成本的增加,也意味著需要更多的設備安裝面積和線路敷設路由;所以在機房建設之前,應充分了解業(yè)主需求,并根據(jù)使用功能、投資規(guī)模以及建設周期等,進行準確定級,以確定選擇一個經(jīng)濟、合理的解決方案。
數(shù)據(jù)中心的基礎建設,可以分為供電、制冷、消防、監(jiān)控、防雷、接地、布線、裝修等多個子系統(tǒng),其中任何一個子系統(tǒng)的分級,都應以數(shù)據(jù)中心的整體等級需求為準。

表1 組件的基礎數(shù)據(jù)

表2 UPS冗余模型的可用性分析
目前國內(nèi)外主流的數(shù)據(jù)中心設計標準和認證體系,主要有國家標準GB50174-2017《數(shù)據(jù)中心設計規(guī)范》、國家認證標準CQC 9218-2015《數(shù)據(jù)中心場地基礎設施評價技術規(guī)范》、北美標準ANSI/TIA-942B-2017 《數(shù)據(jù)中心電信基礎設施標準》、Uptime Institute認證《Tier Standard for Data Center Design,Construction and Operational Sustainability》。
GB 50174-2017將數(shù)據(jù)中心分為A、B、C三級,分別為容錯系統(tǒng)配置、冗余要求配置和基本需求配置。TIA和Uptime Institute,他們都將數(shù)據(jù)中心劃分為4個等級,兩者對4個等級的定義是一樣的:基本需求、冗余組件、在線維護和容錯[5]。
國標中的C、B、A級可分別對應Tier I、Tier II、Tier III和 Tier IV。 當 然,兩種標準的對比僅是一個粗略的、簡化的對應關系,在實際建設和認證中,兩者并沒有對等性。Uptime認證的Tier分級標準,與國標GB 50174相比,更多的是針對實施結果的考核,而不是基于建設標準的考核,雖然在全球已經(jīng)得到了很多用戶的認可,但是在國內(nèi)通過設計、建造和運維認證的項目還比較少,有待進一步推廣。
數(shù)據(jù)中心機房的UPS供電系統(tǒng)配置模式,是項目設計和建設過程中的一個重要環(huán)節(jié),供電系統(tǒng)的可用性將直接影響數(shù)據(jù)中心的安全運行。本文列舉了幾種不同的UPS配置類型及冗余模式,并分析計算了每種供電模式的可用性,可以為數(shù)據(jù)中心設計及運維人員在可用性評估過程中提供參考。