謝鳳華,李峻健
(中興通訊股份有限公司)
毫無疑問,高可用性是UPS系統第一要素。但系統并聯模塊數越多而可用度越低嗎?UPS運行的可用度是基于對可靠性模型的科學分析。
故障率λ(即失效系數):元器件或者功能模塊或者系統出故障的概率。
平均無故障時間 MTBF(mean ti me bet ween failure):定義為利用數學統計方法計算出的設備在發生的兩次故障之間的運行時間。
YD/T 2165-2010《通信用模塊化不間斷電源》規定UPS系統的MTBF值不小于10萬小時[1]。
可靠度(可靠性)是一個可靠性指標。系統實現所需功能的概率。它是指在規定的條件下,在規定的時間內,產品完成規定的功能,也就是說在規定時間內該產品不出故障的概率。可靠度是不考慮維修的。可靠度與故障率的關系為:

從可靠度的公式看出,可靠度不僅與MTBF有關,還與考核的時間長短t有關,也就是說我們不能單純提某系統的可靠度是多少,而是應該提某系統在某段時間范圍內的可靠度,時間越長,可靠度越低(見表1)。通常指一年時間內的可靠度。

表1 單機在MTBF等于10萬小時時,不同時間范圍的可靠度
可維護性(Maintainability),指在規定的時間內完成主動維護的概率。可維護性用MTTR來表示。
平均維修時間 MTTR(Mean ti me to repair):是設備發生故障瞬間開始到通過維修而重新投入使用所需的平均時間。修復率μ是 MTTR的倒數,μ=
可用度(可用性)是一個可維護性指標,是系統在運行過程中,正常運行的時間與總時間之比。可用度A與其它幾個指標的關系可表示為:

可用度指標不僅與MTBF有關,而且與MTTR有關,在MTBF不變的前提下,減小MTTR就能提高可用性A。
(N+X)個UPS模塊并聯形成一個表決系統,在該系統中(N+X)個可靠度相同的模塊單元組成并聯結構,其中N是負載容量所需模塊數,X是冗余模塊數。R1為單模塊的可靠度。
對該表決系統,其可靠度Rs如公式1所示[2]。


圖1 表2數據轉換成N+X的系統可靠度分布曲線圖
由圖1可以看出:
(1)當沒有冗余即X為0時,并聯可靠度隨N的增大而降低。10個模塊并聯時可靠度只有不到0.35。說明當系統沒有冗余時,系統可靠度將隨并聯模塊數的增加而減少。
(2)“4+1”系統的可靠度為0.92,大于單模塊的0.9;但“5+1”系統的可靠度為0.89小于單模塊的可靠度。說明當系統模塊數較多時,冗余1個模塊時系統的可靠度還可能低于單個模塊的可靠度。
(3)“8+2”的可靠度0.93略大于“4+1”的可靠度0.92。說明可以通過增加冗余數來提高多模塊并聯時的可靠度。所以“并聯模塊數越多系統可靠性越低”不完全正確。R1=0.9時,系統可靠度數據見表2。

表2 在模塊可靠度R1為0.9(1年左右)時,計算得到N+X的系統可靠度數據
對于一次性使用的設備,如不可回收的人造地球衛星上的通訊設備,僅關心其可靠性即可。但對于如UPS等可修復的設備,除可靠性指標外,更需關注設備在整個使用壽命周期內的可用度(率)。既要考慮故障發生的概率,還要考慮系統可維護性。
標準ANSI/TIA-942數據中心通信基礎設施標準( ANSI/TIA-942Telecommunications Infrastructure Standard for Data Centers)是針對數據中心機房規劃、建設的標準文件。該標準不是要求可靠度,而是根據不同的可用度將數據機房分為4個等級(見表3)。

表3 ANSI/TIA-942標準對機房等級規定
設備的維修時間MTTR是指設備從發生故障到恢復功能的時間t,它由故障發生到故障自動檢測時間t1、故障檢測到人們知道時間t2、后勤保障時間t3、故障維修時間t4、恢復時間t5等多個時間段組成,t=t1+t2+t3+t4+t5,如圖2。

圖2 MTTR的時間細分
相對于后勤保障時間t3和故障維修時間t4,t1、t2、t5可以忽略不計。MTTR可以假設如下四個數值:
(1)假設用戶自己在設備故障現場,用戶備有可供更換的備用模塊,用戶一發現問題就立即自己更換,則可能MTTR不大于0.5 h。這是一種最理想、最短的時間。
(2)用戶維護人員不在設備現場但在設備所在城市,模塊一旦故障即可實時通知(如手機短信)用戶維護人員,設備現場有可供更換用的備用模塊,維護人員在5 h之內趕到現場并完成更換工作。此時MTTR為5 h。
(3)用戶自己沒有備用模塊,或者用戶即使有備用模塊但自己不更換,需要廠家技術人員趕來更換,廠家承諾解決問題的時間為48 h,因為更換模塊只需要0.5 h,MTTR為48 h和0.5 h之和,約等于50 h(簡化計算)。
(4)對于傳統的集中式UPS,一般需要廠家資深工程師,帶齊備品備件和檢測儀器,假設響應時間為2天(制造商備好備件、乘坐交通工具趕到設備現場的時間),現場維修時間3天,則MTTR為5天共120 h。
對于模塊化UPS,采用B種情況和C種情況比較合理,即MTTR為5 h或者50 h。
“N+X”模塊化UPS系統是一個表決模型,“N”為負載容量所需模塊數,“X”為冗余模塊數。用等效MTBF、等效MTTR和可用度三個參數來表征該系統的可用性。
系統 MTBFS、MTTRS和可用度 AS如公式(2)、公式(3)和公式(4)所示[3]。


根據上述公式計算出在模塊的MTBF1等于10萬小時,MTTR1分別為0.5/50/120 h,N+X(N=[1,10],X=[0,2])時系統的可用度As如表4。
計算結果分析
(1)當 MTTR很小為0.5 h時,只要1個冗余模塊,系統就可以達到很高的可用度。

表4 “N+X”系統可用度AS數據表
(2)對于N+2(N 不大于10時)系統,可用度均可達到5個9的要求。這個為下文設置休眠模塊數量提供了理論依據。正常工作時有2個冗余模塊數即可,多余模塊可以讓其休眠,既可以滿足系統可用度需求,也符合節能原則。
(3)對于 MTBF為10萬小時,10+0系統,當MTTR為0.5/5/50/120小時,系統的可用度對應為4個9/3個9/2個9/1個9。說明 MTTR的大小對系統可用度影響很大。
(4)系統可用度與冗余數X的關系:對于MTBF等于10萬小時、MTTR等于5小時、N等于10時,系統的可用度在X為0/1時分別為3個9/7個9。增加1個冗余數,可用度提高4個9。
(5)系統可用度與總模塊數N+X的關系:對于MTBF等于10萬小時、MTTR等于120小時,4+1系統或8+2系統的可用度分別為:4個9或6個9,有如下關系:
As(8+2)大于As(1+1)大于As(4+1)大于 As(8+1)
實際應用中,絕大部分UPS系統帶載在10%~60%的額定容量(參見美國可靠性研究中心對UPS負載率的統計)。也就是說實際負載容量數N小于設計的負載容量數N,在系統模塊數不變時,相當于冗余數X增大,則實際上系統可用性比設計的更高。
可見對于可維修模塊化UPS系統,并不是并聯模塊數越多系統可用度越低,關鍵還在于冗余模塊數X。即可以通過增加冗余數來提高更多并聯模塊數系統的可用度。
對于可維修模塊化UPS系統,不但需要關注可靠度,更需關注可用度。對于“N+1”系統,隨著N的增大,無疑系統的可靠度降低,但是如果是“N+X”,當N增大時,X也增大時,則系統的可靠度和可用度都是可以增大的。
[1] YD/T 2165-2010.通信用模塊化不間斷電源[S].
[2] 金偉婭,張康達.可靠性工程[M].北京:化學工業出版社,2005.
[3] 郭永基.可靠性工程原理[M].北京:清華大學出版社,2002.
[4] 謝鳳華.降低MTTR以提高模塊化UPS系統的可用性[C].中國電源學會第18屆學術年會論文集,2009.