筆者所在的B級數據中心采用目前主流的“2+2”雙路供電模式,在2018年的某天當完成UPS放電測試項目后,在恢復UPS主路運行模式時,發現并機運行的1#2#UPS產生焦糊氣味且有異常噪音。
運維人員將1#2#UPS回退至電池供電狀態,稍后將其切換到靜態旁路運行,等待廠家工程師前來排查故障。等待期間發現1#2#UPS主機內的旁路濾波板ETON燒紅,運維人員立即操作將兩臺故障設備旁路隔離關機下電。
經排查,在機房內共有兩臺UPS的旁路濾波板燒壞,一臺精密空調壓縮機保險管燒壞,一臺有源濾波器的諧波治理模塊保險管燒壞,以及IT設備中有兩個電源模塊損壞。

圖1 市電輸入配電柜零線電流曲線
在本次故障中,精密空調和有源濾波器接入點與UPS并機系統接入點在同一配電柜中,因電路中零線電流匯集了三相電流所有的異常波動,故本文中根據零線電流曲線進行故障分析。
查詢各故障設備運行事件記錄,可以發現有源濾波器諧波治理模塊先于精密空調壓縮機保險管燒壞,有源濾波器故障后即出現零線電流的巨幅振蕩現象(時間:21時12分)。而有源濾波器并聯接入電路治理電流諧波,它的原理是通過實時監視電路中的諧波電流變化,向電路注入與諧波電流幅值相等、極性相反的補償電流,對諧波電流進行補償抵消來消除電力諧波的。
觀察圖1零線電流變化曲線,我們可以推斷零線電流的振蕩現象實際在17時40分時就已經出現,而有源濾波器的補償抵消使得17時40分至21時12分之間的電流振蕩未顯現出來,長時間的大電流補償最終導致有源濾波器過載保護,之后振蕩電流使得精密空調壓縮機保險管和IT設備電源模塊損壞。再觀察兩臺UPS設備是同時發生的旁路濾波板燒壞,而在21:55分兩臺UPS隔離下電后振蕩電流消失等現象,可以看出本次機房配電系統故障的根源就是1#2#UPS并機系統發生某種共因失效并引起了電路震蕩。
共因失效是指在冗余系統中由于某種共同原因而引起冗余單元同時失效的故障現象,共因失效的存在顯著地降低了冗余系統的可靠性,是冗余系統失效的主要根源,它的存在使得部件之間相互獨立的假設不再存在,目前是工程應用領域亟待研究的課題之一。根據部件失效的來源,一般可將其分為來自系統外部環境的影響和來自系統內部部件的失效傳播兩大類。
在背景事件中,結合圖1零線電流曲線可以看到故障前后,UPS前端市電呈現的“沖擊(合閘)——周期振蕩(靜態旁路)——恢復(維修旁路)”三個階段波形,以及旁路濾波板的過載燒壞,可以推斷出本次為來自外部環境影響造成的共因失效。
外部環境引起UPS并機系統共因失效進而產生電路振蕩的原因可以從并機系統的頻率控制原理來說起。在并機系統中每臺UPS的輸出頻率是由各自本機逆變器控制板上的振蕩器決定的,本機振蕩器頻率同步于并機板主振蕩器頻率,而主振蕩器頻率則由同步源選擇器來選擇,一般有3種選擇對象,即旁路頻率、并機總線頻率、強制基波頻率等,其選擇依據是旁路電源是否正常和并機UPS的啟動方式,UPS并機系統以此種方式實現輸出電流頻率相同。
以兩臺UPS并機為例,當市電突然中斷或者大幅振蕩時,UPS監測到旁路頻率越限后同步源選擇器立即指向基波頻率,并機板的主振蕩器以基波頻率運行,通過并機總線通訊使兩臺UPS的振蕩器與主振蕩器同步,并機系統則以電池供電模式運行,輸出頻率為基波正弦波。而當兩臺UPS采用斷開Q1開關的方式運行在電池供電模式時,并機系統監測到的旁路電源是正常,并機板的同步源選擇器是指向旁路頻率的,并機UPS的輸出頻率與旁路頻率同步。當其中一臺或者兩臺UPS閉合Q1輸入開關后,它的振蕩器輸出頻率也是與旁路頻率同步的。
在實際操作過程中,當運維人員完成放電測試閉合UPS輸入開關Q1時,此時UPS的實際帶載除了輸出端電子計算機設備外,還增加了給容性負載蓄電池組充電的負荷,Q1合閘時的瞬時電流達到了輸出電流與充電電流之和的4至7倍,觀察圖1中17:00在Q1閉合時零線電流瞬間值達到了200A,可見啟動沖擊是很大的。
如此巨大的沖擊電流極易造成UPS設備的電力電子器件損壞,同時沖擊電流會引起包括旁路的整個電路振蕩,正常情況下并機系統應能監測到頻率越限,然后同步源選擇器指令并機系統以基波頻率運行,但在并機系統連續閉合兩臺設備的Q1開關,連續兩次大電流沖擊之下同步源選擇器的這種邏輯機制很有可能被沖破,之后并機系統為了保持與旁路頻率同步,主振蕩器在修正信號指引下跟隨旁路頻率,兩臺UPS各自的振蕩器再與旁路頻率同步即產生電路振蕩。這種并機系統內部產生的振蕩電流通過零線漫延泄放,在反饋回主路方向的零線電流與主路振蕩電流一旦形成諧振就會造成整條電路電流振蕩難以自行平復,即是產生了圖1中17:40至21:12之間的振蕩電流。當振蕩電流很劇烈時電路中的諧波治理設備就會誤判斷為電路中電流諧波含量很多幅值很大,進而持續產生同值反向的抵消電流,最終造成濾波器類設備過載損壞。
觀察圖2中本次UPS設備燒壞的ETON板,它是一種電子濾波器,其中的三極管VT1起到濾波管作用,另有三個基極濾波電容和六個基極濾波電阻構成三組RC濾波電路。而一般情況下諧波電流值很小且含量不大,觀察圖2可看到燒灼最嚴重的是六個濾波電阻,我們可以判斷出故障當時濾波電路將電路中的的諧振電流當做了電流值很大的諧波電流,而導致嚴重過載直至燒毀。
再查詢環境監控系統市電輸入配電柜零線電流歷史數據,系統正常運行時零線電流15A左右,觀察圖1在并機系統切換到靜態旁路后,剔除濾波設備影響可以發現零線電流周期波動,其幅值達到在35至180A左右,以上數據加強了電路中發生了疊加振蕩的推斷。

圖2 UPS設備燒壞的旁路濾波板ETON
本次故障中,維護人員發現異常聲音和焦糊氣味后將設備回退到電池供電模式,然后采用長按灰鍵(MGE Galaxy 5000機型),將設備切換到靜態旁路等待維修的處置方式。而長按灰鍵只是關閉了逆變器,設備中的很多部件還是在運行的,比如為了保證向靜態旁路切換正常,靜態開關前端的旁路濾波板會對旁路震蕩電流進行濾波穩壓。我們知道靜態旁路只是UPS設備切往維修旁路的一個過渡路徑,將UPS設備長時間置于靜態旁路的暫態環境下,并不能消除并機系統的共因失效故障,而在UPS的內部復雜電路已經產生紊亂電流的情況下,這種方式更會導致一些設備損壞事件的發生。
UPS并機冗余系統提高了配電系統的可靠性,但其基于電流電壓波形同步的并機模式控制原理,使得并機系統可能因電網沖擊而導致并機失敗,或者引發整個電路的諧振,而單臺UPS由于結構簡單反而不容易出現上述故障。
外部環境造成的并機系統共因失效常出現于設備開機操作、有電網沖擊時,外觀現象是并機系統中每臺設備都出現了相同的異常現象或故障告警信息。我們可以通過測量并機系統的環流情況,聽運行聲音、嗅異常氣味等方式初步判斷,也可以通過查看運行事件記錄,檢查輸出電能變化情況等方式最終確定并機系統運行狀況。
在確認異常狀況后,對于并機系統可以采用先關閉一臺UPS,斷開輸入輸出將其從電路隔離,使配電網絡從冗余復雜系統退出,簡化為單機簡單模式以提高配電網絡的抗擾能力,觀察配電網絡運行參數再做進一步的處置操作,甚至直接將并機系統全部隔離下電,再重新逐臺啟動并機。