張廣明
(中國科學院計算技術研究所,北京 100190)
對供電系統提出不停電供電的要求是從上世紀70年代開始的,但在上世紀90年代之前的幾十年里,不停電供電要求的重點在于市電掉電的不穩定過程中保護計算機硬件設備,在后續由備用能源供電的時間段內存儲計算機運行的中間數據,并安全關機,即所謂的硬件保護和數據保護,如圖1所示,為數據中心不停電供電功能演變示意圖。

圖1 數據中心不停電供電功能演變示意圖
當時,技術成熟并可用做后備能源的技術和產品只有柴油發電機和鉛酸蓄電池,鑒于當時對不停電供電的主要要求是硬件保護和數據保護,所以計算機整機研制單位和專業電源設備廠家研發人員選擇了鉛酸蓄電池作為備用能源,并選擇了最簡單的配置方法,在電網市電的供電回路中,配置相應容量的鉛酸蓄電池,如圖2所示。蓄電池是直流儲能能源,把它配置在交流供電電路中,電網市電正常時,電池需要AC/DC轉換充電,市電掉電時,需要DC/AC逆變向負載供電,這就形成了當前傳統UPS典型的電路結構形式。

圖2 傳統雙轉換UPS 設備電路形成的必然性
在數據中心供電系統中簡單配置UPS以形成不停電供電系統,這種設計理念在很長一段時間內成為數據中心供電系統規劃設計的主流。但是,有四個概念是需要明確的。
(1)在系統中,主體是蓄電池,為負載提供備用能源,而UPS設備為電池服務。沒有計算機不停電供電要求,就不會在交流輸入電路中配置蓄電池,自然也就不會產生傳統的UPS設備。
(2)UPS設備的主要功能是在市電掉電時保證備用能源蓄電池不間斷向負載供電。IT設備由開關電源直接供電,開關電源輸出電壓性能指標完全可滿足IT設備要求。實際上,大量的計算機設備一直是由電網直接供電的,諸如UPS普遍應用前的計算機供電系統、當前的筆記本和臺式機、后備式UPS(相當于市電直供)為計算機供電、UPS轉旁路(相當于市電直供)是UPS一種正常運行模式、科研和教育行業大型計算機系統等。再者說,由于UPS設備對電網的適應能力(允許的市電電壓幅值、頻率、波形失真等變化范圍)和可靠性水平都比負載設備中的開關電源差,所以改善供電質量并非UPS設計初衷。
(3)由于電池的容量(備用時間)是固定的,在系統運行中不允許添加或更換,而市電故障停電持續時間是不固定的,所以在系統中簡單的配置UPS設備,最終是不能保障系統連續運行的,不能構成真正的不停電供電系統。
(4)備用電池容量不是越大越好。由于UPS設備不能在市電掉電時保證對負載不停電供電,所以在實際應用中,用戶在配置電池容量時的心理狀態是越大越好,其結果是在電池成本、占地面積、維護難度等方面都帶來不利的影響。
隨著數據中心功能的變化和建造技術的提高,有兩個關鍵因素極大地影響了對備用能源的設計理念:一是自上世紀90年代后,特別是進入21世紀以后,隨著互聯網技術的快速發展,數據中心對供電系統運行的連續性(可用性)提出了越來越高的要求;二是數據中心機架平均功率密度出現明顯增大的趨勢,從20世紀末的1.5~2.0kW/機架到21世紀初的3.0~5.0kW/機架。這兩個趨勢對傳統的供電系統備用能源的設計方法提出了嚴峻的挑戰,促使備用能源設計理念發生了兩個非常明顯的重大變化。
(1)必須配置可以連續運行的備用發電機系統。由于電網市電掉電柴油發電機投入運行后,仍可隨時添加燃油保證油機無限期的連續運行,所以在有供油協議的情況下,可認為油機是一個可長期連續運行的備用交流能源。
(2)要對數據中心所有需要連續運行的系統和設備配置備用能源。傳統的數據中心備用能源設計只注意到市電掉電后由UPS系統保證IT設備的不間斷運行,而制冷和其他子系統不配備UPS系統供電。特別是制冷系統,市電掉電后,所有的空調制冷設備因失去輸入電源而停止運行,此時唯一可利用的冷源是有限的房間空間的余冷。隨著機房機架功率密度的提高,房間余冷可維持IT設備繼續運行的時間變得很短,盡管UPS系統有足夠的供電保障時間,而IT設備卻因制冷不滿足要求而停止運行。高密度機房制冷問題的暴露使規劃設計者意識到,數據中心基礎設施的所有子系統對其高可用度的連續運行都是至關重要的,所以要對數據中心所有需要連續運行的系統和設備配置備用能源。
圖3顯示了現代數據中心供電系統的典型架構,可以看出,整個供電系統的架構和設備配置原則是保障數據中心整個基數設施供電的連續性。
從備用能源設計的角度看,可以把備用能源分成兩類。
(1)主備用能源柴油發電機
主輸入交流能源是電網市電,備用交流能源是備用柴油發電機,柴油發電機是唯一最終保證數據中心可無限期連續運行的備用能源,稱之為主備用能源。

圖3 現代數據中心供電系統的典型架構
(2)過渡備用能源UPS系統
冗余的交流輸入能源存在著發電機啟動延時和兩種交流能源轉換的斷電時間,在此時間內,系統中的所有設備都會因交流輸入斷電而停止運行,所以,應該對系統中所有的關鍵系統和設備都配置UPS設備,稱之為過渡備用能源。需要配備過渡備用能源UPS系統的設備表示在圖4中。

圖4 數據中心備用能源功能示意圖

圖5 市電掉電后各種類型的備用能源投入運行的時間和系統工作狀態
圖5是市電掉電后各種類型的備用能源投入運行的時間和系統工作狀態。
(1)主備用能源柴油發電機保證主輸入交流能源的連續性。
市電掉電,油機捕捉到市電失壓信號后立即進入自動啟動程序,經過一段延時后啟動,并通過油機與市電之間的轉換開關ATS自動切換后,代替市電對整個數據中心供電。在圖5中,油機啟動延時和ATS轉換總的時間是T1,在T1時間段內,整個數據中心失去交流輸入供電。油機自動啟動的時間取決于油機系統配置和油機參數設置,單臺油機理想的啟動時間在15s左右,ATS自動轉換時間為幾百ms。所以,T1的典型規劃值應在30s左右。
(2)過渡備用能源UPS系統保障IT及其他各種設備的供電連續性市電掉電后,需要UPS系統保護的除IT設備之外,還包括圖4所示的機房中其他需要連續運行的系統和設備。圖5中,UPS電池逆變供電的時間是T1,待油機啟動切換后,UPS就立即恢復到交流輸入逆變狀態,此時的交流輸入電壓來自柴油發電機。TI也是備用電池的最小備用時間,或者說是電池的可利用備用時間。
(3)空間余冷保障低平均功率密度機房IT設備制冷的連續性。
市電掉電后,對于一般配置精密空調的機房,此時唯一可利用的冷源是房間空間的余冷。機房空間余冷是有限的,視機房空間高度、機房機架密度(數量)和實際IT負荷的大小,余冷的可用時間差別很大,所以有限的余冷能維持機架進風溫度由系統正常時的23℃到30℃的時間是一個很大的變數,在圖5中,由機房余冷維持平均機架功率密度<2kW的機房,IT設備進風溫度由23℃到30℃時間用T3表示。而由機房余冷維持平均機架功率密度>3kW的機房,IT設備進風溫度由23℃到30℃時間用T2表示。
T2和T3的典型值是:機架平均功率密度<2kW,滿負荷維持時間3~5min;機架平均功率密度3kW,滿負荷維持時間1~3min;機架平均功率密度≥5kW,滿負荷維持時間<1min。
(4)冷凍水儲冷罐儲冷保障高平均功率密度機房IT設備制冷的連續性。
為了在市電停電后能在油機啟動切換期間保障IT設備制冷的連續性,就必須采用冷凍水制冷方案,并配置冷水罐儲備冷水,由儲備的冷水維持高功率密度機房的連續制冷。當然,維持冷水輸送的水泵也要由專用的UPS設備供電。值得注意的是,不管是傳統精密空調,還是冷凍水機組,在輸入電源恢復正常時,都存在較長的制冷功能恢復延時時間,視制冷設備類型和型號的不同,此時間的典型值在3min左右。也就是說,冷水罐儲冷維持IT設備連續制冷的時間,應包括油機啟動切換延時和制冷設備恢復制冷功能延時兩個時間。在圖5中,制冷設備啟動延時制冷的時間用T4表示。而冷水罐儲冷維持IT設備連續制冷的最小時間用T5表示,且T5=T1+T4。T5是儲冷罐維持IT設備連續制冷的最小時間,也是維持IT設備連續制冷的可利用時間。
(5)油機儲油,保障油機運行的連續性。
由于市電掉電后需要油機持續運行的時間是不確定的,油機自行儲油,還包括機房專門配置的儲油箱儲油,總儲油量是個固定量,都不具備保障油機連續運行的條件,所以,與相關的燃油供應單位簽定燃油供應協議就成為保障油機連續運行的重中之重。在圖5中,燃油供應協議時間用T6表示,此時間因數據中心所在地區的供油單位距離、交通條件以及其他不可預測多種因素有關,是一個極大的變數。在供油協議規定的時間內,就必須由油機自行儲油和機房專門配置的儲油箱儲油,保障油機正常運行,此時間應大于燃油供應協議的時間T6,所以T6是油機和專用儲油箱儲油的最小時間,也是油機和專用儲油箱儲油的可利用時間。
在保障數據中心基礎設施連續運行和如何正確選擇配置備用能源這個至關重要的問題上,當前在建和已經運行的數據中心存在著各種各樣的問題,有些問題是規劃設計者沒有意識到,因而很多問題被忽視,沒有引起足夠的重視;有些問題是在“必須符合標準”的設計思想下,硬性引用或套用并不適合數據中心的有關建筑、電力、安全等標準的相關條款;有些即便是專為數據中心編制的專業標準,也因概念模糊和錯誤而出現嚴重影響數據中心運行連續性功能的條款。
2N供電系統是當前可用性級別最高的供電方案,此方案最根本的特點是前端要有冗余的交流能源,后端要有雙輸入負載,整個供電系統的所有環節都是冗余配置。前端要求兩路完全獨立、相互隔離、彼此冗余的交流能源輸入,在有條件的地區可以引入第二路市電,條件是兩路市電必須完全隔離。在不具備條件的地區可以自備柴油發電機。實際上,自備發電機才是滿足完全獨立要求的理想的備用市電,自備發電機完全由用戶控制,包括選購的機型、容量、運行參數設置,以及日常維護工作等。
但是,當前普遍的做法是,在必須配置備用發電機的前提下,仍然要求引入兩路市電,并把這一要求寫進標準中,這是對2N方案的錯誤理解。實際上,在發電機作為主要備用交流能源的情況下,再要求第二路市電,除了增大建設成本和維護難度外,對整個系統的可用性的提高效果微乎其微。再者,絕大多數地區不具備兩路完全獨立的市電,所謂兩路市電,并不是冗余的交流能源輸入,而僅僅是同一電網輸入的兩個冗余傳輸途徑而已。
備用柴油發電機是數據中心連續運行的關鍵設備,但是由于數據中心規劃設計者盲目引用電力和建筑行業的相關標準的有關條款,從而嚴重限制了它的備用功能。
3.2.1 自動啟動和自動切換問題
有關電力標準規定,當一個用電單位或地區需要配置備用發電機時,要嚴格限制該發電機的自動啟動和自動切換功能,這一條規定源于這些發電機大多是公用設施,也就是說,它投入運行后可能同時為多個不同單位不同用電系統供電,各用電單位和系統對市電掉電后備用發電機啟動和運行可能有不同的要求,所以限制自動啟動和自動切換是理所當然的。但是,在數據中心配置的發電機需是數據中心專用,并且要求必須在規劃規定的時間(例如30s、1min或2min)內投入運行。人工操作啟動發電機和切換供電,會受到很多人為因素的影響,很難保證在規定的時間內啟動并投入運行。對于嚴格要求連續供電的數據中心,市電掉電后備用發電機不能自動啟動和切換,就等于沒有配置備用發電機。
3.2.2 發電機與市電切換級數問題
同樣因為發電機大多是公用設施,不同的用電系統之間必須保證電器隔離,所以有關電力標準規定,發電機與市電的切換開關ATS要同時切換三相相電壓和N線。ATS動作時同時轉換N線,有兩種情況可能造成嚴重的N線斷開事故,一是ATS動作過程中,可能出現瞬間先斷開N線后斷開相線,或者先接通相線后接通N線的現象;二是在ATS安裝和維護過程中,可能出現N線接觸不良或人為的N線斷開故障。這兩種情況都會造成三相相線接通而N線斷開的故障。眾所周知,在三相系統為單相負載供電時,由于三相負載不平衡,三相系統N線斷開時,會燒毀單相負載。在數據中心交流輸入系統中,存在的單相負載包括照明燈具、空調制冷設備控制系統電源、UPS設備自用電源、風扇等。在數據中心供電系統中,這種事故屢次發生。所以,在數據中心供電系統規劃設計時,不允許使用同時切換相線和N線的ATS設備。再者說,數據中心要求配置專用備用發電機,發電機是數據中心供電系統的一個設備,不存在發電機與市電之間的隔離問題,所以最可靠的辦法是發電機N線直接接在數據中心系統地上,發電機與市電之間用3極ATS設備切換。
3.2.3 備用發電機儲油問題
燃油供應協議是保證發電機不間斷、無限期持續運行的關鍵,而發電機儲油只是在供油協議期間的過渡措施,所以要求自帶油箱和附加儲油箱的總儲油量的可運行時間要大于協議供油的時間,至于要大多少,這是用戶根據自身條件、安全期望程度以及放心程度來決定。但是,有些與備用發電機相關的標準(也包括數據中心的專業標準)在儲油這一條款中,不強調必須有供油協議,而把一些經驗數據作為標準,重點強調一個固定的儲油時間(例如8h、20h、36h或72h),特別是把儲油時間與系統安全等級聯系起來,同樣都配置了備用發電機,B級機房要求儲油36h,而A級則要求72h,好像同一規格的發電機,在B級機房運行會比在A級機房運行可節油50%。
3.2.4 忽視影響發電機啟動的負載因素
備用發電機能否成功啟動與發電機容量有關,還與數據中心負載性質有密切關系。眾所周知,當負載輸入阻抗呈容性特性時,會嚴重影響發電機的啟動和運行,這一點常常被規劃設計者忽視。由于條件所限,很多數據中心建成后只能用電阻性負載驗證發電機的帶載啟動能力和運行狀況,但這種做法會為數據中心能否連續運行埋下了重大隱患。
在數據中心中,影響發電機啟動的最典型的容性負載有三個。
(1)交流輸入電容補償柜
同樣是電力部門的要求,為了避免用電負載功率因數對電網造成污染,相關標準規定所有的用電系統前面必須加電容補償柜,數據中心的規劃設計者在不確定數據中心供電系統輸入功率因數性質和大小的情況下,往往先入為主在設計圖中配置了這一設備,當數據中心配置了高壓柴油發電機時,該設備必然影響發電機的啟動。
(2)工頻機UPS無源濾波器
工頻機UPS在市電掉電后的工作狀態如圖6所示。此時UPS的工作狀態是:電池通過DC/AC逆變向負載供電,輸入端AC/DC控制關斷,UPS輸入斷路器并未關斷,此時油機啟動正常后,經ATS轉換面對的負載是UPS無源濾波器。待油機啟動切換成功后,UPS檢測到輸入電壓正常后才轉到市電供電狀態。

圖6 市電掉電后UPS的工作狀態和輸入阻抗特性
通過圖6,要明確幾個概念:1)油機啟動后切換時面臨的是空載UPS;2)油機啟動切換后的負載與UPS是否緩啟動無關;3)UPS啟動切換是否成功與UPS的輸入功率因數和諧波含量無關(UPS輸入關閉);4)在UPS輸入空載(關斷)情況下,無源濾波器呈現純容性阻抗;5)在UPS1+1冗余系統中,負載是一臺UPS額定容量的容量,而無源濾波器相對發電機確是兩臺相加的。
總之,當數據中心供電系統配置了工頻機UPS時,市電掉電后呈現純容性的無源濾波器,會嚴重影響電機的啟動。
(3)混合式有源濾波器
電力部門防止用電設備諧波污染的另一種做法,是要求在輸入端加有源濾波器。理由是濾波效果更好,且有源濾波器不會在空載時出現影響發電機啟動的容性特性。但是,當前的有源濾波器產品大多是混合式,是由無源濾波器和有源濾波器并聯組成,如圖7所示。負載出現的低次諧波(5、7、11、13等)由無源濾波器濾除,其他高次諧波才由有源濾波器濾除,所以,混合式有源濾波器對發電機啟動的影響與無源濾波器是一樣的。

圖7 混合式有源濾波器
UPS蓄電池只是在市電掉電后發電機啟動和切換時間內的過渡儲能設備,電池備用時間必須大于市電掉電后發電機啟動和切換時間,至于具體大多少時間,也是應該由用戶根據自身條件、安全期望程度以及放心程度來決定,無需用標準對用戶作出硬性規定,當前電池備用時間普遍取值過大,這與相關標準的規定有直接關系,實際上存在著維護難度增大的弊病和成本、承重等資源的巨大浪費。
對于高機架功率密度機房,制冷方案有多種形式可以選擇,例如冷熱通道封閉、列間空調、背板技術等,這些方案在市電正常時有很好的制冷效果,并且在節能方面也取得了很好的成效。但是,考慮到市電掉電后的制冷連續性,不論什么制冷技術或方案,冷源的屬性都是由系統制冷的連續性要求決定的,必須采用有儲冷功能的冷源。很多制冷方案規劃者只注意到市電正常時的制冷效果,一味提高機架平均功率密度,忽視市電停電時是否可以連續制冷這一關鍵問題。此種情況在舊機房改造案例中多有發生。
同UPS儲能電池一樣,冷源儲冷也是一個過渡成形式,儲冷運行最小時間是設備在市電掉電后發電機啟動切換時間與交流電源恢復制冷設備制冷功能延時啟動時間之和,實際儲冷運行時間自然要大于最小要求時間,至于大多少,也是應該由用戶根據自身條件、安全期望程度以及放心程度來決定,無需用標準對用戶作出硬性規定。
不停電供電系統的方案是由備用能源的選用和配置方法決定的,因而,要對不停電供電系統做進一步的改進和改革,最首要的是要考慮如何改進和優化備用能源的配置方法。
圖8顯示了傳統的數據中心供電方案和兩種可能的改革方案。

圖8 傳統數據中心供電方案及改革方案設想
(1)圖8(a)顯示的是沒有不停電供電要求的數據中心供電系統,在UPS設備出現前,所有的大型計算機和數據中心都是這樣供電的。該系統由市電經變配電后直接供電,供電質量由IT設備中的開關電源保證,市電故障停電時系統宕機。
(2)圖8(b)是傳統的不停電供電系統、系統運行過程以及備用能源配置原則等,在本文第2、3節中已經有詳細的描述。
(3)圖8(c)是對IT設備供電的UPS系統改革方案——機架自主儲能系統。
既然發電機已經成為數據中心必備的并可及時投入運行的能源設備,過渡備用能源蓄電池的后備時間就可以大大減少,這為把蓄電池移至到IT機架中,配置在IT設備中的開關電源的直流輸出端創造了條件,于是就形成了機架自主儲能改革方案。此方案從根本上去掉了對IT設備供電的傳統UPS雙轉換系統。
機架自主儲能UPS系統組成要點:1)IT設備中去掉傳統12V輸出開關電源,保留低壓DC/AC變換;2)交流輸入直接對機架供電;3)在機架中配置集中式12V或48V輸出開關電源,模塊化冗余配置,低功率密度機房可用12V,高功率密度機房宜用48V;4)在開關電源12V或48V輸出端集中配置過渡備用電池,組成不停電供電系統。
機架自主儲能UPS系統對傳統的UPS系統做了重大的變革,在簡化系統、提高系統可靠性、降低成本和提高運行效率等方面,都會有明顯的成效。機架自主儲能方案的不足之處,是它只解決為IT設備供電的問題,從圖8(c)可以看出,系統中其他需要不停電保護的子系統和設備,仍然需要配置傳統的UPS供電系統。機架自主儲能方案的實施,需要IT設備廠商提供支持,這為該方案的實施和應用增大了難度。
(4)圖8(d)是對整個供電系統變革的設想——不間斷供電的備用發電機系統。
