龍熹
1. 騰訊科技(深圳)有限公司 廣東 深圳 518063;2. 騰訊云計算(北京)有限責任公司 北京 100000
近年來,5G+、大數據、物聯網等技術的發展顯著加快,基于數據和算力的AI產品在很多領域都有成功應用,帶動了云計算數據中心行業的總體發展,特別是近期ChatGPT產品發布帶來的大模型訓練浪潮,讓數據中心服務器從計算加存儲的通用服務器時代進入了追求極致算力的AI服務器時代,加速了數據中心供配電技術變革。當前,數據中心領域對GPU高算力服務器的需求逐年遞增,但匹配AI智能算力服務器的數據中心供配電系統的設計難度大、要求高,相關人員必須遵循行業規范,并根據AI算力的特點來優化設計,保障數據中心供配電系統的性能及功能。
世界進入了AI時代,為滿足各行各業的實際需求,互聯網公司數據中心向云計算、高算力方向的發展成為必然趨勢。云計算數據中心可整合計算、網絡等資源,提供優質化、精準化服務,以創造更大的價值[1]。同時數據中心的AI算力大小決定了其大數據分析和大模型訓練的能力,成為當前重要的數據中心性能指標,數據中心供配電系統的建設需匹配變化趨勢。不同于傳統的供配電系統,服務于AI算力的云計算數據中心供配電系統需融合多種軟硬件技術,并兼具智能化、一體化、模塊化特點,能進行實時監測、智能故障分析,并依據算力服務器的特點優化供配電方式,滿足AI算力基礎設施高效、經濟、智能化需求。
在通用大模型浪潮的推動下,為了滿足生成式AI不斷增長的需求,以大功率GPU芯片為主的AI算力服務器在新數據中心建設規劃中將占據重要份額。相比普通服務器采用GPU芯片的AI服務器對于數據中心供電架構方面有著不同要求。
2.2.1 電力需求:AI服務器通常具有更高的功耗需求,因為它們需要更多的計算資源來處理復雜的AI任務,AI服務器的功率從750W、1500W、4500W、8000W等不同檔次逐步向高端集中,因此,AI服務器需要更強大的電力供應來滿足其高功耗需求。
2.1.2 電力密度:由于AI服務器的功耗較高,其電力密度(即每個機柜或機架的功率密度)通常比普通服務器更高。這意味著在設計數據中心供電架構時,需要考慮如何提供足夠的電力密度,以滿足AI服務器的需求。單個機柜的功率將從目前主流的8~10kW提升到24~70kW,同時這意味著數據中心的電力需求和散熱需求將大幅增加,給數據中心的設計、建設和運維帶來更大挑戰。
2.1.3 散熱和冷卻:由于AI服務器的功耗較高,它們產生的熱量也更多,越來越接近風冷散熱的極限,這需要采用更強大的散熱冷卻系統,比如采用液冷或風液混合的散熱方案;同時由于散熱功率提升導致單個機柜的冷卻設備、通風設備的占地面積增加,意味著更高的散熱冷卻系統成本;另一方面,單個機柜的功率增加使得熱保護關機時間減少,基本上沒有機會做保護的動作,這就要求在服務器制冷側要做連續制冷。
2.1.4 線路容量:由于AI服務器的功耗較高,它們需要更多的電力供應。因此,在數據中心供電架構中,需要確保電力線路具有足夠的容量。
2.2.1 高性能:AI數據中心的計算資源、網絡資源、基礎設施資源具有較高的信息處理與吞吐能力,網絡應充分滿足數據交換與傳輸速度,不用存在阻塞,具備對突發流量、突發計算量的承受能力。供配電系統的建設必須遵循為高性能業務服務的原則。并兼顧技術經濟性。
2.2.2 擴展性:AI數據中心應具有良好的靈活性與可擴展性,能夠根據今后的業務不斷深入發展的需求,擴大設備容量與提高用戶數量與質量的功能。在供配電系統設計時充分考慮后期的擴容,以及功率彈性。
2.2.3 適應性:供配電系統應能滿足標準要求,同時確保各子系統具有良好的電磁兼容性和電氣故障隔離功能,當某一點故障時快速實現故障隔離,不影響其他設備連續供電。
2.2.4 可用性:供配電各系統的設計應滿足標準要求,工作安全可靠。并在關鍵部件設計硬件冗余、備份等可靠性技術上采用相關軟件技術提供較強的管理機制,控制方法,實現故障監控以及安全授權的措施,提高數據中心可用性。
2.2.5 穩定性:供配電設計應在成熟且廣泛應用的基礎上追求系統的先進性,做到方案和產品的最優結合,同時考慮系統運行的穩定。
2.2.6 可維護性:對供配電系統采用模塊化設計,產品的冗余設計作為重點需求指標。對硬件、軟件供應商的實施和售后服務能力進行詳細的要求,并準備對應預案。
2.2.7 經濟性:以較高的性價比規劃、設計和建設數據中心供配電系統,達到投入產出比最大值,確保數據中心安全運營的基礎上合理降低Capex和Opex。
2.2.8 節能與環保:供配電規劃和設計要采用高效的供配電技術,實現充分的節能與環保要求,實現綠色數據中心。
AI智能算力數據中心建設要求應滿足GB50174 - 2017《數據中心設計規范》在附錄“電氣”中規定:A級數據中心應滿足容錯要求,可采用2N系統,也可采用其他避免單點故障的系統配置。A級數據中心供配電系統主要有3種架構:2N、DR、RR[2]。
3.1.1 2N供配電系統。由兩個供配電單元組成,每個單元均能滿足全部負載的用電需要,兩個單元同時工作,互為備用。正常運行時,每個單元向負載提供50%的電能,當一個單元故障停止運行時,另一個單元向負載提供100%的電能。這種多電源系統冗余的供電方式,克服單電源系統存在的單點故障瓶頸,增加了供電系統可靠性。但是由于設備配置多、成本高,通常情況下效率比N+X系統低。
3.1.2 DR供配電系統。DR是Distribution Redundancy的簡稱,意思是分布冗余。由N(N ≥ 3)個配置相同的供配電單元組成,N個單元同時工作。將負載均分為N組,每個供配電單元為本組負載和相鄰負載供電,形成“手拉手”供電方式。N=3的DR系統正常運行情況下,每個供配電單元的負荷率為66 %。當一個供配電系統發生故障,其對應負載由相鄰供配電單元繼續供電。
3.1.3 RR供配電系統。RR是Reserve Redundancy的簡稱,意思是后備冗余。由多個供配電單元組成,其中一個單元作為其他運行單元的備用。當一個運行單元發生故障,通過電源切換裝置,備用單元繼續為負載供電。
3.2.1 可用度對比。采用電氣分析軟件ETAP對2N、DR、RR 3種架構的可用度進行分析。
從可用度數值來看,2N、DR、RR 3種架構的可用性大致相同,2N系統可用性最高。

表1 三種架構可用度對比表
3.2.2 成本對比。建設成本、運行成本(電費)對比分析如下表所示(假設2N系統為A)。

表2 三種架構成本對比表
建設成本2N系統最高,DR系統比2N系統低9 %,RR系統比2N系統低15 %;運行成本RR系統最高,DR系統最低。
3.2.3 系統架構、物理隔離、運維難度對比。

表3 三種架構復雜性、隔離、運維難度對比表
2N系統架構簡單明了,容易實現物理隔離,日常運行維護難度最低;RR系統架構最復雜,日常運行維護難度很高,設備切換需要依靠自動控制系統完成,手動控制難度很大,需要很強大的運行維護團隊進行運維保障,對運維專業度要求很高,優點是成本低[3-4]。
綜上所述,高算力數據中心供配電架構按照當前主流的2N架構設計往DR方案演進2+1方案,后續持續演進到3+1是可行的,如進一步加強運維保障團隊則可在確保供電可靠性的基礎上進一步優化成本。
目前服務器的分布式供電方案基本采用標準通用冗余電源(Common Redundant Power Supplies,CRPS)電源,通用服務器通常采用2個(1+1)12V輸出CRPS的方案,GPU服務器可采用6個(3+3或者4+2)54V輸出 CRPS(給GPU供電),再加2個(1+1)12V輸出CRPS的方案(給主板供電)。
服務器集中式供電方案通常采用計算機電源(Power Supply Unit,PSU)設置,采用10+2或者11+1的冗余設計,額定功率可以達30~33kW,單個PSU功率為3kW;具備集中式電源管理功能,可以兼容19”和21”服務器布置,預留接口兼容冷板液冷服務器。PSU兼容交直流輸入(AC 220V、DC 240V),內建ATS功能,可以預設兩路輸入的工作狀態控制兩路輸入的轉換。監控單元具備實時數據匯報、PSU狀態監視和工作狀態控制、在線升級等功能[5]。
4.3.1 供電效率:目前的CRPS方案的理論效率最高值為94%。在GPU應用場景下,PSU供電鏈路采用集中供電效率為95.5%,相比CRPS方案可提升1.5%。
4.3.2 電源總容量:CRPS采用2N的冗余,集中供電采用N+X的冗余。總電源容量以單柜30kW布置為例,CPRS方案需要配置60kW的電源;集中電源按常見布置為N+2的冗余,總電源容量為36kW,即采用集中供電,電源總需求容量降低40%左右。
4.3.3 成本:目前的集中電源產業鏈不成熟,供應量低,效率與鈦金電源相同;產業鏈成熟后,按照物料成本至少可以做到現在的85%,降本空間較大。
綜上所述,集中式供電方案電源效率更高,對電源總容量要求更低,后續的成本優化空間也較大,在AI算力的GPU服務器供電上有較高的應用價值。
AI智能算力云計算數據中心的設計難度較大,雖行業內陸續出臺了相應的參考標準,也開展了一些技術探索,但在具體的設計過程中相關人員需從AI高算力的特點著手,優化設計理念,提升數據中心供配電系統的適配度、可靠性和單位算力的降本能力。