于謀川, 王建民
(昆侖數智科技有限責任公司,北京 102206)
2020年,數據中心建設被列為國家新基建戰略,成為支撐現代信息化產業海量數據分析與處理的重要基礎設施。然而隨著其規模、容量和功率密度成倍增長,能耗居高不下的問題愈發凸顯。目前我國數據中心年用電量占全社會用電的2%,超過三峽大壩的年發電量,且仍在快速增長[1]。在2030年實現碳達峰、2060年實現碳中和的背景下,數據中心正面臨嚴峻的節能降耗和溫室氣體排放挑戰,如何推進數據中心綠色節能成為重中之重的任務。
新基建和“雙碳”的形勢下,對數據中心提出新發展要求。2021年7月,工業和信息化部印發《新型數據中心發展三年行動計劃(2021—2023年)》,要求數據中心加快向以高技術、高算力、高能效、高安全為主要特征的新型數據中心演進[2],其中“高能效”即是對數據中心提出綠色節能的要求。
數據中心的能耗貫穿其全生命周期過程,推動數據中心綠色節能有多種可行方式。其中,在規劃階段,可以考慮高效清潔能源的利用,如鼓勵探索建設分布式光伏發電、燃氣分布式供能等配套能源系統等。在設計和建設階段,可以考慮增加先進綠色技術產品的應用,如采用高效IT設備、分布式供配電、液冷、自然冷源等系統設計方案[3]。而數據中心運維階段是其全生命周期過程中周期最長、能耗最多、同時也是節能空間最大的階段,加強和優化運維階段的綠色管理能力,對于實現數據中心的綠色節能發展至關重要。傳統數據中心對于運維階段管理節能和系統節能考慮不足,大量使用單一功能的自動化系統,主要作為設備狀態監視和自動控制使用,無法實現對底層數據歸集與分析,導致無法實現精細化運維和科學管控,對數據中心節能管理造成負面影響。
隨著人工智能、物聯網技術快速向各行業滲透,節能領域的理念也已經發生了翻天覆地的變化。數據中心以其龐大數據體量和能耗現狀,成為AI重要的應用領域。在人工智能的時代,AI節能成為數據中心實現持續化節能的重要途徑。
智能運維(Artificial Intelligence for IT Operations,AIOps)指的是將AI應用于運維領域,通過機器學習從而發現和解決傳統的自動化運維無法解決的問題[4]。智能運維有三大能力特點:一是數據感知,包括數據采集、存儲、預處理,為AI 分析提供訓練和推理所需的基礎數據;二是AI分析,包括訓練和推理兩大能力,使用人工智能技術來訓練數據,生成各場景所需的算法模型,為各類策略提供支撐,同時也可以使用訓練出來的AI 模型進行應用推理;三是意愿洞察,實現用戶意愿的識別、轉譯、驗證和保障等功能,在自動化管控系統的配合下,精準實現用戶意愿。
數據中心智能運維平臺典型系統架構[5]可分為:采集層、綜合管理層、展示層。
(1)采集層:接口模塊將數據中心各個子系統采集到的數據進行協議和信息模型轉換,將“事件”“告警”“資源”等數據轉換成智能化系統可識別的、統一的數據模型,接口適配層與上層應用層之間的接口協議采用統一的內部協議。
(2)綜合管理層:由服務器和管理軟件組成,實現邏輯處理分析、數據存儲和應用服務功能。實時接收數據及告警信息,經過相應的邏輯處理分析后存儲數據,提供向上的應用服務供用戶端使用,提供數據存儲、記錄告警事件,并以各種不同的方式輸出告警。
(3)展示層:由管理終端、顯示終端及告警設備組成,為用戶提供人機交互界面,可生成各種報表,實現日志功能及權限管理等功能。
數據中心智能運維平臺通過“監控、運維、資產、能效”四類功能模塊[6]呈現主要功能。
(1)監控:通過數字化3D實現數據中心全鏈路可視。通過南向北向集成數據中心子系統,實現設備的實時監控和多子系統的集中管理。
(2)運維:通過建設與實踐兼容的維護模板庫,用戶可以通過不斷定制模板和流程,實現標準化、數字化運維,并可以將專業知識、維護經驗和技能數字化,實現共享和持久化。
(3)資產:通過對數據中心資產設備的狀態全程跟蹤,實現資產的全生命周期管理。同時,利用精細化容量管理,高效地匹配空間、電力、冷量和網絡等維度容量使用情況,提升數據中心資源利用率。
(4)能效:利用AI技術,實現對數據中心的看、診、調、優,通過對能耗數據分析處理,將復雜設備參數轉化為直觀化分析計算結果,指導能耗優化方向。
數據中心能耗最大的地方,主要集中在IT設備能耗和制冷空調能耗(制冷機組、水泵、管路系統、機房空調等),其中IT設備能耗占比50%、制冷空調能耗占比30%、UPS能耗占比15%、照明和新風能耗占比4%、弱電能耗占比1%。
一般而言,降低數據中心能耗,著重在于制冷空調功耗的優化降低,以及IT設備功耗優化。隨著政策的落地加上產業界的不斷的努力,我國數據中心在能耗控制以及PUE控制上已經取得很大進步。其中,通過智能運維的方式,在制冷空調系統、IT設備運行、智能照明以及其他多個方向實現成功的節能研究。
2.3.1 從“制冷”到“智冷”
制冷空調系統是降低數據中心基礎設施能耗的關鍵所在,在制冷空調系統節能管理方面,傳統手段無法滿足要求,而AI恰恰可以提供新的管理方向。
(1)AI應用
將AI深度學習算法以智能運維平臺的形式應用在數據中心,通過軟硬件深度耦合,分數據采集與上傳、數據治理、模型訓練和推理運算四步實現制冷空調系統節能。
1)數據采集:AI算法依賴于數據中心提供的大量訓練數據,數據量的多少直接決定了AI算法的準確性。數據中心智能運維平臺將各項基礎設施進行統一管理,周期性將采集到的海量數據(包括暖通系統、電力系統、環境參數等)上傳到AI系統,提供運算基礎。
2)數據治理:數據中心的數據量龐大復雜,如何在大量數據中找到“正確”的數據,是提升AI精度的關鍵。平臺對采集上來的海量數據進行特征參數自動識別,并根據參數業務特性進行聚合分析,提取出影響能效指標的主要特征值參數(如室外溫濕度、冷機數量、冷凍水供回水溫度等)。
3)模型訓練:首先對數據中心進行PUE模型訓練,通過建立PUE與室外環境、IT負載、暖通系統控制參數之間的因果關系,利用神經網絡對PUE進行擬合,將提取到的特征參數輸入到包含多層隱含層的深度神經網絡中,進行自適應學習。然后進行控制策略優化模型訓練,建立基于強化學習的能耗最小化的策略模型,根據歷史數據生成潛在控制策略,并利用PUE數字孿生模型對策略進行評價,結合控制策略約束條件,最終完成控制策略優化模型的訓練,尋找符合約束的能效最優控制參數。
4)推理運算:AI系統以PUE模型為約束條件,實時采集的數據作為輸入量,平臺從控制參數空間高效識別出能效最優的制冷控制參數組合(如提高水溫、增加冷水機組運行數量等),下發到運維平臺,通過運維專家判斷控制參數的合理性,并進一步通過群控系統執行控制動作。控制參數經過AI系統、運維專家、群控系統三重過濾,確保下發質量,保障數據中心安全穩定運行。
(2)工作模式
基于AI算法,智能運維平臺可以為制冷空調系統提供普通控制和節能控制兩種工作模式。在普通控制模式中,群控系統自動執行所有控制邏輯,包括設備加減、頻率調節、制冷模式切換、旁通、蓄冷水罐充放冷等,智能運維平臺僅進行狀態信息采集監控。在節能控制模式中,群控系統接受智能運維平臺下發的一組節能控制參數,如溫度(冷卻塔出水溫度、冷凍水供水溫度)、設備運行數量、溫差/壓差等控制環路目標值等。群控系統根據平臺下發的指令進行動作,未下發控制指令的仍由群控自行控制。
(3)應用效果
早在2013年,國外企業就已嘗試用AI控制水冷來對大型數據中心進行節能。而后國內IDC頭部企業也基于AI對大型數據中心制冷空調系統進行優化控制,取得良好的應用效果[7]。通過智能運維的方式,可以在不改變數據中心硬件、產品配置的基礎上,對溫控全鏈路智能管理,同等條件下PUE降低7%~18%,實現數據中心從“制冷”到“智冷”的進化。
2.3.2 IT設備運行節能
(1)機房環境參數采集及AI節能優化:以機器人對機房環境參數和IT設備運行數據進行采集,通過平臺進行數據處理、熱點與氣流分析、模型計算,得出實施機房氣流組織優化、空調系統的最優調整控制策略,并對策略結果預分析,在保證安全的前提下進行節能調整。
(2)服務器低耗運行:平臺自動監控當前服務器的資源使用情況,并根據業務負載將服務器的電源、處理器、風扇等部件動態調整到低功耗運行狀態,實現按業務需求供電,將服務器用電損耗降到最低。
(3)機房容量管理:通過平臺監測機架空間容量、耗電容量和冷量現狀,通過容量綜合分析指導管理人員增加機架密度,提升資源利用率和優化熱量分布情況,讓機房的各類資源負載更加均衡。
(4)僵尸服務器清理:通過能耗監測,智能識別低負載或零負載的僵尸服務器,指導設備關停,降低能耗浪費。
2.3.3 智能照明聯動控制
在大型數據中心設計中,多配備了燈光照明控制系統,在傳統模式下,智能照明多為單系統自動運行[8]。
通過智能運維平臺,使照明系統能通過接口、協議對接機房動環系統,實現樓宇自控、安防聯動。
系統可以進行多模式開啟,如設置全開模式、分區域模式、值班照明、夜間照明等;還可通過對人和物體的感應,實現人來燈亮、人走燈滅的控制。通過聯動控制的方式,深度減少照明系統電能消耗。
2.3.4 其他節能應用
(1)指導購電:采用聚類分析和決策樹等算法建立能源預測模型,基于負荷預測進行需量申請、電力交易(購售電)、需求響應,避免購電申請不合理導致多付電費(或高額罰款),為園區能源優化調度和電力交易提供決策依據。
(2)識別功耗/溫度故障:結合功耗數據及溫度數據的環比數據,發現設備異常,提早預測機器故障。
(3)功耗管理:在預測用電情況、負載情況前提下,調整服務器用電策略、UPS用電策略,優化能源使用情況。
某公司通過應用智能運維管理系統,對制冷空調等系統進行智能控制,實現PUE值降低8%~15%。
(1)系統技術功能特性
該系統基于對整個數據中心的運行數據進行采集、訓練和推理,找出決定數據中心PUE的數學模型,從而計算出各種環境下最佳節能策略,根據負載變化實時下發調節指令,可以做到系統級的能效最優。首先是數據采集,通過700+數據采集點,實施監測制冷系統運行狀態;然后進行數據治理,從海量數據中選出19+2PUE特征參數;經過模型訓練,PUE預測準確率達99.5%,誤差<0.005;最后進行推理決策,最小推理周期1h,節能效果達到8%~15%。
(2)應用案例概述
廊坊某云數據中心共4 000個機柜,單機柜平均功率8kW,負載率為70%。在全部部署了智能運維管理系統并實施4個月后,相較于原制冷系統,數據中心PUE值明顯下降,PUE由1.42降低到1.25,年節省電量3 336萬kW·h。
