吳旭光,蔡俊彬,吳 楠
(1.中國移動通信集團廣東有限公司汕頭分公司,廣東 汕頭 515041;2.廣東技術師范大學財經學院,廣東 廣州 510400)
隨著數據中心在網絡中的核心地位凸現,運營商對數據中的運維要求越來越高,現場運維人員的行為需要管理、運維表格的填寫越來越多。在這種壓力下,現場人員的技能、運營質量無法保證,質量、成本、效率上的平衡也越來越難。按照目前的運維管理手段,難以符合業務迅猛發展的要求。
目前,數據中心的各類種運維數據分散于各個系統,而按照能源分析的策略,是需要結合多方數據,包括動力環境、溫濕度、設備功率情況、日常使用峰谷等內容。現實情況是綜合數據分析只能依靠人工結合,無法利用AI 等方式實現智能分析調節,缺乏數據基礎。
數據中心基礎設施綜合管理平臺,以“一中心、一個平臺、三大模塊”為整體架構,分別是以數據分析中心DCDB 為根基,將數據中心所有運維數據和設備運維數據統一存儲和管理,圍繞基礎設施管理平臺DCIM 為核心,將數據中心風火水電等基礎設施進行統一管理和展示,在此之上根據日常運維管理、資源管理及服務管理需要,構建運維管理模塊(DCOM)、資源管理模塊(DCRM)、服務管理模塊(DCSM),突破以往粗放式管理手段,形成數據中心的信息化、智能化、精細化的管理新平臺,為AI 智能決策打造綠色數據中心、降低PUE 提供基礎,如圖1 所示。
該平臺具備如下5 個特點。
(1)整體智能規劃:統一數據資料,標準化數據格式,對節能運維智能決策提供數據基礎。
(2)統一管控管理:以基礎設施管理DCIM為基礎,在實現基礎設施統一管理之上構建服務管理、運維管理及資源管理,減輕維護壓力,實現人員精細化管理、統一化管控,提升整體運維水平。
(3)資源可視化:降低運維難度,實現售前資源分配智能化、故障定位精準化、設備維護高效化的目的。
(4)服務多渠道:提供對外服務官網、微信公眾號、語音通道等接入渠道,提升客戶服務感知,做強云計算品牌。
(5)智能輔助節能調控:結合動環數據和運維數據,利用人工智能進行分析,由平臺給出節能運維建議,前期實現人工調整,最終將節能運維操作反向推給DCIM,接入BA 系統,實現自動化調整機房溫濕度,降低整體PUE 值,達到節能減排的目的。
2.2.1 資產條精細化管理機架資源
本系統在機架上增加智能U 位條,通過采集器將機柜內的設備資產、U 位占用情況、濕度、溫度等信息采集并傳送到服務器,實現圖形化界面維護資產信息,通過資產監測條對機房內機架設備及其所有U 位進行自動管理。對未經授權的資產遷移,系統可產生報警,不用擔心服務器亂擺亂放。圖2 為U 位連接管理原理圖。
2.2.2 AI 算法實現PUE 調控

圖1 各平臺間數據交互情況
在運維達到一定的成熟度后,人力或者專家的經驗已經無法滿足能耗進一步降低的要求。例如,冷通道溫度的較小提升都會導致制冷系統的很多變化:冷機、冷卻塔、換熱器、水泵等的功耗都將增減不定,且非線性變化,其結果很可能是冷通道溫度提升而總功耗增加。制冷和電氣系統之間的相互作用和各種復雜反饋回路,造成使用傳統的工程公式難以準確推導數據中心的效率。
為進一步優化系統工作狀態與能耗的關系,需實現兩個優化,一個是設備工作狀態與能耗的優化,另一個是設備組成的系統間的優化,進而才能實現AI 算法進行節能調控(見圖3)。該算法基于5 大類數據、500+參數輸入進行AI 計算優化,通過收集風火水電、IT 負載等多維數據,利用DNN 建模,精確預測PUE采用深度強化學習訓練,對接控制系統,形成閉環,自動求解最優PUE下的參數調節,調節時長短,精度高。相關原理如圖4 所示。
目前,廣東移動所研發的基于AI 技術的新一代DCIM 管理系統已經在中國移動(廣東、汕頭)數據中心部署并應用,通過半年的試運行,預計可降低PUE1%~3%,年節約電費約120 萬元。
2.3.1 3D 可視化監控
3D 可視化監控對機房進行全方位建模,實現機房、配電、空調、機柜的建模,并對機柜內部服務器設備建模,可進行可視化監控管理。各模塊均是組態配置,可根據用戶需要進行個性化定制,也可以隨著數據中心的改造和擴容而不斷更新,保證監控系統與數據中心實際機房場景管理緊密結合,支持分域分權,展示中國移動通信集團數據中心運營管理的軟實力。圖5為3D 可視化監控截圖。
2.3.2 容量管理
容量管理實現對數據中心的基礎設施的容量進行實時監測、容量規劃和容量分析等子功能,主要監控容量四要素(空間、電力、制冷、網絡)。針對動力部分,通過監控衡量機架的功耗峰值,壓榨機架能耗空間,使其盡可能上架更多設備,滿足自身業務發展的需求。圖6 為容量管理截圖。
2.3.3 監控管理
監控管理包括了綜合視圖、動環、暖通、網絡監控告警,視頻的檢測監控,實現對數據中心的全范圍監控管理,并支持閾值設置和告警收斂,實現統一監控的功能。圖7 為監控管理截圖。

圖2 U 位連接管理原理圖

圖3 AI 技術在節能管理的應用
2.3.4 U 位條自動管理
本系統通過在機架上增加智能U 位條+資產檢測條方式實現對機房內機架設備及其所有U 位進行自動管理,使運維人員對數據中心U 位占用情況一目了然。圖8 為上下架及U 位管理條管理截圖。
2.3.5 風險管理

圖4 系統降低PUE 值

圖5 3D 可視化監控截圖

圖6 容量管理截圖
本系統通過對設備全生命周期管理,將所有運維操作的風險進行分級管理,并通過運維經驗庫的更新管理,不斷更新優化每個風險對應的應急解決方案,使得運維的風險級別越來越低,提升運維的質量。圖10 為風險管理截圖。
2.3.6 能效管理
本系統構建了用于預測數據中心PUE 的神經網絡。系統通過海量歷史數據對PUE 預測模型進行訓練,使其具有精準的PUE 預測能力。基于該能力,智維平臺一方面使數據中心運營人員可以洞察各個運行參數與PUE 的關系,進而有能力評估運行參數變化對PUE 的影響;另一方面,系統基于該預測模型,可以進行智能分析,自動尋找系統最優運行參數方案,提供節能優化策略。圖10 為能效管理截圖。
2.3.7 巡檢管理
巡檢管理通過NFC 標簽,實現人員定點定位進行巡檢作業,巡檢內容可通過自定義方式定義異常范圍,方便生成對應的事件故障情況,規劃巡檢路線,更好完成日常巡檢作業內容,防范于未然。圖11 為巡檢管理截圖。
工作臺功能打造集中化工作管理新模式,集監控、告警處置、演練處置、事件處理、服務受理于一體,支持派發到下層節點進行工單處理,實現ITIL 標準化多層事件的閉環管理,支持多方面統計考核,有效提升故障監控處理效率。
U 位條自動管理功能實現對機房內機架設備及其所有U 位進行自動管理。對未經授權的資產遷移,系統可產生報警,不用擔心服務器亂擺亂放。系統實現對資產的全生命周期進行管理,包括出入庫、上下架、維修、位置變動、報廢回庫等。
監控管理功能實現對基礎設施、網絡服務、資源容量信息等多層次多方面的監控,部分實現了告警智能收斂規則管理,有效在突發故障或將要故障前進行告警并提醒處置,主動出擊,將故障扼殺在萌芽階段。
整體平臺構建了智能巡檢、智能排班、電子化演練、維護管理、上電管理等全數字化運維功能,結合實時監控、風險管理,實現全數據中心運維數字化、智能化,縮減人力,提升運維效率和整體運維質量。

圖7 監控管理截圖

圖8 上下架及U 位管理條管理截圖
客戶管理功能對租戶所租用的資源使用情況進行分析,基于客戶的使用機架、帶寬流量、設備用電量等,形成價值客戶象限圖,將客戶價值量化,實現客戶價值分析,助力業務發展;電力成本核算功能結合當前電價計費策略,核算出相應客戶的單機架用電成本,并按月生成對應客戶逇能耗成本核算報告,為數據中心的建設及銷售營銷拓展提供經營決策的數據支撐手段。
本系統通過日常巡檢、維保、告警等相關事件,對數據中心的風險項沉淀積累,實現風險分級管理,通過審核-處置-確認-入庫的閉環管理模式,實現風險預防。
本系統通過人工智能算法構建了用于預測數據中心PUE 的神經網絡。該神經網絡使數據中心的PUE 得到不斷降低,達到節能的最大效果。
4.1.1 防控風險
2018 年底,粵東數據中心風險問題處置項共計21項,涉及動力、暖通、IT、消防等內容。通過平臺巡檢后將問題沉淀積累,截止2019 年,共計發現問題記錄共計65 項,跟進閉環管理65 項,其中解決56 項,因現場原因掛起9 項,配備應急管理措施和臨時解決方案,中高風險0 項,對數據中心整體風險隱患問題處置達到100%閉環跟進,確保數據中心的穩定運行。

圖9 風險管理截圖

圖10 能效管理截圖
4.1.2 提升機架利用率
截止2018 年底,粵東IDC 共計機架數N 個,已上架機架數N 個。通過U 位精細化管控和機架推薦,在散熱允許的情況下,降低了U 位的碎片化情況,使原本人工分配機架位置通過機器分配建議來輔助分配決策,釋放將近200 個機架資源,在自有配套項目和客戶業務增加3 倍的情況下,提升了機架利用率約20.12%,提供出更多的機架資源滿足業務拓展的需要。
4.1.3 節約人力
2018 年,駐點運維人員為30(動力維護人員)+23(IT 維護人員),月度運維人力成本約為60.09 萬元。通過DCIM 平臺,將專業經驗固化為數據沉淀,通過定位演練、實地巡檢,減少了抄表、對照等繁雜耗時操作,讓人力投入到實際關注的容易出現風險的巡檢點上。至2019 年底,運維人員縮減為15(動力維護人員)+20(IT維護人員),月度運維人力成本約為37.83 萬元,縮減成本22.26 萬,減少人數18 人,減少人力成本約37%。
4.1.4 降低PUE
粵東數據中心未上線系統前,投產共計N個機架,估計PUE 為1.8,即總能耗/IT 設備能耗為1.8,按照2018 年月用電量為165.46 萬度,共計月電費175.91 萬元。通過使用該系統降低PUE 達2%以上,即PUE 達到1.76,2019 年客戶業務量是去年的1.56 倍,月均用電量為238.96 萬度,月均電費為213.59 萬元,以類比情況下,平均約減少了7.42%用電量,降低了機柜成本,提升利潤空間。
4.2.1 精細管理,各個環節質量可控
通過RFID 標簽,利用工單系統,將巡檢、故障、維護等處理進行全流程記錄,掌控每個環節的時間,縮小一些懈怠人員的可乘之機,避免取證的麻煩,做到每個環節可監控,細化管理,提升整體人員的工作水平。
4.2.2 閉環服務,提升處理效率和服務水平
所有面向客戶的工作,均面向客戶進行滿意度調查,形成閉環管控,客戶對自己發起的任務均有跡可查,有效提升客戶感知。同時滿意度落到每個人的考核內,促進人員提升自己的工作效率和服務水平,預計提升客戶滿意度2~3 個百分點。
4.2.3 防控風險,保障業務平穩高速發展
網絡配置通過流程式的管理,和定期差異比對反饋,從源頭防控業務偷開的風險,對應信息通過RFID標簽直觀展現,精準定位問題,做到可控可防制,滿足相關法規對業務規范上的管理要求。將業務風險控制到最低。
4.2.4 節約人力,擁抱智能運維
利用機器完成力所能及的作業,如報告統計生成,自動測試等,替代較機械性工作,預計每個數據中心可釋放人力2~3 人,更好投入到其他運維工作中。
4.2.5 AI 決策,助力云計算業務拓展
融入人工智能和機器學習的方式,在推薦機架布局時利用特定算法,綜合各類型數據進行分析,提供最佳決策,輔助售前支撐的條件評估;同時結合維護作業,分析相關設備維護度,提供維護建議,做到主動發現,主動監控,主動處理,防范于未然。

圖11 巡檢管理截圖
計劃于2020 年起,在中國移動“4+45”數據中心園區中試點應用。通過試點后,在集團范圍內或向第三方推廣。預期將會節省5~7 個人力/數據中心,降低PUE1~3%,降低年均用電費4~5%。
本文介紹的“基于AI 技術的新一代DCIM 管理系統”是2019 年中國移動通信集團廣東公司在汕頭部署的創新項目,項目通過在中國移動通信集團(廣東、汕頭)數據中心部署云存儲網絡,實現對廣東移動多個數據中心風、火、水、電、網的集中監控,解決目前運維管理上存在煙囪運維模式的困局,后續將通過該系統實現整個廣東移動所有數據中心的集中監控。