文|任華華
?
IDC運營的大數據分析與DCIM
文|任華華
隨著移動互聯的快速發展和大數據和云計算的出現,成百上千棟數據中心拔地而起,海量的數據已悄然產生,并潛移默化地影響著我們生活中的點點滴滴。當我們出行時,參考高德地圖的交通數據;當我們餐飲時,打開大眾點評查看評論數據;當我們購物時,淘寶網的消費數據分析會推送符合我們傾向的商品。生活中的小事尚且需要大數據的分析,IDC運營這樣一件嚴肅而又嚴謹的工作,同樣需要大數據分析。
所謂IDC,就是為電子信息設備提供運行環境的場所,包括數據處理、數據傳輸和網絡通訊等IT基礎設施,同時包括為IT設備服務的電力、空調、傳輸管路等場地基礎設施。通過合理的IT架構和對場地基礎設施完善管理,提供良好的IT環境,保障IT設備的正常有效運轉、保障業務的順暢進行和服務的及時提供。
一個典型的IDC如下圖1-1:

圖1-1 典型IDC組成圖
從圖1-1可以看出,IDC是一個復雜的綜合體系,需要進行科學的管理,以保證其能正常運營。可以這樣理解“管理”二字,“管”意味著決策與執行,“理”意味著整合與分析數據。“理”是手段,“理”的功能為采集數據;“管”是目的,“管”的功能是根據“理”的數據分析結果進行決策和執行,進行運維操作。
管理需要數據,如何獲取IDC運營數據呢?如圖1-2所示,IDC的電力監控系統會得到到柴油發電機、燃油、市電、變壓器、UPS、電池、高壓直流、開關狀態、PDU電量等系列數據;制冷空調監控系統會得到冷機、冷塔、水泵、板換、精密空調、冷熱通道溫度、自然冷卻的運行時間、PUE、WUE等系列數據;消防與安防監控會得到人流、物流等系列數據;ITSM系統得到服務器上架、流程進度等數據。
這些數據有的進行了分析,形成了報表,如圖1-2中左一圖片所示的設備電量波動趨勢,左二圖片所示的自然冷卻分析,但是大量的數據還停留在初級采集階段,并未形成綜合分析與報表。例如,冷凍水泵的變頻器發生故障,可能會直接影響冷機運行,但報警信息只顯示在電力監控界面上,不對制冷運維人員開放,導致制冷運維人員不能在第一時間得到通知,無法快速響應故障。又如,制冷系統中的蓄冷罐溫度異常可能由冷機故障引起,也可能由冷機專用變壓器或開關故障引起,此時只分析蓄冷罐的溫度數據或者只分析冷機的狀態數據是不夠的,還需要跨系統分析電氣系統的冷機配電開關和變壓器狀態的數據庫。
因此,IDC有效運營迫切需要對獲取到的大量獨立、離散的數據進行分析,需要對數據進行跨系統整合、關聯、統計與挖掘。

圖1-2 獲取數據的方式與途徑
為了順應IDC運營跨系統數據關聯、分析的需要,DCIM(Data Center Infrastructure Management數據中心基礎設施管理)應運而生。DC IM概念起源于國外,不同的機構對其有不同的定義,但得到基本認同的觀點是:DC IM是一座溝通場地基礎設施和IT基礎設施之間關系的橋梁,能夠幫助數據中心管理人員更高效的運營數據中心。
G a r t n e r對D C I M的定義:D a t a c e n t e r in frastructure m anagem ent (DCIM) too ls m onitor, m easu re, m anage and/o r con tro l da ta cen te r utilization and energy consum ption of all IT-related equipm ent (such as servers, storage and networksw itches) and facility in frastruc ture com ponen ts (su ch as pow e r d is tribu tion un its [PDUs] an d computer room air conditioners [CRACs]). 數據中心基礎設施管理(DC IM)工具可以監控、測量、管理和控制數據中心所有IT相關設備(比如服務器、存儲和交換機)和基礎設施相關設備(比如PDU和精密空調)的使用情況及能耗水平。
451 G rou p對DC IM的定義是:A d a ta cen te r in frastruc tu re m anagem en t system co llec ts and m anages in fo rm a tion abou t a da tacen te r’s assets, resource use and operational status. This information is then distributed, integrated, analyzed and app lied in w ays tha t he lp m anage rs m ee t business and service-oriented goals and optim ize the datacenter’s performance. 數據中心基礎設施管理系統收集和管理數據中心的資產、資源使用以及運行狀態的信息,然后分發、整合、分析、使用以幫助數據中心管理者滿足業務和服務導向的目標,優化數據中心運營。
DC IM定義中的In fras tru c tu re,業內比較通用的認知是:基礎設施(in fras tru c tu re)=場地基礎設施(site facility in frastructure)+ IT基礎設施(IT infrastructure)
DC IM的主要價值就是在于打通場地基礎設施和IT基礎設施(硬件層)的組織和信息斷層、打通場地基礎設施各子系統的數據庫,采用統一的平臺管理場地基礎設施如UPS、空調以及IT基礎設施如服務器,并通過數據的分析和聚合,最大化數據中心的運營效率以保證數據中心的可用性和業務的連續性。
(一)可靠運維
IDC運營的第一要務是保證7×24×365不間斷可靠運行,如果出現故障須即時處理,以減少事故歷時、降低故障帶來的損失和風險,因此IDC運營需要重點關注設備故障。DCIM可對故障期間的數據進行記錄、整理、統計、分析,尋找故障發生的誘因和共性,探討縮短故障歷時的途徑;通過利用DC IM對數據進行分析,可以幫助運維人員提前診斷哪些設備處于亞健康的狀態,進而可預測故障、提醒運維人員提前排查故障,降低風險。

表3-1 關鍵設備平均無故障時間與故障率
如表3-1所示,DCIM可匯總、統計、分析關鍵設備如冷機、冷塔、水泵、開關、變壓器、UPS等的平均維護時間、平均無故障時間和每月實際運行累計故障率。如果數據分析顯示某一組電池的月故障率突然高于平均值,則有理由懷疑這組電池近期可能出現故障,提醒運維人員提前對這組電池進行維護和更換,從而避免故障的發生,減少宕機的可能。

圖3-2 海恩法則
關于可靠性,圖3-2是著名的海恩法則,即一次嚴重事故之前可能有1000起事故隱患、300起未遂先兆、29次輕微事故。DCIM的橫向數據分析可以幫助運維人員在隱患階段排除故障的可能。如制冷空調系統的環境溫度監測,當溫度超出限定值時,系統告警,但是等到系統告警往往為時過晚,局部熱點極易導致宕機;然而電氣系統的PDU電量監測可預警告空調的局部熱點,例如某列機柜PDU電量持續徘徊在高位,則運維人員可以預判附近可能出現局部熱點;通過提前加速周邊空調的EC風機,避免局部熱點的出現,減少宕機風險。
運維的可靠性常常需要多個子系統聯合保障。例如暖通制冷監控系統(BMS)須準確感知電氣系統中冷機的配電狀況,并在冷機掉電或其他緊急工況時,平穩切換至應急冷源供冷,保障服務器的冷量持續供應;在應急冷源放冷完畢時,BMS須自動切換應急冷源至再次充冷。DCIM可橫向整合電力監控、暖通制冷監控的數據,實現數據的互聯互通,避免各子系統監控自成體系,執行子系統命令時影響到其他子系統的安全運行,從而影響整個IT環境的穩定可靠。

圖3-3 服務器平均電量數據分析
DCIM通過對連續監測的IT電量數據進行匯總、分析和比較,發現某IDC大部分機柜服務器運行在5kW左右的平均值,而個別機柜服務器電量維持在2kW左右(如圖3-3所示)。可想而知,這樣的服務器對計算資源的貢獻非常有限,極有可能是僵尸服務器。運維人員可據此優化服務器的配置及軟件架構,或移除服務器另作他用。可見,DCIM數據分析可幫助IDC運維人員優化IT資源配置。
(二)綠色節能
IDC能耗巨大,綠色節能是IDC運營的重要課題。通過DCIM進行橫向數據分析,可以幫助IDC運營優化,達到節能目的。例如,某IDC的設計IT負荷為5000kW,采用冷卻塔串聯板換的水側節能,如圖3-4,滿載時濕球溫度4℃開始自然冷卻。鑒于服務器是分批上架,IDC也是分期部署,如果一期IT負載率低于某設定值如3000kW,則DCIM可建議運維人員設定濕球溫度6℃或7℃開始自然冷卻,從而延長自然冷卻的時間,縮短電制冷的運行時間,達到節省制冷系統電耗、降低PUE、節能運行的目的。
IDC的規劃、設計、建造都是按照IT滿載做的,實際運行往往是變工況運行,通過DC IM進行綜合數據分析,可根據運行動態數據分析結果改變設定值。如最初的空調送風溫度設定為18℃,冷通道溫度上限設定為22℃,運行一段時間后,系統監測到機房冷通道的溫度普遍持續低于22℃,則可以提醒運維人員嘗試提高送風溫度設定值為20℃,甚至冷水機組的供水溫度也可提高。冷凍水供水溫度每提高1℃,冷機效率提升2~3%,自然冷卻的運行時間也可相應延長,如此可實現節省制冷系統電耗、節能運行的目的。
(三)決策依據
DC IM通過對運維數據的動態收集、分析以及監測,為新建IDC的決策提供輸入。
IDC管理三元素SPC中,S指空間、P指供電、C指冷卻。DC IM收集到U位的總數據,已占用U位的數據,兩者相減就可得到可用的U位空間;同樣操作依次可以得到可用電力、可用冷量,詳見圖3-5。通過對SPC三個數據庫的聯合分析,運維人員可以確定上多少臺服務器,在哪些U位空間進行擺放。由此可見DCIM可幫助IDC運營工作科學決策。
類似案例很多,如某企業某類業務的IDC,一期規劃設計采用百分之百的滿負荷進行基礎設施的容量規劃和平面設定。然而DC IM監控到的常年運行數據表明,此類業務平均運行在70%左右的負荷,峰值也不會超過80%。同樣業務的下一個IDC規劃中,就可以把IT的負載率設定為80%,則可以縮減基礎設施的容量、節省基礎設施初投資。可見,DCIM可幫助IDC優化配置,節約成本。
又如某企業某類業務在某一線城市采用雙路市電加柴油發電機的冗余方案,但DC IM多年的運行數據表明市電從未斷電,電網可靠性達到5個9,甚至更高,則在下一個IDC的規劃中可考慮優化架構為一路市電加柴油發電機的方案。可見,DCIM可幫助IDC規劃優化設計方案。

圖3-4 冷卻塔串聯板換的水側節能

圖3-5 Space Power Cooling(SPC)管理
大規模IDC存在多套監控管理子系統,如電力監控(EPMS)、暖通制冷監控(BMS)、消防與安防監控、ITSM等,每個子系統都有自己獨立的數據采集、統計、分析和執行等裝置,完成某項獨立的功能;但是IDC的整體運營需要這些子系統的數據橫向整合、縱向挖掘、綜合分析;數據不進行分析,就只是數據,無法對運營產生價值;DC IM對各子系統的數據進行篩選、整合并加以關聯、挖掘、分析,進而根據大數據分析的結果提出運維建議、優化運行能效、降低故障風險、提升IDC運營效率,為運維人員提供科學決策的依據。
此外,通過DC IM進行數據分析,可以實現其他更多的功能。如圖4-1所示,可以實現成本管理、規劃管理、工單管理、容量管理、可靠性管理、能效管理。如圖4-2所示,可以關聯故障與應急預案實現告警管理,可以關聯資產與容量管理實現變更管理,可以匯總技術規范與運維手冊實現知識庫管理,可以供應商管理與二維碼對應的方式實現供應商管理,可以從能效管理進一步提升為計費管理,可以把巡檢的主動式運維流程化變成工單管理。
運用DCIM進行大數據分析是提升IDC運營核心競爭力的有效手段,如圖5-1所示,可以幫助IDC運營增能效、減成本、助運維、輕風險,是科學管理運營IDC的必殺技。IDC運營即將進入大數據分析的時代,DCIM是進行大數據挖掘與分析不可或缺的工具,亟需針對運維需求進行深度開發和有效運用。

圖4-1 DCIM的大數據分析的多種可能

圖4-2 DCIM的大數據分析幫助IDC運營的方式

圖5-1 大數據分析的核心價值
作者單位:阿里巴巴集團技術保障部