
摘要:在國家“東數西算”工程及“數據中心發展三年行動計劃”的要求下,近些年國內數據中心也在如火如荼地進行。本文對DCIM系統的構建與功能要求進行了探討。
關鍵詞:數據中心;基礎設施;系統
工業和信息化部《新型數據中心發展三年行動計劃(2021-2023年)》的通知中提到:新型數據中心是以支撐經濟社會數字轉型、智能升級、融合創新為導向,以5G、工業互聯網、云計算、人工智能等應用需求為牽引,匯聚多元數據資源、運用綠色低碳技術、具備安全可靠能力、提供高效算力服務、賦能千行百業應用的新型基礎設施,具有高技術、高算力、高能效、高安全特征。
隨著新一代信息技術快速發展,數據資源存儲、計算和應用需求大幅提升,傳統數據中心正加速與網絡、云計算融合發展,加快向新型數據中心演進。同時提到至2023年底,全國數據中心機架規模年均增速保持在20%左右,平均利用率力爭提升到60%以上,總算力超過200 EFLOPS,高性能算力占比達到10%。數據中心基礎設施管理系統作為數據中心運維的基礎保障系統,其完善的功能和可用性是保障數據中心建設、維護的基本。
一、系統構成
本次考慮在數據中心智能建筑機房設置后臺服務器,主要包括數據庫/應用服務器、管理服務器、接口服務器等,如圖1所示。
各系統服務器設備統一接入智能建筑系統網絡核心交換機,構成系統的同時實現與智能建筑其他子系統的互聯。在后臺服務器中安裝數據中心基礎設施管理平臺軟件、告警處理軟件、PUE計算軟件等,并開發與建筑設備監控系統、安全防范系統、機房電源及環境監控系統、火災自動報警系統、電力監控及能源管理系統等相關系統的接口,實現各子系統數據統一采集。
二、設備配置
平臺包括2臺數據庫/應用服務器、2臺接口服務器、1臺管理服務器。在監控大廳設置監控大屏和2臺DCIM系統監控終端,滿足運維管理人員對數據中心基礎設施管理的需求。
三、軟件平臺架構及功能
數據中心管理系統的體系結構設計,為數據中心基礎設施管理提供整體解決方案,涵蓋監控管理、能效管理、運營管理、運維管理。
(一)系統架構
DCIM系統體系架構分為:展示層、綜合管理層、采集層等。
DCIM平臺采用行業通用的基礎框架,支持分布式的數據管理與通信總線;在基礎框架之上提供應用框架與WEB集成框架,提供各類的業務特性。同時,DCIM平臺支持后臺的維護工程框架,便于用戶與服務人員進行后臺維護、問題定位;并且開發平臺接口,通過標準的接口與第三方系統進行對接。
(二)系統功能
1.總體要求
數據中心基礎設施管理系統需保障軟件的可控性,減少軟件復雜程度,保障升級維護的工作效率和質量。系統架構采用模塊化設計,利用松散耦合原則,減少軟件模塊間、功能分系統間的邏輯依賴,易于靈活、平穩地擴展,滿足業務發展。
(1)擴展性
功能模塊化:管理軟件采用模塊化設計思路,基于基礎平臺開發服務,支持每個系統功能的獨立開發、測試、發布和升級。系統可以單獨添加功能以滿足業務發展需求。
水平擴展:系統可在線擴容,后續只需接入新增系統及設備,無需停止運行的系統。
靈活部署:系統采用面向服務的體系結構開發。所有主要服務都是獨立的,例如管理服務和數據服務等。從部署的角度來看,所有主要服務都可以部署在一臺服務器上,也可以部署在多個單獨的服務器上。
(2)集成性
系統提供南向和北向接口,北向可支持WebService(RESTful)、SNMP、FTP協議與上層管理系統進行對接,南向可支持WebService(RESTful)、SNMP,Modbus,BACnet等協議與第三方子設備和子系統進行對接,可以滿足不同場景的需求。
(3)安全性
數據中心管理系統采用高安全設計,著重對操作系統、數據庫、管理軟件進行加固,可有效防御竊聽、偽造、篡改、越權訪問、病毒、網絡入侵等危害動作,避免管理系統服務器成為用戶網絡中的安全短板。
2.功能要求
包括集中監控、告警管理、數字化基礎設施運維管理、固定資產管理、容量管理、能耗管理、系統運行狀態自檢測、數字化可視等功能。
(1)集中監控
數據中心基礎設施中常見設備包括動力設備、環境傳感器和安防設備等,數據中心管理系統支持各種標準協議,可適配各類智能設備,靈活適應不同管理場景。
DCIM提供數據中心集中監控功能,結合設備告警對業務的影響程度、緊迫程度進行分級,將告警信息分級,并通過不同的顏色進行區分統計。系統支持告警的閾值、級別設定,支持告警查詢、短信及微信發送、確認、反確認功能、告警屏蔽和告警關聯等功能。
本系統能夠收集與展示各個子系統的告警信息,通過多維度分析對不同的告警信息進行反饋。根據告警嚴重程度,對告警級別進行劃分,與各子系統對告警級別的定義保持一致。系統可支持查看當前告警、歷史告警、被屏蔽告警等,通過設定好的過濾條件或用戶自定義的過濾條件對告警進行查詢顯示。通過點擊告警列表的告警名稱能夠顯示該條告警的告警詳情。
支持短信告警、郵件告警、電話語音告警、現場聲音提示;系統可提供短信推送、郵件推送、微信告警、電話語音推送和現場聲音提示等告警通知方式,且支持用戶自定義推送規則。
系統可設置屏蔽規則、告警通知規則和告警閾值等,屏蔽待產生或不關注的告警。另外,為了方便運維人員維護自己關注的業務范圍,也可通過自定義告警名稱、告警規則,便于快速查看和處理其所關注的設備關鍵告警信息,從而提高優質的業務保障。
一般數據中心會因某一設備故障而導致鏈路下游設備產生衍生告警,由此而產生海量的告警,不僅會耗費維護人員大量的排查時間,還可能會影響處理緊急告警的及時性和準確性。因此,DCIM提供了告警原因分析功能。
通過分析數據中心的供電、暖通架構,根據鏈路設備上告警的出現時間、鏈路邏輯等因素,快速定位告警源,自動屏蔽掉設備衍生告警,提升告警處理效率。
(2)數字化基礎設施運維管理
針對數據中心基礎設施設備,管理系統支持設備維護保養管理,可以主動管控數據中心維保提供商的例行維保動作,提升設備維保的過程質量,保障數據中心的可靠運行。
系統支持人員參與排班管理,提供人員交接班日志,保障運維人員的值班、交班的規范性,人員職責清晰,各項運維活動的責任到人。
數據中心運維人員定期對機房進行巡檢,檢查機房安防、消防、空調、配電等是否正常,機房有無異味等內容,目前使用紙質表格對巡檢項打鉤或叉,以及相關備注。紙質巡檢不方便查閱,很難做出分析統計。
系統提供巡檢模板庫,支持用戶自定義巡檢項、巡檢模板。巡檢模板由數個巡檢項組成,可以支持用戶增加、減少和修改巡檢項。提供常用巡檢項條目。系統提供巡檢任務管理,管理員可根據巡檢模板來設計巡檢任務名稱、巡檢內容、巡檢路線、巡檢頻次等,創建巡檢計劃,并通過巡檢任務單的方式下發給巡檢工程師。
系統支持運維人員在移動APP的輔助之下進行機房日常巡檢,提升巡檢效率與質量,在終端上查看數據中心資產信息,可通過數據中心、機房名稱、設備類型、廠商和型號等條件進行查詢,并支持對接U位資產監測設備,可實現資產設備的標簽綁定和核對。可在終端App上查看相關信息。通過手機移動端可以支持查看數據中心整體情況統計分析數據,包括告警分析、能耗分析、資產分析等。如告警等級分布、當日耗電量統計、PUE、能耗分布、月度耗電量變化、PUE變化趨勢和資產數量統計等。巡檢人員在巡檢過程中,發現的巡檢結果不在設置的范圍內時,系統會通過紅色高亮圖標和文字顯示異常風險,并提示創建風險工單。對于巡檢過程中發現的暫時無法處理的問題,需進行工單錄入,點擊創建風險工單會自動轉至風險工單創建頁面,系統將自動填充風險工單的主體對象。經運維工程師審核后,關聯至風險管理模塊,自動生成風險單。
系統支持運維流程管理,參考ITIL管理機制與自有數據中心運維經驗總結,提供了問題、事件、變更管理,靈活匹配數據中心運維場景,幫助運維人員實現運維活動的過程標準化、規范化。
系統提供完善的運維知識庫,供運維人員在日常運維過程中完成運維知識的積累和有效傳遞,其使用過程中不僅可有效指導運維動作,更可激勵運維人員共享自己的運維經驗。借助運維知識庫,運維團隊可以有效積累運維經驗,實現運維團隊的“傳、幫、帶”,實現運維經驗的傳承。知識庫支持對設備隱患分析、故障經驗、技術規范、廠家資料、技術專家等內容進行收集、分類、保存和共享,有利于知識分享和經驗交流。同時支持自定義知識庫創建、知識庫審批等功能。
(3)固定資產管理
數據中心基礎設施及IT設備資產信息的全生命周期管理,可快速查詢和定位設備資產屬性、在線狀態、安裝位置。同時,將資產信息與維護信息相關聯,可統計設備資產的維保周期和生命周期,以便客戶及時做出相應的變更或采購計劃。實現設備資產的全生命周期管理,實現對資產的狀態全程跟蹤。通過建立資產臺賬,實現數據中心IT機架內或庫房中的資產集中管理。支持創建、跟蹤、關閉資產盤點任務,輸出資產盤點報告。管理系統支持庫房資產管理,對庫房中的設備、備品備件、耗材和工具等進行管理,可以實現資產的入庫流程、出庫流程和領用流程管理。
(4)能耗管理
系統通過對能耗數據分析處理,提供PUE數據,為數據中心運維管理者提供數據參考。系統提供多維度(時間維度:年、季、月、日;空間維度:數據中心、機樓、機房;子系統及設備維度)的數據統計,清晰展示數據中心能耗分布,實時展示各設備及子系統能耗使用情況。支持從空間、子系統、設備等角度,展示數據中心能耗使用情況。能效管理頁面指標包括:日累計能耗、月累計能耗、年累計能耗,包括分布餅圖、總能耗、IT能耗、制冷能耗、包括COP值、制冷量、冷機負載均值、室外濕球溫度,包括UPS設備總數,不同負載率下UPS設備數量、月度實際用能、月度計劃用能指標等。系統提供PUE指標預警閾值管理功能,可以設置PUE的告警預警值范圍和告警恢復范圍。系統支持能耗報表的查詢,支持對不同的管理域層級進行能耗查詢,可以通過自定義報表方式查詢能效相關監控指標,支持報表算法規則的配置和報表的展示方式選擇。
(5)系統運行狀態自檢測
系統實時對自身運行情況進行監測,對系統運行問題進行自動修復。系統提供了基于數據庫的日志功能,以實現對機房人員操作、事件告警的跟蹤管理。日志不可被任何人修改,系統支持根據條件查詢日志,并將查詢的日志列表導出打印。日志包括安全日志、系統日志和操作日志。
(6)數字化可視
數據中心管理系統通過數字化的方式,使環境的管理更加直觀、立體,增強了軟件互動性,幫助客戶一目了然地看到數據中心機房的周邊環境情況。
作者單位:王振宇 中鐵第五勘察設計院集團有限公司
參" 考" 文" 獻
[1]工業和信息化部《新型數據中心發展三年行動計劃(2021-2023年)》的通知.
王振宇(1991.03-),男,漢族,山西保德,工程師,研究方向:鐵路通信、信息。