本文結合公司數據中心機房運維實例,為解決在機房運維中遇見設備型號多、管理難度大、問題難定位、人力成本高、人員素質要求高等各種問題,特開發出一套“機房統一運維監管平臺”,降低機房運維成本,提高運維效率。
2023年10月25日,國家數據局正式成立。標志著企業的數字化改造和升級勢不可擋,促進數字技術與實體經濟的深度融合,推動數字經濟的快速發展是企業數字化發展的大勢所趨。
隨著公司科研生產等對業務系統復雜性要求的不斷提高、數據安全性需求的日益增加,以及信息技術和網絡技術的快速迭代與發展,機房里面服務器、存儲設備、網絡設備的數量和種類不斷增加,機房的維護復雜性和要求也越來越高。
數據中心機房是公司信息化建設的重要組成部分,機房有45個機柜93臺服務器,100余臺網絡設備, 2臺20KVA,UPS電源等設備。設備的正常運行是業務連續性的基礎,如何保障機房環境中的設備始終為系統提供正常的運行環境是機房運維的重中之重。
機房運維人員負責監控機房服務器、交換機、存儲等設備運行的狀態、設備故障快速處理,確保機房各種設備平穩運行,防止因設備維護不到位,導致業務中斷。目前機房運維主要通過視頻監控和人工巡檢的方式進行,需耗費較多時間和人力成本,且主要存在以下問題:
(一)設備型號多,管理難度大
目前隨著業務系統的種類和數量增加,機房里面服務器設備、存儲設備、網絡設備的種類、型號和數量越來越多,且設備廠家不一致、生產時間不一致、型號不一致等原因,造成機房的運維越來越難,管理難度成幾何倍增。
(二)設備組成整體,故障難定位
機房里面的各種設備組成了一個完整的整體,統一發揮價值,確保業務系統安全、有效運轉。機房涉及到環境、網絡、服務器、存儲、操作系統、數據庫、應用軟件等,當故障發生時,難以判定引起故障原因,故障定位難。
(三)價值高,持續發揮價值不易
機房里面設備價值和數據價值高,確保為企業提供穩定可靠的信息技術基礎設施,保障數據的安全性和可用性,要求每年持續365天×24小時發揮機房每臺設備價值實屬不易。
(四)綜合要求高,問題解決慢
而目前機房是各個責任人各施其責,運維團隊不同人負責不同設備維護,如:數據安全、網絡傳輸、服務器維護等,當出現問題時,難以快速找出責任人,容易造成故障排除時間緩慢,相互推諉的情況發生。
開發一套機房統一的運維管理平臺,通過對 IT 資產、機房基礎設施等硬件的定期監測,保障信息化系統的安全穩定運行,實現機房內部計算設備、存儲設備、網絡設備、安全設備的高效維護以及應用系統持久運行。
機房統一運維管理平臺架構上從上往下分為:統一運維門戶、統一流程平臺、運維及監控、統一采集平臺四個部分。其中統一流程平臺與統一采集平臺為基礎平臺,支撐統一運維管理平臺的各類運維和監控的功能。
機房統一運維監管管理平臺建設需遵循以下原則,滿足如下要求:
(一)實現管理的全面性
運維管理系統實施后必須全面支持 IT 基礎設ULXezWQBvE/zXl7VnxEfUw==施(包括但不限于:服務器、小型機、存儲備份設備、網絡設備、機房環境設備、計算機終端等硬件設備)、操作系統、數據庫和中間件等系統,能夠滿足實際工作中的全方面的監控需求。
(二)實現統一平臺監控
要求能夠對信息系統進行集中監控、集中維護、集中管理,在統一平臺上實現性能、事件、報表的統一處理。要求實現管理系統對采集到的原始監控數據至少入庫保存十二個月。
(三)實現監控告警的時效性
要求對監控平臺能在最終用戶可接受的最短時間內感知監控異常事件,及時在監控界面中展現,并將告警郵件或短信發送至監控人員或者相關管理人員。
(四)開放性和可擴展性
要求實現管理系統很好的開放性和對標準的支持能力,支持各種最終用戶現有 IT基礎設施。
要求實現管理系統良好的可擴展性和可伸縮性,以適應業務系統自身的不斷調整、修改和優化,并要求提供監控系統自身管理模塊,通過實施保證管理系統自身管理和維護的方便性。
(五)管理系統兼容性
要求能夠全面支持運行環境,兼容現有環境中監控對象的各個版本,并能夠支持版本升級。
(六)管理系統本身的穩定性
管理系統運行必須非常穩定。系統應提供(7 天×24 小時)連續性服務,具備通過持續的數據維護、同步或異步錯誤處理服務能力,支持數據的高完整性和準確性。
(七)管理系統操作便利性
要求實施后的用戶操作步驟簡潔,操作界面具有較好的用戶體驗。供應商必須提供完整詳細的操作手冊,對于經常發生和具有典型性的場景和事件有詳細的專題描述。
機房統一運維監管平臺在機房資源監控和運維管理的基礎上,能夠為不同的人員角色和管理需要提供靈活多樣的展現方式。除了能夠展現所管理資源的物理視圖,還能夠針對用戶的應用架構、業務組成等信息來建立邏輯管理視圖。平臺主要功能如下:
(一)統一運維門戶
機房統一運維監管平臺的唯一訪問入口,提供各個訪問對象的自助服務系統的入口。統一運維門戶為各部門包括部門領導、業務管理人員、運維人員、值班監控人員在內的各層用戶提供個性化的運維服務,滿足不同人員角色對運維要求。
(二)統一流程管理
統一流程管理主要對各運維流程進行管理,服務于包括運維人員、管理人員在內的各級人員,通過事件、問題等 ITIL 標準流程以及日常運維、安全管理等內部流程的梳理實施,規范了業務操作、投訴處理、故障響應、系統升級和需求開發等部門日常運維,實現了運維工作的流程化、透明化、知識化、標準化。
(三)運維及監控管理
機房監控包含:3D 數據機房、機柜管理、機房能耗、環境管理等資源的可視化功能。
提供可視化 3D 機房編輯功能,支持樓層、機房及機房布景等,無需修改軟件程序。支持自定制機架并可通過可視化的方式定義機架上的設備。以全三維形式表現機房、機柜、空調、獨立設備和架式設備,通過鼠標點擊,在三維可視化環境中實現機房、機房子區域、機柜、設備和設備端口逐級進入和瀏覽。
采用 B/S 架構,可以利用瀏覽器直接通過鼠標實現三維系統的交互操作、訪問和瀏覽。以全三維形式表現機房、機柜、空調、獨立設備和架式設備,通過鼠標點擊,在三維可視化環境中實現機房、機房子區域、機柜、設備和設備端口逐級進入和瀏覽。
支持環境監控系統、設備、應用的告警數據展示,在 3D 可視化環境中直觀顯示當前告警設備位置及告警信息。
(四)統一數據采集(接口層)
新建統一運維管理平臺需考慮接口層的建設,要求今后按照需求實現跟其他系統對接,如與云管理平臺接口、安全管理平臺接口以及其他設備自帶管理平臺接口等。
平臺建設統一的 IT 運維數據采集能力,面向 IT 系統整體實現統一采集、統一分發,并借助大數據平臺能力進行數據裝載和沉淀,支持快速適配,多源合并,多標簽分離,多渠道輸出,可視化抽取。
機房里面對各種設備運維,一般都是被動維護,出現問題,解決問題,不能提前發現問題,對相關風險進行預警。核心是不能主動預測、提前來發現問題,造成機房運維工作量大、效率低、效果差。
通過開發“機房統一運維監管平臺”實現機房93臺服務器、100余臺網絡設備、空調、UPS電源等設備完整、統一的可視化管理;實現機房運行和安全集中監控管理。提高了機房運維水平,提升機房的服務質量,加快機房問題處理速度,為企業數字化轉型打下了良好的信息化基礎。
作者單位:航宇救生裝備有限公司