劉通
北京中企時代科技有限公司 內蒙古通遼 028011
(1)云化數據中心導致運維管理工作量激增應急管理云數據中心是由應急管理部主導建設的,為應急管理信息化業務體系正常運轉提供基礎支撐的數字底座。隨著應急管理業務應用的加速重構和逐步豐富,云數據中心規模將日益增長,大量不同類型、配置各異的設備將在云數據中心集中部署,造成數據中心運維管理工作量迅速增加,而傳統的運維管理系統采用分工式運維方式,即網絡、安全、服務器、存儲等分別具有獨立的運維管理系統,導致設備故障難以定位,業務系統中斷時間長的情況頻繁出現。
(2)用戶體驗敏感導致對運維管理時效性的要求提高隨著用戶對業務應用體驗敏感度的日益提高,傳統運維管理采用的集中監控系統無法從業務應用和用戶視角反映系統運行情況,對于業務應用系統運行過程中出現的故障問題,難以在對應的 IT 基礎設施環境中準確、快速定位故障原因,反之,對于 IT 基礎設備發生故障后,難以準確評估受影響的業務范圍和影響程度。
(3)業務快速調整導致運維管理綜合難度躍升隨著大數據、中臺、微服務等新興技術的不斷應用,應急管理業務體系將迎來深度重構和快速增長,以監督管理、社會動員為代表的,具有大量移動并發訪問場景的業務應用,將采用分布式架構進行系統重構,實現業務邏輯與基礎系統的進一步解耦。隨著業務應用系統快速調整逐步常態化,將導致 IT 基礎設施運維管理難度急劇躍升,傳統運維管理結合人工智能等新興技術進行轉型升級迫在眉睫。
完善當前的工作系統結構。計算機設備有著相對穩定的結構,直接影響到計算機效能的發揮。當前的企業計算機設備運維管理中,采用了多種管理工作模式。當前應完善管理系統的穩定性,保障相關管理系統是不會干涉彼此的。當前的企業計算機設備運維管理中,主要使用C/S系統結構采集數據,以動環監控軟件監控實時設備數據并處理分析,以B/S結構作為數據展示給管理人員。對于集群應用系統或虛擬機平臺,設置硬件安全閾值與動態監控硬件參數,配置短信平臺報警功能。利用這種結構,可以發揮基礎應用的功能,并且完善計算機數據服務。這種系統具備科學的操作方式,運維人員或者系統使用人員利用管理命令能夠有效工作。第二,加強對數據庫的管理。檢查數據庫主要進程運行情況,數據庫連接是否正常,數據庫表空間使用情況,數據庫日志是否有異常,數據庫日常備份是否正常等。當前的企業一般采用MySQL數據庫。這種數據庫在應用中有著巨大優勢,不會產生格式層面的使用問題,因此適用性較強。MySQL數據庫有著三方面優勢:第一,可以顯著提升數據庫運行效率。第二,并不需要占用較多的設備存儲空間。
IT 設備在數據中心部署后,融合運維管理系統應能通過多種自動發現手段實時感知設備部署情況,并對完成部署的設備進行集中統一管理,包括網絡管理、服務器管理、存儲管理、虛擬資源管理、專用設備管理等基本功能模塊。其中,網絡管理模塊應能夠自動生成網絡拓撲圖,并對網絡組建設備、網絡質量、網絡流量等進行管理、監控和分析;服務器管理模塊應具備對 CPU、內存、硬盤、風扇、電源等關鍵部件以及對服務器整機在線狀態、健康狀態等信息的監控能力;存儲管理模塊應能自動發現并實時監控存儲網絡資源,統計存儲網絡容量使用情況并作出容量預測;虛擬資源管理模塊應能對計算虛擬設施,如集群、虛擬機等提供虛擬資源和物理設備的映射關系拓撲圖,并實時更新各部件的性能數據;專用設備管理模塊主要用于對融合通信、視頻會商、安防監控等專用設備進行監測管理,提供語音質量診斷、視頻流跟蹤、數據分析等功能。融合運維管理系統通過持續監測 IT 設備基本信息和運行狀態,對設備資源使用情況、設備運行情況等信息數據進行收集和匯總,為設備故障預判、精確定位、智能診斷等后續環節打下堅實的基礎。
第一,數據庫故障的處理。對于數據庫來說,歸檔日志空間占滿和表空間不足都是常見故障。所謂表空間不足,指的是表空間的使用率等于百分之百或者接近百分之百,數據庫系統難以增加SQL語句。如果出現這種故障問題,可以快速定位錯誤信息,通過擴充表空間設備文件的措施排除故障和問題[1]。通過加強對于關鍵點監控,能夠及時解決出現的軟硬件問題,針對可能出現隱患的部分指定科學的應急方案,以此來提升企業計算機設備運維管理的效果。
未來,在運維管理資源有限的情況下,隨著應急管理業務云化、微服務化的逐步深入,業務應用對快速上線、靈活伸縮和服務等級的要求顯著提高,傳統的人工運維方式在面對海量 IT 設備運維管理、業務交叉調用關系極度復雜的數據中心環境時,難以保證高質量的IT 服務水平[2]。因此,傳統人工運維向新型智能運維轉變的需求日益迫切,而融合運維管理系統是智能運維演進過程中不可缺少的重要環節,通過構建融合運維管理系統將實現數據中心環境基礎設施和 IT基礎設施的全生命周期自動化管理和性能容量智能運營,提升數據中心基礎設施故障預防、發現和自愈能力[3]。