李伯愷


關鍵詞 網絡 信息系統 大數據 智能運維 組織轉型
為落實高效穩定、可持續發展、從運維到運營的轉型戰略要求,相關人員需要積極利用人工智能、云計算、邊緣計算、5G 等前沿技術,積極推進信息化、數字化、智能化轉型,以提升運營效率,保障IT 基礎架構及信息系統的穩定。
1高效運維面臨的挑戰
隨著信息系統的業務架構、應用架構日益復雜,利用其構架轉型、敏捷交付來快速響應和支撐業務發展需求,運維保障體系面臨更大的挑戰。
1.1打破監控系統的“信息孤島”
隨著信息設備品牌、型號增多,我國已經推出了涵蓋網絡、安全、服務器、數據庫、應用系統等多種監控工具,基本實現了各類軟硬件資源的全域覆蓋。但是,在故障定位及分析的過程中,需要各領域運維專家在分散的監控管理系統中提取及分析數據。打破運維管理系統的“數據孤島”是高效協同運維的關鍵。
1.2構建有效的監測體系
目前,檢測廣度方面涵蓋基礎的軟硬件設施,但日常運維過程中不易分析和排查的故障時有發生;監測深度方面涵蓋事件級、應用級的精細化監測,有待繼續深入研究。為了構建涵蓋運行組件、服務、狀態、指標、事件、日志的運行監測體系,需要將運維對象數字化、可視化、精細化,從而幫助運維人員快速、精確定位故障位置,及時發現各類對象的運行風險[1] 。
1.3提升故障決策分析及快速處置能力
在故障分析定位和故障處置方面,通常需要運維專家憑借經驗,在復雜的信息架構、監控平臺下,借助大數據、機器學習等先進技術,實現監控體系的智能化、可視化決策,為不同層級的運維人員、管理者提供決策分析支撐。另外,當故障發生后,為了快速恢復服務、減少故障恢復時間,需要相關人員制定標準化流程、做出標準化動作、構建標準化場景,發揮自動化運維系統的作用,可采用一鍵恢復的方式來提高問題處理效率。
1.4提升運維團隊的管理效率
運維團隊由各個領域的技術專家組成,為了使各領域專家高效協同,需要在實現智能化運維感知和決策的基礎上,結合專家的工作日志,總結以往的成功經驗以及不足之處,不斷進行摸索和實踐,以形成持續改進和管理創新的機制,從而提升運維管理能力。
2智能一體化平臺研究
2.1研究思路
(1)培養大數據處理和分析能力
運維工具眾多,數據傳輸的格式、維度也很復雜,這是因為存在“數據孤島”且數據維度龐雜。數據中心的各類資源、數據隨著時間的增加呈指數級增長,構建統一的運維大數據分析平臺就非常重要。通過統一的平臺,向各運維工具提供海量數據,進行數據、流程的統一融合。平臺數據需要具備接入、處理、存儲、高并發訪問消費的能力,為各類數據消費場景提供支撐,包括可視化分析、實時計算、離線分析等,滿足秒級響應、實時計算的要求,提供大吞吐量的數據處理功能。
(2)基于AI 技術提升智能化、自動化能力
隨著大數據、AI 等先進技術在各行業中的應用,在智能化輔助分析、提高管理效率、降低運營成本等方面得到了充分論證。在數據中心的運維保障體系中,Gartner 提出了AIOps(Algorithmic IT Operations),其基于智能算法的IT 運維,即通過使用統計分析和機器學習的方法處理各IT 設備、業務應用、運維工具收集的數據,以增強運維系統的智能化、自動化能力。
(3)提供靈活的可視化分析能力
集成各業務系統數據,將抽象數據以可視化圖表的形式進行呈現,提供多業務統一展示平臺和管理平臺,保證平臺在多個終端進行集中展示。
(4)提供細粒度的數據消費能力
在運維管理系統運行的過程中,通過內部數據信息的整合與外部數據信息的拓展和引入,提升系統的可拓展性以及滿足未來可能出現的需求。
2.2智能一體化運維平臺的實現方案
(1)構建智能運維的大數據基礎平臺
首先,須滿足海量數據分析、存儲及消費的需求,平臺依托ElasticSearch,Neo4j,MySQL,Redis,TensorFlow 的基礎組件,滿足智能一體化運維中的數據采集、存儲、實時計算、離線訓練的典型場景需求。智能一體化運維平臺如圖1 所示。
(2)構建智能運維的數據標準體系
各類運維數據接入前,需要梳理運維管理體系中各類數據的管理標準及接入技術標準,指導各類管理工具能夠根據數據標準規范利用相應的監控指標及數據,具體數據范圍包括各類基礎資源、系統軟件、業務系統的指標類監控數據、日志監控數據、配置管理數據、IT 服務管理工單數據、自動化運維操作數據、設備和系統操作日志、網絡威脅監控數據等[2] 。與此同時,平臺支持采用多種手段進行數據集成,包括但不限于主動獲取和被動接收等方式,且支持多種語言的標準接口,便于各類工具系統能夠按需使用接口。
(3)提供可擴展的采集監控能力
監控的基本目標是“不漏報、快處理、不誤報”,構建全域覆蓋的采集監控體系的難度非常大,根據實際情況,需要通過持續迭代的方式不斷豐富監控能力。因此,首先,通過對現有監控平臺進行梳理,構建以CMDB 為基礎、滿足當前管理需求的統一監控平臺,實現資源、指標、告警、工單等的數據關聯,并滿足場景化的運維關聯分析展示需求。其次,平臺預留可擴展的資源模型、指標模型,以提高接入接口的擴展性,滿足持續迭代的運維數據接入與管理需求,輔助后續不斷豐富監控廣度與深度。
(4)打造自動化決策子系統
為了構建跨平臺、跨應用的統一的自動化運維子系統,需要建立基于流程的跨應用任務依賴關系,實現任務執行自動化,典型的應用場景是批量業務操作,如系統初始化、數據批準備和處理、定期開關機、數據備份檢查、災備切換等。
(5)實現靈活的數據查詢、多維度的決策分析
作為數據統一集成、管理、分析的平臺,其具備靈活高效的查詢能力,支持通過統一的搜索引擎實現全局運維數據的搜索,并結合用戶權限實現數據查詢的權限管控[3] 。此外,平臺提供各類可視化組件,通過組件間的組合可以形成不同視角的數據視圖,如IT基礎架構視圖、統一故障分析視圖(整合基礎告警、應用告警、日志告警等)、性能容量分析視圖(整合歷史基線)、故障性能關聯視圖(將故障數據和性能數據關聯分析),以進行統一分析、展現。
(6)智能化應用場景探索
通過智能化算法分析,實現智能化場景分析,主要包括:通過內置算法或集成外部算法,對指標時序數據進行趨勢分析,以完成動態基線繪制,并基于動態基線趨勢進行數據預測,在數據偏離基線正常范圍時進行異常告警;支持針對單一指標的趨勢分析以及多指標關聯趨勢分析;從多種維度對告警進行聚合,推動告警從列表化管理向場景化管理演進。支持按照運維對象、運維對象關系、任意運維對象屬性、運維對象標簽、運維組織、業務系統、歷史告警發生概率進行告警捏合,從而為面向告警場景的智能告警分組;通過圖算法,實現基于圖路徑的告警根源分析,并結合歷史數據,自動推送告警根原。以趨勢預測分析為例,對性能指標數據接入后,通過對歷史數據的模型訓練,揀選完成后實現對趨勢的分析預測,如圖2 所示。
3成果應用及實踐
3.1提升運維團隊的協同效率
通過統一的運維管理平臺,打破了各專項運維工具的“信息孤島”,改變了傳統故障定位問題時從各個系統中進行數據查詢分析的現狀,提升了運維決策效率以及運維管理各專家團隊的協作效率,并可通過平臺進行故障處置。
3.2提升自動化水平
通過建立自動化流程,實現流程驅動的業務系統運維自動化。做到自動巡檢、故障診斷、安裝部署、配置管理,實現日常運維工作的自動化。自動化運維可以提高運維人員的工作效率與準度,提升產品系統運行的安全性和可靠性。
3.3應用智能化技術
可落地的智能化運維場景非常多,通過本平臺,在智能閾值分析、告警收斂、原因分析等方面進行了初步探索。
4總結
隨著智能一體化運維平臺的應用,打破了傳統運維的“信息孤島”,夯實了智能運維的數據基礎,在自動化、標準化、智能化方面邁出了第一步,還需要繼續摸索及實踐,充分結合學術界的研究成果、同行業的先進經驗,真正實現智能化運維,從而提升管理效率、降低運維成本。