李雅男
【摘 ?要】隨著經濟的發展和科技的進步,電信運營商業務的增長,特別是4G及5G時代的到來,電信運營商數據中心的規模逐漸龐大,設備類型,數據類型,及大數據平臺及云平臺的出現,給傳統的運維手段帶來了新的挑戰。本文就智能化運維管理平臺的規劃設計展開探討。
【關鍵詞】智能化;運維平臺;設計
引言
智能化運維管理平臺建立的意義在于能夠保證運維管理的體系化及運維管理的自動化,同時能夠提升運維管理的質量及運維管理的效果,運維管理能夠保證網絡運行的穩定化,安全化及正常化,能促進各企業運作的體系化,及保證信息交互的安全性和穩定性,能在一定程度上維系各行各業的穩定發展,降低發展過程中所承受的風險及損失,進一步推動網絡技術及互聯網在行業中的應用發展,提升其所占據的地位,進行智能化運維管理平臺的研究是具有實際價值的。
1智能化運維管理平臺整體設計
按照平臺即服務的設計理念,統一運維的基礎采控、數據計算、組件服務,使得上層的各類運維工具、場景、應用實現無縫打通和擴展,為運維的持續良性的發展奠定基礎。(1)統一采控平臺:分布式的資源采控體系,完成被管理資源統一采控,實現統一的第三方系統集成和納管。(2)數據處理平臺:可建模運維大數據服務,預置運維模型和分析算法,從而統一運維數據,形成數據資產。(3)組件服務平臺:提供常用運維服務組件,封裝典型場景的API擴展,快速拓展運維應用,實現持續發展。
2智能化運維管理平臺的規劃設計
2.1數據存放軟件的優化與規范化
智能化運維管理平臺實現的要求、數據安全性的保證及數據運行的自動化的具體操作是對數據存放軟件進行優化,即需要對數據的獲取設置相應的程序,包括用戶、密碼、用戶限制對象及限定登入頻率,以此來自動化的保證數據運行的安全性及穩定性,同時保證運維管理平臺的正常運作,及運作安全系數的提升。管理體系與數據軟件相關聯,在數據軟件正常運作的過程中,管理體系跟蹤性的運作,能夠保證獲取到數據的運作軌跡及輸送軌跡,同時對管理體系所設置的程序能及時的獲取運行過程中存在的漏洞與危險數據,并進行及時的防御與控制,進一步保證運維管理平臺自動化運行的質量。
2.2數據處理系統
數據處理系統運維集中存儲與處理各類運維數據,這些數據來自不同類型的通信IT資源,也有著完全不同的結構類型,因此專門設計數據融合管理模塊來對各類數據進行標準化處理、存儲與提供讀取API,形成運維大數據數據分析與智能運維管理能力。
2.2.1智能處理引擎
平臺提供多種類型的數據智能處理引擎:(1)實時計算:平臺對采集到的各類數據,提供實時的數據計算處理能力,以數據流式處理的方式,從各類原始數據中,實時提煉出高層業務數據。(2)離線計算:平臺同時提供對歷史數據的定期跑批計算能力,定期加載海量數據,通過計算節點的分布式計算能力,完成大數據計算處理。(3)算法庫:平臺內置運維中需要使用的各類計算算法,并提供擴充庫,可不斷補充算法,以實現運維數據的多種加工計算要求。(4)模型訓練:當數據平臺積累到較大規模的數據量后,可將這些數據導入機器學習過程,實現運維業務模型訓練,如生成動態基線、資源訪問模式等功能。
2.2.2數據融合管理
運維集中存儲與處理各類運維數據,這些數據來自不同類型的IT資源,也有著完全不同的結構類型,因此運維平臺,專門設計數據融合管理模塊來對各類數據進行標準化處理、存儲與提供讀取API。(1)數據來源:平臺應支持多種異構的數據來源,包括鏡像數據、機器數據、應用數據、撥測數據、人工數據。(2)數據存儲:平臺結合關系型數據庫與NoSQL的技術特點,提供出強一致性,的聯機讀寫數據庫;面向運維數據時序特點的時序列數據庫;以及大量各種資源半結構化的描述型日志數據;同時各數據庫均應支持水平擴展,避免數據瓶頸。(3)數據模型:基于數據存儲。
2.2.3智能分析學習引擎
智能運維管理平臺收集的各類運維大數據,可以通過機器學習的方式,訓練出相應的計算模型,以更好的支撐運維業務需要。主要包括以下部分:(1)算法庫:提供訓練與消費服務需要的各類數據算法,平臺預置如復合抖動算法、趨勢預測、去噪濾波等多種算法,并允許擴展引入相關算法。(2)原始數據輸入:支持從運維平臺或外部數據庫,加載大量用于模型訓練的算法。(3)訓練任務調度:將訓練任務分解為有向圖,每個節點代表任務中的一個計算環節,通過分布式方式分散到計算集群中,利用主機的水平擴展能力,加速模型訓練與計算任務的完成。(4)模型庫:訓練任務完成的模型記入模型庫,以用于后續的分析與消費。(5)消費服務接口:通過接口接受運維平臺上層各類運維數據計算需求,根據輸入調用模型進行計算,提供輸出結果。
2.3運維智能化
(1)智能化監控及故障診斷。采用基于業務、IT層級和全路徑三個維度的監控覆蓋手段,結合數據處理引擎和智能的關聯分析算法,對海量監控數據進行實時處理,實現較為準確快速的故障定位。目前,已基本實現近70%左右日常事件的自動識別能力。(2)運維數據分析及預測。運維管理工作逐步向業務運營和用戶服務等領域延伸,利用運維大數據實時數據處理能力,結合業務場景,對業務運營數據深入挖掘分析,協助業務部門優化服務效率,提升運維服務價值。
2.4網絡安全領域的智能化研究探索
信息安全管理既是運營管理的關鍵領域,也是運用數據挖掘、機器學習、人工智能等新技術的重要場景方向。通過與國家信息技術安全研究中心聯合開展課題攻關,設計開發了網絡安全情報系統,致力于形成共享的情報獲取生態機制。在單要素威脅場景的精確檢測領域,結合自然語言處理等技術,對深度學習算法在該領域的適用能力進行了研究,取得了優于同類工具的檢測效果。
結語
隨著智能化運維管理平臺的順利上線運營,采用了自動化管理工具,運維的操作采用自動化的方式,運維效率較之前有顯著的提高,操作標準化與規范化水平提升,減少了電信運營商數據中心安全隱患與風險。運維態勢相關信息掌控程度提高,確保運行態勢保持合理水平,特別是系統監控的相關新應用,可以更加適應大數據、云計算環境下的運營商數據中心的運維管理工作。
參考文獻:
[1]林莉.智能化運維管理平臺的研究與實現[J].福建電腦,2015(3).
[2]羅雁,孫立志,李峰.規劃二三維網絡綜合管理平臺的設計與實現[J].城市勘測,2016(5).
[3]田軍,陳文婷,羅志剛.智能化平臺在數據中心基礎設施運維管理中的應用[J].現代建筑電氣,2015(9).
(作者單位:信息化管理中心普光項目部)