金建國, 范世權, 董玉娟, 厲 煒
(浙江德塔森特數據技術有限公司,寧波 315000)
隨著信息技術和信息化建設的快速發展,各行各業在數字化、智能化轉型中建設了大量網絡化的業務系統,IT基礎架構規模也隨之不斷擴大,較之以往更為復雜化、異構化。龐大且異構的IT基礎架構給運維管理帶來更大的壓力和挑戰,國內多數網絡運營主體單位都面臨以下幾類運維管理難題。
(1)自主運維單位依賴內部IT人員的技術和經驗進行純手工管理的被動“救火式”運維,缺乏可視化運維監管平臺,運維效率低。運維工作往往只有結果,缺少過程審計,導致發生的運維事件、問題難以溯源,責任無法追究,難以管理。
(2)隨著系統的不斷升級,IT基礎架構中存在大量不同年代、品牌和型號的產品,需要協調不同廠商解決問題,增加運維復雜度,IT技術人員壓力大。
(3)需投入大量財力人力培養專業IT技術人員組建自主運維團隊,而技術人員一旦離職,可能會造成系統維護的困難。
(4)自主運維團隊需要的專業技術人才要有相應的技能、工作經驗和管理經驗,專業需要細分涵蓋硬件、網絡、虛擬化、操作系統、存儲、數據庫、信息安全等。運營單位難以快速組建一支專業的運維隊伍,技術人員短缺,導致運維中出現復雜問題無法及時處理,甚至無法處理。
(5)一些單位依賴系統集成商的運維服務,而系統集成商通常專注于信息系統的集成建設,核心能力并非IT基礎架構的運行優化和故障排除,不同服務商的專業服務能力也參差不齊,存在資源協調難、缺乏監管流程、服務質量差異等問題。且服務商自身綜合運營成本高,導致運營單位運維成本也很高。
面對日漸復雜化的IT基礎架構,集合了專業服務工程師團隊的第三方運維服務商的綜合能力優勢愈發凸顯,運營主體通過外包引入專業的第三方運維服務商,負責IT基礎架構的監控運維、優化升級等工作,充分利用外部資源的優勢以降低運營風險、提高管理效率。因為第三方運維服務商專注于運維服務領域,運維對象能夠覆蓋各類主流的軟硬件產品,能提供本地化和一站式的運維服務,具有更高的性價比,第三方運維將成為未來IT基礎架構運維服務的發展趨勢。
在各種運維難題的困擾下,第三方運維服務商提出了IT基礎架構云運維平臺方案。基于云計算、大數據技術建成的集成運維管理(包含硬件設施監控、應用性能監控、網絡性能監控、IT資產和IT服務管理等)、運維分析等功能以業務為導向的綜合監控管理平臺,是云運維的核心。其中,IT運維管理包括硬件設施監控、應用性能監控、網絡性能監控、IT資產和IT服務管理(如ITSM和CMDB)等,使用工具軟件對IT基礎架構進行實時有效的監控、管理并提供反饋,保障IT基礎架構以最佳狀態穩定運行;運維分析通過運用大數據、人工智能等技術手段,預先發現信息系統運行中潛在的問題,協助運營單位做出有效的業務決策,降低運營管理風險。
建設綜合監控管理平臺,能幫助運營單位在網絡設備和業務應用的運行監控管理的基礎上,實現統一運維管理。云運維平臺通過梳理業務資產,搭建整體的業務系統資產管理系統,可實現資產的全生命周期管理;加強運維的主動性,并構建云運維平臺內各用戶獨立的管理監控體系,通過云端的集中監控與運維審計系統,可實現整個云運維平臺的集中監控和統一操作,改善被動運維的局面,加強整體運維效率,將分散的業務系統統一集中管理。
云運維平臺通過參照ITIL的規范,對云端的運維管理工作進行合理優化、改善管理服務、建立有序高效的協同合作體系,使運維服務具備更高的工作效率,同時把運維過程中的運維經驗形成云端知識庫,實現海量的知識積累和共享機制,讓云端運維更好、更健全地發展。
云計算改變了傳統的數據處理模式,提升了計算效率的同時也給運維管理工作帶來了更多挑戰。IT設備數量增加,業務系統愈發復雜,可視化、標準化、流程化、平臺化的綜合運維管理必將成為IT基礎架構運維的新趨勢,其特點和優勢包括以下幾點。
(1)基于B/S模型的可視化管理工作臺,用戶可隨需隨時提報故障和查閱服務信息,實時、全面掌握故障處理狀態,在線閱覽或下載各種運維服務報表。
(2)基于ITIL的運維作業與流程管理,合理調度運維工程師為用戶提供及時高效的服務體驗,用戶可隨時了解故障處理過程。
(3)基于云計算的數據接入和處理平臺,提供低延時、高性能、高可用的數據接入能力和數據處理能力。
(4)通過秒級的告警上傳、實時的運維告警處理,可以實現在極短時間內發現定位并解決問題,保障運營單位業務系統正常運轉。
(5)云運維提供“7×24h遠程監控值守”“定期巡檢”服務,管理人員能及時準確得到報警信息并采取措施,提高了數據中心運行的可靠性,減輕運維管理人員壓力,節約運營單位的用人成本。
(6)云運維的“遠程監控值守”“運行分析報告”等服務,及時發現、提前預防,為保障IT設備、業務系統穩定運行起到重要作用,也為幫助運營單位做到專業化、精細化運維管理提供決策依據。
在物聯網、5G的發展和推動下,運維監控數據的采集渠道和涉及的數據類型會越來越多,數據采集端產生的數據量將會更大。完全基于云的傳統模型中,將大量可監管設備產生的監控數據通過網絡傳輸到位置較為集中的云平臺上,需要超大帶寬和回傳容量,數據處理也會產生成本。
基于邊緣計算構建“云 + 邊 + 端”架構的云運維平臺(圖1),邊側更接近數據生成或使用數據的設備,負責計算、處理、存儲和網絡傳輸,將設備產生的大量無關緊要的數據在本地進行篩選處理,減少需要傳輸的數據量,這會明顯提升數據處理的速度和保障數據的應用邊界。而且邊緣計算能提供更多的通信路徑(相比于集中模型)以保障數據通信的彈性。

圖1 基于邊緣計算的云運維平臺
(1) “端”側實現數據采集、實時監控和告警感知,對IT基礎架構進行集中監管,提升運維管理效率進而提高IT基礎架構的可靠性和可用性。
1)集中監控子系統利用多種遠程運維、管理協議或接口實現對各種設備、系統及應用等的數據采集,感知獲取設備物理狀態、設備間鏈路狀態和鏈路質量、應用環境等性能指標并進行實時監測和閾值告警,實時、準確、全面地監控當前系統運行狀況,實現集中監控展示、實時告警通知。2)資產管理子系統實現對信息化資產全生命周期的管控。3)操作審計子系統實現對運維過程的安全管控,確保“事前須審核,事后可追溯”得以落實,降低人為失誤概率,提高事故補救率。
(2)“邊”側作為云運維平臺近用戶側部署的數據處理節點,負責各個業務區用戶端的上傳數據篩選處理、安全傳輸、遠程運維。
基于邊緣計算技術,“邊”側系統節點對端側上傳的數據篩查、智能排錯、誤報過濾等智能分析處理,刪除重復數據、精簡數據大小,提高數據處理和中轉傳輸能力。集成虛擬堡壘機功能,實現遠程運維準入和安全審計管控。
(3)“云”側是云運維平臺的能力中心,負責大數據分析、流程管理、人員管理、問題處理、7×24 h監控等運維能力。運用人工智能數據模型,通過不斷學習和訓練,將收集的數據進行綜合分析,及時發現各個設備、業務存在的資源瓶頸和性能瓶頸,對可能產生的問題進行預測分析,自動檢測和故障定位、智能分析問題根源,識別設備、系統運行潛在的故障風險并做出主動預警。
