任高強 崔云龍 高平 呂書林 趙軍生


【摘要】? ? 云原生技術具有簡單快捷、輕松自如的運行優勢,可以按照實際的應用需求進行自由的伸縮,所以該項技術得到了推廣應用,但云原生技術的系統結構越來越復雜,其中的資源規模更加龐大,而智能化的運維體系的建設與完善,則可以更好地發揮云原生技術的優勢,幫助企業有效的降低云原生技術的運維成本,并切實提升技術的服務質量。智能運維架構經過云原生技術的應用場景與實踐過程分析,以此構建新的運維架構,并依照核心服務算法平臺的趨勢預測、數據異常檢測及故障定位診斷等原理來優化云原生技術的關鍵部分。本文從云原生技術智能運維構架的關鍵點進行分析,研究了面向云原生的智能運維架構和關鍵技術的相關內容。
【關鍵詞】? ? 云原生技術? ? 智能運維架構? ? 關鍵技術
一、面向云原生的智能運維架構的架構概述
1.1整體架構
在智能運維平臺中,容器技術具有不可忽視的作用,能夠支持有關承載單元,并開發網絡云原生化,提高運維架構的智能化水平。智能云原生運維架構需要具備控制子系統和智能運維子系統等,這些系統組成了智能運維整體架構。1.控制子系統。控制子系統一般涉及到了配置中心、安全中心、注冊中心等。注冊中心能夠及時發現微服務目標,完成對應的注冊工作。安全中心的主要目標便是審核信息,也可以進行加密處理,確保信息的安全性。配置中心可以發送到服務代理。平臺適配器能夠對容器進行集中管控,為微服務帶來必要的信息支持;2.智能運維子系統。該系統能夠收集不同代理下發的監控信息,將監控信息發送到后端監控服務中,對運行日志和運行指標等進行分析,精確把握網絡變化及變化過程中存在的規律,提高智能云微架構的服務實效;3.服務代理。服務代理便是云原生,嚴格控制微服務流量,在微服務中具有著關鍵作用。
1.2智能運維的典型場景劃分
智能運維的架構一般需要特殊的場景作為依托,也就是說智能運維的系統需要具備2個或2個以上的應用場景。如某研究所在電信視頻領域的研究中,重點分析大視頻質量較差的根本原因和硬盤故障預判兩個內容,結合研究的結果發現通過智能運維技術的應用提升了電信大視頻運維系統的運行效率,所以技術人員可以從應用場景出發來研究智能運維,如分析AIOps的智能運維場景分類。
1.3智能運維架構關鍵性內容分析
在智能運維的實踐應用研究中,學者發現從數據管理、算法分析及應用場景等多個方面的要素進行實踐研究更加合理,在AIoT+AIOps數據中心這一概念提出以后,智能運維的應用能夠將數據與算法等條件作為著手點進行分析,若以軟件系統作為基礎進行分析,那么建立數據平臺和數據算法體系則更能滿足實際需求。
1.智能平臺的軟件組成
數據平臺主要包括以下幾個重要的層面:第一,數據采集層,智能架構的數據主要產生于ITOM監控工具集,如網絡性能檢測與診斷及其他服務的性能監管等,都需要數據采集層來完成,云原生技術智能運維平臺的數據采集層具有較高的技術要求,采集層需要具備跨平臺、跨語言、兼容的多種模式,統一采集才能確保數據的穩定性,建立起快速的傳輸機制,為系統后續的運維管理帶來便利。第二,數據處理層,在數據處理的過程中,云原生技術的智能運維平臺的發展速度飛快,對數據處理層的服務性能要求較高,所以數據處理層要具備多數據源、快速接入、元數據提取與管理等能力,企業需要對數據分析的接口進行一定的拓展,才能滿足實踐的需求。第三,數據存儲層,云原生技術的智能運維數據存儲層要具備出色的可擴、縮容能力,在實踐中要快速的存儲已經采集的信息,并且要能夠結合智能運維平臺的功能實現數據的更新,可以更好的節省成本,快速的調整各類安全接口[2]。
2.算法平臺的詳細分析
云原生技術智能運維中的算法平臺需要經歷一個持續發展的過程,選取的算法要和其應用場景具備密切的聯系,其中的常見經典場景可以參考表1的部分內容。從實踐的角度來看,相關算法對應的場景為了達到更高的性能指標,技術人員需要考慮多種算法結合使用的情況,并不只有表格1中的相關內容,若在某個特定的場景中,技術人員可能會需要嘗試應用多種算法,或者對某一算法進行創新和改造才能達到理想的應用效果。目前人工AI的機器學習算法還難以滿足使用的需求,需要及時的升級算法才能使其更加智能,為搭建更加高效的云原生技術智能運維算法平臺,技術人員需要將場景和算法相匹配,不斷的優化人工AI的算法過程。
1.4架構部署
一般來說,云原生智能架構在部署方面可以實現多形式部署,一般表現在網元、監控數據開放、外部訪問等。在智能云原生平臺中,和服務及協議適配服務間進行連接,配置服務代理采用二級監控的方式,對監控信息進行過濾和整合處理,在既定時間中傳輸到智能運維子系統中。
1.5演進設計
以虛擬化技術作為基本條件,很多運營商都開始建立云網絡運營系統,底層一般運用多云或裸金屬軟件資源,利用虛擬網絡功能對網云功能進行處理,經過管理和編排,實現信息資源的配置優化,同時也能連接系統和網絡管理系統。在應用云原生構建云網融合系統時,可以在既有的架構基礎上增加智能云原生平臺,在平臺中增加容器資源,促進管理與編排系統的優化更新,對網元功能進行分解和封裝。
二、面向云原生智能運維架構和關鍵技術的實踐
2.1智能運維實踐案例分析
云原生技術智能運維架構在互聯網領域的應用非常廣泛,如某公司建立起的“AIOps”智能監控系統,異常故障檢測的設備召回率可達到85%以上,能夠有效的提升故障告警的準確率,而且系統的故障排查效率也大大提高,還能夠根據周期性的趨勢預測來調整相應的參數,其數據的時間在分布上可以大規模的跟隨機器學習。如百度的“單機房故障自愈壓縮”的系統可以有效的解決了機房故障時間長的問題,同時以當下的監控平臺系統和異常檢測算法,實現了自動化的感知和定位,解決了傳統系統中存在的各種問題,實現快速的故障自愈。在現代的電信行業中,流量媒體業務成為大眾關注的焦點,寬帶IP網主要是端對端的網絡質量監控,智能化的運維架構可以實現故障的自診斷功能,并構建起集約化的寬帶服務智能運維體系,能夠切實的提升運營商網絡的運維效率與智能化的程度。如在IPTV的系統中融入了智能異常檢測的功能以后,能夠對實時產生的海量數據進行分析,及時發現人工察覺不到故障或異常,增強了用戶的體驗。還有其他相對經典的單場景行業實踐中,都可以結合云原生技術智能運維架構的相關內容優化云計算的效果[3]。
2.2詳細內容
云原生技術智能運維架構的設計主要包括以下兩個方面的內容:一是智能運維要結合云原生技術的特點來配合設計,使之能夠為云原生系統所服務;二是智能運維要利用云原生技術提升按需彈性的伸縮功能,作出動態化的部署,如圖1所示,云原生技術智能運維架構非常清晰明了。從運維對象的角度講,云原生技術智能運維架構是針對云原生系統設計的內容,這一系統的運維對象相對固定,能夠按照需求來彈性的伸縮調度,所以匹配的智能運維系統也需要適應這種變化的趨勢,其基礎設施包括服務器、虛擬機及數據庫等,可以建立起不同服務的連接通路。從數據平臺的角度講,數據平臺屬于智能運維架構的基礎平臺,能夠為云原生技術智能運維架構中的算法平臺提供一定的技術支持,對于數據的存儲則要重點的考慮如何保存海量數據,并進行跟蹤的服務。從數據快速篩選的角度考慮,可以幫助云原生技術智能運維架構有效的節省成本,并智能化的調整參數,幫助系統快速地刪選有效數據,還能夠自動刪除一些無效的歷史數據,用于降低系統的存儲成本壓力。從數據存儲庫的分類來看,原始數據庫與樣本數據庫是其主要的組成部分,二者之間相互配合運行但又相對獨立,樣本數據庫的數據來自于原始數據庫,原始數據庫中的數據則包括有效、無效兩種,所以原始數據庫中的部分數據可能會定時地清空,但是通常不會刪除,隨著數據量的疊加,其數據的類型也在逐漸的豐富。而且云原生技術智能運維架構的算法平臺可以根據實際場景來設計,基于微服務架構的基礎上,屬于相對獨立的微服務組件,可以不斷的擴充場景再進行設計與開發,在后期的運營階段能夠實現多場景的串聯應用。
三、結束語
目前我國已經應用了5G技術,這對于云原生技術智能運維架構的發展而言,創造了有利的環境,所以云網融合技術的持續發展,需將云原生技術智能運維架構的關鍵技術作為主體,才能夠引導并管理云原生系統,幫助現代通信運營軟件實現快速的發展,而云原生技術智能運維架構又需要多種算法和完善的技術支持,因此相關領域的技術人員仍需要不斷研究,以謀求云原生技術智能運維架構關鍵技術的持續發展。
參? 考? 文? 獻
[1]郭濤.Aruba持續進化的道與術[J].網絡安全和信息化,2021(02):13-16.
[2]薛龍,陸鋼,周奇,張會炎,萬亭君.面向云原生的智能運維架構和關鍵技術[J].電信科學,2020,36(12):105-112.