商英俊 劉巖 尹廣彬
摘要:運維管理系統的發展有兩大促進因素,一是需求驅動,二是技術驅動。新型網絡架構的出現以及被管對象新特征對運維提出了新的管理需求,同時人工智能和虛擬化等新技術的出現,對于提升運維管理的智能性奠定了基礎。結合OODA思想,研究了運維管理的自感知、自分析、自決策、自優化等智能管控能力,同時研究了基于信息熵的探針和探測站點選擇,結合實際需求研究遠程運維和自動巡檢,提升管理的時效性。
關鍵詞:自優化;虛擬網絡功能編排;遠程運維;自動巡檢
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2021)18-61-3
0引言
智能運維是實現網絡運行狀態實時監控、資源按需動態調控、故障快速定位診斷的重要手段。在網絡運行過程中,需要實時監控網絡運行狀態和資源使用情況,基于應用需求,按需動態調控資源,及時排除故障。通過網絡的有效和高效運行,滿足多樣化業務的高要求。
1自感知
1.1應用需求感知
操作人員通過可視化向導式人機界面,在應用和網絡能收稿日期:2021-06-24力之間形成映射關系,轉化為對網絡資源的需求,包括源和目的地址、帶寬、優先級、安全等級和時效性。
1.2多手段網絡狀態感知
網絡狀態感知的手段主要有:①定時輪詢,基于配置文件靈活設定輪詢時間和參數,定期進行重要關鍵參數的采集和感知。②主動上報,網絡被管設備基于trap機制主動上報自身運行狀態和活躍告警消息,全方位細粒度的數據采集是精準全面分析的基礎。③采集點部署流量探針等進行流量信息的實時采集和監視,在采集節點部署探針需要根據網絡實時動態拓撲調整探針設備最佳部署位置,即探針的動態部署算法。
探針動態部署方法步驟[1-3]描述如下:
步驟1:基于多維感知手段實時監測網絡運行狀態。
因此,可以用信息熵增益A、B表示每個探針信息熵增益。其中,信息熵增益B可在離線環境下計算并存儲,信息熵增益A基于計算推理的算法進行計算,可大幅度降低探針信息熵增益計算的在線計算復雜度,減少計算時間。
步驟6:備選探針集合中信息增益最大的探針,進行信息發送。
步驟7:計算網絡中剩余的不確定度( | ),代表網絡中所有節點,如下:
如果網絡中剩余的不確定度小于設定的閾值,表明探針已經將網絡運行情況探測明白,結束探測;否則返回步驟4,繼續選擇和發送探測任務。
步驟8:將已發送探針的返回結果作為故障診斷的輸入,進行故障診斷和定位。
本方法將探針的信息熵增益簡化為2個條件熵之差,分別在離線和在線環境下計算,節省了在線計算時間,降低了計算復雜度。因此高動態網絡的故障探針的部署方法具有如下優點:
①用信息熵增益A和B的差的絕對值來表示探針的信息增益,為了減少在線計算時間,一個條件熵可以在離線模式下計算;②為了降低計算復雜度,另一個條件熵基于近似推理法計算獲得。
1.3自決策
自決策[7-9]是基于網絡運行過程中的動態應用需求,實時更新網絡資源狀態,或者根據網絡效能評估結果,進行資源優化調控策略的動態生成。同時,智能運維需要調控位于不同地理位置、具有不同通信能力及屬于不同管理域的資源,需要進行跨域網絡功能編排,需要運維管理中心協同不同的管理域共同完成跨域的或者端到端的資源調控。
1.4自配置
自配置體現在兩方面,一是網絡開通前的靜態籌劃和快速開通,另一個是網絡運行過程中的動態調控配置。靜態籌劃和快速開通,提供向導式可視化一鍵開通配置。
同時在網絡運行過程中進行資源動態調控,靈活設定多參數閾值,并制定對應的資源調控策略。在網絡運行過程中,基于設定的閾值,當發現流量帶寬越限或節點鏈路故障等網絡異常事件發生時,自動觸發策略決策,實現網絡資源動態調控和自配置。
1.5自優化
基于大數據對主動上報和被動感知的多維數據進行數據清洗、去重、標注、分析、融合和評估,分析網絡流量趨勢、基于任務的資源分配情況、故障率等,建立評估指標體系是網絡效能評估的第一步,選擇評估算法,評估體系的選擇也可以是客觀指標,以網絡健康度為例,評估指標體系包括實時性、資源利用率、快速組網能力、抗毀生存性、抗干擾性等多個一級指標,同時每個一級指標可以根據實際需要進行分解和細化。同時評估指標體系還可以從用戶的主觀角度進行設定,即基于用戶(QOE)的主觀評估。
在感知獲取的多維網絡數據的基礎上,基于網絡運行狀態和歷史數據,利用深度神經網絡模型進行訓練和預測,最終實現網絡態勢預測,進而實現前瞻性的運維管控。
1.6 KVM和自動巡檢
通過智能化和自動化運維管理,減少管理員管理和操作負擔,提高管理效率。通過靈活設定和定時輪詢被監控對象的告警參數閾值,實現告警精準定位、故障診斷和前瞻性預測,實現“零延時”運維[10]。提高管理的實時性、準確性和自動化程度。
基于遠程運維實現對遠程機房內的路由器、交換機、服務器等運行狀態實時監視和遠程操作控制。設定自動巡檢任務、任務開始時間、任務結束時間及巡檢對象,設定定時器,自動觸發自動巡檢任務,同時基于巡檢結果生成巡檢任務工作報告,分發推送至不同的值班首長。讓值班首長實時掌握值班崗位網絡情況,零時延處理網絡問題。
2結束語
運維管理系統的發展遵循需求牽引和技術驅動。一方面大數據、云計算、人工智能等一系列新技術,以及高動態彈性網絡架構的出現,上述因素對運維管理提出了新的智能化的管控需求。另一方面,運維管理要適應新的彈性網絡架構,在管理體制、管控流程、管理架構等方面進行適應性提高,同時虛擬化、大數據和人工智能等新技術也要引入運維管理,提升管理的智能性和主動性,實現真正的零接觸、零延時運維,實現無人值守運維。
參考文獻
[1]薛明.基于SNMP局域網流量監測系統的應用研究[D].鄭州:鄭州大學,2006.
[2]李濤,張亞群,劉岱平.面向服務的校園網流量監控系統設計與實現[J].現代計算機(專業版),2009(1):154-156.
[3]宋進紅,沈云琴.使用CactiEZ輕松構建校園網絡流量監控系統[J].河南城建學院學報,2009,18(4):57-59.
[4]段宗濤,林莎.基于SNMP的網絡流量監控系統的設計與實現[J].微型機與應用,2006(11):25-27.
[5]董加敏,王斌.基于SNMP協議的高校網絡流量監控管理系統的研究[J].廣州大學學報(自然科學版),2009,8(1):53-57.
[6]張彤,吳世榮.基于SNMP計算機網絡流量監控系統研究[J].計算機技術與發展,2011,21(1):88-91.
[7]徐鶴,王汝傳.一種P2P流量監控系統的設計及實現[J].計算機技術與發展,2009,19(10):6-10.
[8]趙英,黃九梅,董小國.網絡流量監控系統的設計與實現[J].計算機應用.2004(24):32-33.