滿都拉
(內蒙古電力培訓中心,內蒙古 呼和浩特 010011)
隨著SDN技術的快速發展和應用范圍的增加,采用SDN構建的通信網越來越多。采用SDN技術可以實現數據控制和數據轉發功能的分離,并通過可編程技術極大地提升網絡建設和運營的效率[1]。SDN技術給網絡帶來資源利用率提升的同時,也給網絡故障管理帶來了新的挑戰[2]。為解決故障決策算法性能低的問題,Xia等[3]提出采用層次分析法提高網絡決策的準確率。Xu等[4]提出采用K均值近鄰算法對網絡流量進行監測,為維護人員提供決策依據。Gavrilut等[5]提出采用音視頻流和時間敏感流的聯合路由策略,提升網絡的服務質量。Novaes等[6]提出采用長短期記憶對網絡流量進行預判,提高異常事件的預測準確率。Novaes等[7]提出基于生成對抗網絡的網絡流量檢測機制,提升算法對網絡環境的適應性。Borgiani等[8]提出采用網絡劃分的策略,解決大規模場景中終端監測效率低的問題。
通過對已有研究分析可知,為提升網絡服務質量,網絡故障管理領域已經取得較多的研究成果。但是,隨著網絡攻擊數量和類型的增加,網絡故障管理領域存在的問題也逐漸增加。為解決網絡攻擊導致故障決策機制的安全性低、效率低的問題,本文提出了基于網絡特征的安全高效通信網故障決策機制。在性能分析環節,驗證了本文提出的故障決策機制在故障管理決策機制的安全和效率兩個維度上具有較好的性能。
為了保證提出的故障決策機制符合網絡環境和適應網絡運維需求,本文首先對SDN環境下的故障管理平臺進行構建。根據網絡環境特點,本文構建的故障管理平臺架構如圖1所示。該架構包括故障決策平臺、全局控制器、SDN控制器、轉發器4種類型的設備。其中,故障決策平臺的設計是本文的主要工作。因為故障決策平臺需要與全局控制器、SDN控制器、轉發器3種類型的設備進行對接,所以需要滿足特定的功能需要。詳細的功能需求在決策機制的設計過程中進行描述。故障決策平臺需要實現的功能包括故障預測、故障定位、故障恢復。首先,在故障預測方面,故障決策平臺通過對網絡運營數據的分析,實現故障預測。其次,在故障定位方面,故障決策平臺通過對告警數據分析,實現故障定位。最后,在故障恢復方面,故障決策平臺根據故障預測和故障定位結果,實現故障恢復。因為網絡具有分布式架構的特點,故障決策使用算法的模型需要多方協作。

圖1 故障管理平臺架構
基于故障管理平臺的架構,以保障故障決策機制的安全性和高效率為目標,本文設計了通信網故障決策機制,具體流程如圖2所示,主要包括創建安全的數據通信通道、監測告警數據、監測異常數據、啟動故障定位和故障預測機制、啟動故障恢復機制5個步驟。下面對各個步驟進行詳細描述。

圖2 故障決策機制的流程
故障管理是決定網絡服務質量的關鍵工作,因此故障管理中涉及的數據安全是故障管理工作的前提和保障。為防止故障管理數據被篡改或偽造,本文采用安全通信密鑰的方式,為數據通信雙方創建安全的通信通道。
從故障管理平臺架構可知,故障管理相關的重要管理組件包括故障決策平臺、全局控制器、SDN控制器3種類型設備。SDN控制可以獲得自身管轄域內轉發器的設備特征;全局控制器可以對所有的SDN控制器運行數據進行監測;故障決策平臺可以對全局控制器的運行數據進行監測。為滿足故障管理對數據的安全要求,本文設計的安全數據通信密鑰包括故障決策平臺與全局控制器的通信密鑰、SDN控制器與故障決策平臺的通信密鑰。通信密鑰的創建和使用屬于成熟技術,可以使用已有技術進行創建。由于SDN控制器與故障決策平臺的通信需要通過全局控制器進行轉發,所以轉發過程采用VPN技術或隧道技術。
監測告警數據包括全局控制器、SDN控制器、轉發器3種類型設備的告警數據。全局控制器和SDN控制器的告警數據由故障決策平臺進行監測,數據通信使用安全通信密鑰加密。轉發器設備的告警數據由所在域的SDN控制器進行監測。當發現轉發器設備出現告警時,所在域的SDN控制器將告警數據提交給故障決策平臺進行分析。通過上述分析,故障決策平臺可以得到全局控制器、SDN控制器、轉發器3種類型設備的告警數據,從而為故障定位提供安全和全面的運維數據,為故障管理決策提供數據支撐。
監測異常數據的過程與監測告警數據的過程類似,主要區別是設備的異常數據獲取方式與告警數據獲取方式不同。告警數據可以通過網絡運維經驗和設備數據轉發過程的閾值設置獲得,設備的異常數據需要根據不同的場景進行分析。為提升設備異常數據的利用價值,本文在下一節提出基于TOPSIS的算法對異常數據進行分析。
故障定位機制的主要功能是根據告警數據的關聯性分析,挖掘出產生告警的根本原因,從而確定發生故障的網絡設備或網絡鏈路位置。故障預測機制的主要功能是根據異常數據的深入分析,確定可能產生故障的設備或鏈路的位置。相對于故障定位機制,故障預測機制的難度較大。已有故障定位和故障預測研究成果較多,當前的發展趨勢是基于人工智能技術對問題進行建模,其難點主要是相關數據收集比較困難。本文的故障決策機制架構可以為人工智能算法提供安全可靠的網絡運維數據,從而提升故障定位和故障預測機制的性能。
采用故障定位機制和故障預測機制可以定位疑似故障和潛在故障設備、鏈路資源。在故障決策平臺獲得這些信息后,可以通過故障恢復機制對相關設備進行恢復,從而減小或避免故障設備對網絡性能的影響。為提升網絡服務質量,通常將故障預測機制與資源備份機制進行融合,避免或降低潛在故障的發生對網絡服務質量的負面影響。
從監測異常數據步驟分析可知,異常數據的準確性和全面性決定了故障預測結果的準確性和及時性。為了提高異常數據監測結果的性能,本節提出基于TOPSIS的異常數據分析方法。
異常數據需要從全局控制器、SDN控制器、轉發器3種類型設備獲取,在獲取異常數據時,需要解決獲取哪些類型的數據、什么時候獲取數據兩個關鍵問題。對于獲取哪些類型數據的問題,主要考慮數據是否可以反映網絡異常事件的發生;對于什么時候獲取數據的問題,主要考慮獲取數據的觸發條件,避免過多或者過少的獲取數據事件的發生;在獲取數據類型方面,基于網絡運維經驗和故障預測機制的分析,本文以網絡節點為研究對象,將網絡節點的抗攻擊能力、轉發數據延遲、異步消息數量、異步消息間隔4個指標作為采集數據的類型。


通過上述分析可知,網絡節點的抗攻擊能力、轉發數據延遲、異步消息數量、異步消息間隔4個指標對網絡節點的異常識別都具有較好的參考價值。隨著運維經驗的積累,能夠反映網絡節點異常的指標數量和類型會逐漸增加。為了充分利用這些分析指標,需要采用科學有效的指標分析機制,才能根據指標的重要性對網絡節點的異常情況進行分析。
首先,將網絡節點和其包含的相關屬性構建為屬性矩陣如公式(1)所示。其中,每個元素aij表示第i個網絡節點的第j個屬性的取值。對于每個網絡節點,本文包含4個屬性,所以j的取值為4個。
(1)
其次,由于每個屬性值的取值范圍不同、屬性表示的含義不同,不能對每個屬性值進行公平的分析。所以,需要使用公式(2)的方法,對每個屬性值進行歸一化處理,從而便于網絡節點的屬性值的重要性分析。
(2)
最后,根據網絡運維經驗,給每個屬性值設置一個權重wl,可以對屬性值進行有效分析,如公式(3)所示。此時,每個節點是屬性取值之和越大,網絡節點發生異常的概率越大。但是,具體哪些節點屬于異常節點,缺少一個好的評價標準。通過對已有研究成果分析可知,TOPSIS方法是評價多指標問題的常用方法,而且該方法分析的指標維度較多。所以,本文采用TOPSIS方法對指標的重要性進行分析。
(3)
TOPSIS方法通過公式(4)和公式(5)計算正理想點A+和負理想點A-的取值,并根據網絡節點屬性值與理想點的距離來判斷節點的異常情況。網絡節點屬性值與理想點的距離可以使用公式(6)進行計算。當Ci的取值越大時,表明當前網絡節點發生異常的可能性越高,需要快速反饋該節點的異常數據。
(4)
(5)
(6)
本文提出的基于網絡特征的安全高效通信網故障決策機制,主要解決網絡攻擊導致故障決策機制的安全性低、效率低的問題。所以,在性能分析時,從故障管理決策機制的安全和效率兩個維度進行分析。
在故障管理決策機制的安全性分析方面,從影響決策安全的因素進行分析。通過對已有研究分析可知,影響決策機制安全性的因素主要包括節點數據的安全性、數據通信的安全性。在節點數據的安全性方面,從異常數據、告警數據兩個維度進行分析,本文的異常數據采用TOPSIS方法進行評價和觸發,具有較好的科學性和公平性,能夠保證數據的安全性;告警數據采用通用的網絡管理觸發機制,已經過多年的實踐檢驗,可以保障告警數據的安全性。在數據通信的安全性方面,本文故障決策平臺、全局控制器、SDN控制器3種類型設備在傳輸異常數據和告警數據時,采用通信密鑰進行加密,可以有效解決通信鏈路攻擊帶來的數據篡改問題。
在故障管理決策機制的效率分析方面,主要從各個網絡節點效率、整體流程效率兩個維度分析。在各個網絡節點效率方面,本文的網絡節點包括故障決策平臺、全局控制器、SDN控制器、轉發器4種類型的設備。在故障決策平臺方面,作為數據匯聚和故障分析的主要設備,可以專注于故障管理的特長,不需要關心網絡設備的數據采集過程。所以,故障決策平臺效率較高。對于全局控制器和SDN控制器,采用主從結構,可以顯著降低單點控制器導致的擁塞問題和單點故障問題,從而提升網絡節點控制的效率。對于轉發器,采用分域管理策略,每個轉發器可以時刻與其所屬的SDN控制器進行交互,顯著提升轉發器和域內控制器的執行效率。在機制整體流程效率分析方面,本文將故障預測、故障定位、故障恢復3個故障管理功能融合到一個故障管理決策平臺。該平臺可以充分共享告警數據、異常數據。這種整體流程設計有效解決了傳統機制中將故障預測、故障定位、故障恢復作為3個獨立系統進行設計所帶來的效率低下的問題。
綜上所述,本文的故障管理決策機制在故障管理決策機制的安全和效率兩個維度方面,有效解決了傳統故障管理機制存在的安全性低、效率低的問題,具有較好的應用價值。
SDN技術給網絡帶來資源利用率提升的同時,也給網絡故障管理帶來了新的挑戰。為解決網絡攻擊導致故障決策機制的安全性低、效率低的問題,本文提出了基于網絡特征的安全高效通信網故障決策機制。根據網絡環境特點,本文構建了故障管理平臺,并以保障故障決策機制的安全性和高效率為目標,設計了通信網故障決策機制。在性能分析環節,驗證了本文提出的故障決策機制在故障管理決策機制的安全和效率方面具有較好的性能。在性能分析環節可知,故障決策機制的優劣除了較好的決策平臺架構,還需要在故障定位、故障預測、故障恢復方面具有較好的算法。下一步工作中,將對已有的故障定位、故障預測、故障恢復算法進行調研和分析,從而提出不同場景下可選算法的建議和策略,進一步提升故障決策機制的應用價值。