呂娜,潘武,*,陳柯帆,張彥暉
1. 空軍工程大學 信息與導航學院,西安 710077 2. 中國人民解放軍94860部隊,南京 210000
軟件定義網絡[1-3]將控制平面與數據平面分離,采用邏輯集中控制方式,基于靈活、開放、可編程的南北向接口,對網絡設備進行統一管理,并且受到業界的廣泛關注。機載網絡[4-5]作為鏈接空中平臺的紐帶,為平臺間信息交互服務提供重要保證,但其一直遵循著傳統分布式網絡架構的設計思路,難以滿足未來航空作戰中成員的靈巧作戰協同需求。為有效支撐航空平臺間的通信需求,SAMPIGETHAYA等[6-8]將軟件定義網絡(SDN)的思想應用于機載網絡構建中,軟件定義機載網絡的概念被提出。與傳統機載網絡相比,軟件定義機載網絡可以使網絡的配置與管理變得高效簡單,充分提升網絡管控的靈活性,有效打破網絡功能僵化造成的瓶頸。
航空平臺的通信端機形成軟件定義機載網絡的數據平面,控制器所形成的控制平面是軟件定義機載網絡的管控核心,維護著數據平面的可靠信息交互。每個控制器管控其控制域內的若干通信端機。高對抗作戰環境下,控制器的設備故障或鏈路強干擾故障,造成其域中的通信端機失去網絡管控,導致相關數據平面部分的信息轉發失效,從而影響相應作戰任務的實施。因此,針對軟件定義機載網絡控制平面控制器故障問題,研究有效恢復控制器故障的方法,對提升控制平面的健壯性具有重要意義。
目前,對于控制器故障恢復的研究,主要從控制器部署和交換機遷移2個方面提高控制平面的健壯性。對于控制器部署方面的研究,主要是在網絡的前期規劃階段,通過建立備份機制[9-12]及時應對控制器突發故障情況,恢復網絡的正常管控。文獻[9]設計一種考慮備份開銷的最優SDN控制器備份算法,提高網絡的可用性和可靠性。文獻[10]采用基于多目標優化的粒子群算法,得出最優的備份控制器部署方案。可以看出,對于控制器數量較少的小規模網絡,部署備份控制器可以有效快速地恢復控制器故障,增強控制平面的健壯性;而在控制器數量較多的大規模網絡中,需要備份的控制器數量增多,控制路徑需要占用鏈路的開銷增多,整個網絡也變得更加臃腫。因此,備份機制較難適用于軟件定義機載網絡的控制器故障恢復場景。
另一類研究采用交換機遷移思想,即指當某個或某幾個控制域內的控制器發生故障,將故障域內的交換機遷移至其他正常控制域內,對網絡進行彈性管控。遂行作戰任務的作戰單元,根據所處的位置以及控制器容量等因素,每個控制器管理一定數量的通信端機,形成多個控制域,實現正常的信息交互。當某個控制器發生故障時,可以考慮將數據平面中的通信端機進行遷移,轉換控制關系,有效解決機載網絡中控制器故障問題。
在目前的交換機遷移相關研究中,由于負載不均衡會嚴重限制網絡的效能,不僅會造成控制器資源的浪費,而且高負載的控制器容易崩潰,從而削弱控制平面的健壯性;因此,有較多文獻著重考慮提高負載均衡率,并設定相應的交換機遷移策略[13-21]。文獻[13]提出一種彈性的分布式控制器體系結構ElastiCon,設計一種新穎的交換機遷移協議實現負載轉移。文獻[14]提出一種基于交換機遷移機制的集群控制器動態負載均衡方法,主要解決控制器之間負載的不均衡,還能夠支持控制器故障轉移且無需斷開交換機連接。文獻[15]針對現有遷移方案中遷移效率低下和遷移代價高的問題,提出基于效能優化的交換機動態遷移策略,使負載均衡率保持在較高水平。文獻[16]提出一種基于過程優化的交換機競爭遷移機制算法,有效避免交換機遷移沖突,并且控制器負載均衡率平均提升25.6%。上述研究主要優化網絡中控制器的負載均衡率指標。
針對交換機遷移過程中的其他網絡性能指標,如遷移時延,遷移距離和通信開銷等,目前也有相關研究基于多目標優化問題,同時優化多個性能指標。文獻[22]基于SMDM(Switch Migration-based Decision-Making)方案,權衡遷移成本和負載均衡率,提出基于貪婪方法的效率感知交換機遷移算法,指導遷移方法的選擇。文獻[23]首要衡量遷移距離和時延,基于Pareto的彈性最優控制器放置框架設計遷移機制,該方法雖然可以在網絡運行過程中對網絡進行彈性調整,但未考慮控制器的負載因素,容易增加相鄰控制器的負擔,造成整個控制平面的負載失衡。文獻[24]提出了一種基于多目標優化的動態交換機遷移算法,基于NSGA-II的多目標遺傳算法同時優化控制平面負載均衡度和交換機遷移所產生的通信開銷。
綜上所述,本文將交換機遷移思想引入軟件定義機載網絡控制節點故障恢復問題,當控制節點發生故障,考慮將數據平面中的傳輸節點進行遷移,構成新的控制關系;綜合考慮傳輸節點遷移時延和控制器負載均衡目標,提出一種基于時延和負載均衡的傳輸節點遷移TNM-LLB(Transfer Node Migration Latency and Load Balancing)策略,對數據平面中的傳輸節點進行遷移。在恢復故障的過程中,該策略在犧牲少量故障恢復時間的同時,使網絡中控制節點的負載處于較為均衡狀態,最終有效解決機載網絡控制節點故障問題。
為了便于描述,將機載網絡中的航空平臺定義為節點,網絡中的控制器映射為控制節點,通信端機映射為傳輸節點,具有多種作戰功能的有人/無人作戰單元,在不同作戰階段,根據所處位置以及控制容量等因素,將網絡劃分為多個控制域。采用與文獻[25]類似的控制器部署方式,在控制域中,一個控制節點管控多個傳輸節點,各域中控制節點對域內傳輸節點進行控制指令的上傳下達,構成邏輯集中、物理分散的網絡控制模式,完成相應的作戰任務。應用場景如圖1所示,假設某一控制域內的控制節點發生故障,該域內的傳輸節點將暫時失去管控,需要遷移至新的控制域內,獲取新的控制指令,有效解決控制節點故障對網絡造成的影響。

圖1 軟件定義機載網絡控制節點故障場景示意圖Fig.1 Schematic diagram of software-defined airborne network control node failure scenarios
軟件定義機載網絡拓撲用無向圖G=(V,E)表示,其中V表示網絡中節點集合,E表示網絡中鏈路集合,G中包含M個控制節點C={c1,c2,…,cM}和N個傳輸節點S={s1,s2,…,sN},其中|V|=M+N。網絡中故障控制節點集合為F={c1,c2,…,cF},正常控制節點集合為Z={c1,c2,…,cZ},其中M=F+Z。控制節點cm管控的傳輸節點集合定義為Wcm,并且Wcm∈S;傳輸節點si與控制節點cm的控制關系用li,m表示,其中,li,m=1表示控制節點cm管控傳輸節點si,li,m=0表示傳輸節點si不受控制節點cm管控。節點i與節點j之間的距離用dij表示,節點的通信半徑為R。將接收遷移傳輸節點的控制節點定義為遷入控制節點,并用集合Cim表示;故障域中需要遷移的傳輸節點定義為遷出傳輸節點,并用集合Sos表示。
基于時延和負載均衡的傳輸節點遷移TNM-LLB策略的基本思路為:首先,控制域中的傳輸節點與控制節點進行正常的信息交互,當所有傳輸節點均無法接收控制節點回復指令時,則判定控制節點發生故障,并會觸發遷移機制。其次,根據該故障域中傳輸節點的通信半徑,確立可遷移區域。在該可遷移區域中,根據傳輸節點遷移所耗費的時延和遷移負載差異矩陣來動態選擇待遷入控制節點,實施遷移操作并轉換控制關系,構成新的控制域。最后,更新控制節點的負載信息,檢查網絡負載是否均衡,判斷是否完成遷移過程。
1) 控制節點負載
在每個控制域中,每個傳輸節點產生的流請求都需要通過控制節點進行處理,并且控制節點將處理結果返回給該傳輸節以及轉發路徑上的其他傳輸節點。因此本文計算控制節點的負載主要考慮控制節點cm所連接的傳輸節點數量Q和所有活躍傳輸節點的平均“packet-in”消息到達速率B,因此定義控制節點cm的負載Lcm表示為
Lcm=α1Qcm+α2Bcm
(1)
式中:α1+α2=1,為簡化研究,取α1=α2=0.5。因此,根據各控制節點的負載,本文采用標準差表示網絡負載均衡率:
(2)

HZ×Z=
(3)
從H中可以較為快速得出網絡中控制節點的負載差異情況,從而依據各控制節點間的負載差異值指導遷移動作的完成。
由于需要將故障域內的傳輸節點遷移至其他正常控制節點域內,在完成遷移動作過后,網絡中各控制節點的負載會發生變化,有可能會造成控制節點的負載失衡;因此,在遷移過程中,需要考慮負載均衡率指標,保證遷移過后的控制節點負載均衡在可接受的范圍內。本文設定負載差異閾值σ,在遷移過程中需要滿足?ci,cj∈Z,hcicj<σ;其中σ值對調整機載網絡中控制節點的負載分布具有重要意義,其大小與控制器的最大負載和最小負載都有關系;根據負載差異矩陣H,負載差異閾值σ計算公式為
(4)
式中:maxHZ×Z為負載差異矩陣H中元素最大值;minHZ×Z為負載差異矩陣H中除0元素外的最小值,即minHZ×Z>0。
2) 遷移時延

可以發現,若所有的遷出傳輸節點為了減少遷移時延,選擇距離近的控制節點進行遷移,則會使就近的控制節點負載突然增大,與距離遠的控制節點負載差異過大,造成整個網絡的負載失衡,影響網絡的性能。因此,在遷移過程中,需要同時衡量網絡的負載均衡率β與遷移時延T2個優化目標,使控制節點故障恢復的性能更佳。本文定義Ω=βT,可以得出本文的優化模型為
minimizeΩ
(5)
式(5)表示模型的目標函數,即在故障恢復過程中,綜合權衡網絡控制節點負載均衡率和遷移耗費的遷移時延;約束條件第1條表示遷移過程中控制節點間的負載差異不能超過閾值σ;第2條表示每個傳輸節點只能選擇一個控制節點作為主控制節點。
在遷移過程中,依照優化模型和約束條件指導遷移,使最終的遷移結果效果更佳。從優化模型中可以看出,遷移后的網絡負載均衡率與遷移時延是相對矛盾的存在,屬于NP-Hard[26]問題。因此,本文的TNM-LLB策略基于貪婪決策[27]實施完成。該策略實施包含以下2個步驟:控制節點故障檢測和基于時延和負載均衡的傳輸節點遷移TNM-LLB算法的實現。
2.2.1 控制節點故障檢測
對于控制節點是否發生故障的判斷,本小節采用超時機制進行檢測。在集中式網絡控制方式下,傳輸節點與控制節點間通過周期性地發送Echo Request和Echo Reply報文,確認當前的狀態信息;若一個傳輸節點連續3次請求沒有收到控制節點的響應,則認為該控制節點處于故障狀態。但由于也可能存在該傳輸節點與控制節點間的鏈路出現故障等其他因素,導致誤判為控制節點故障的情況;因此,假定當該控制域內所有傳輸節點重復上述操作且未收到回復指令時,則判斷為該控制域內的控制節點發生故障,并觸發遷移機制。采用上述故障檢測方法,根據網絡拓撲G=(V,E),可對整個網絡中的控制節點狀態進行依次判定,進而得出故障控制節點集合,所有故障域中需要遷移的遷出傳輸節點集合Sos,以及正常控制節點集合為Z。控制節點故障檢測流程如圖2所示,圖2表示在某個控制域中,采用超時機制來判定該域中控制節點的狀態。

圖2 控制節點故障檢測流程Fig.2 Control node fault detection process
2.2.2 TNM-LLB算法實現


算法1 TNM-LLB算法輸入:遷出傳輸節點集合Sos輸出:遷入控制節點集合Cim,連接關系li,m1) 由Sos和節點的通信半徑為R得出可遷移區域Δ和Δ中包含的正常控制節點集合Λ2) 基于控制節點負載Lcm,計算負載均衡率β和負載差異矩陣H3) for?p∈Sos do4) for?q∈Λ do5) 計算dpq,Tpq,β,Ω6) 選擇具有minΩ對應的遷入控制節點q7) 遷移傳輸節點p至控制節點q8) 添加節點q至Cim9) 更新負載差異矩陣H10) ?ci,cj∈Λ11) ifhcicj<σ12) 完成節點p的遷移過程13) else 選擇次最小Ω對應的遷入控制節點q',goto 7)14) end if15)end for16) end for17) ?i∈Sos,m∈C18) if∑Mm=1li,m=119) 完成所有遷出傳輸節點的遷移過程20) 更新Cim和li,m21) end if22) 輸出Cim和li,m
算法復雜度分析:假設遷出傳輸節點集合Sos中有e個元素,正常控制節點集合Λ中有f個元素,則可從算法中發現:第1)行通過遷出傳輸節點集合Sos和通信半徑,計算可遷移區域Δ和Δ中包含的正常控制節點集合Λ,其時間復雜度為O(e+f+z);第2)行為計算各控制節點的負載、負載均衡率和負載差異矩陣,其時間復雜度為O(z2);第3)~16)行為遷移動作,其時間復雜度為O(efz2);第17)~22)行為約束條件的判定,其時間復雜度為O(ez),因此,算法的整體時間復雜度為O(efz2)。
為了驗證本文所提TNM-LLB策略的性能,本節仿真采用MATLAB軟件,將本文策略與距離就近遷移(Distance Closest Migration,DCM)策略[28]和分布式逐跳(Distributed Hopping Algorithm,DHA)策略[29]進行比較,驗證TNM-LLB策略的有效性和可行性。各策略的對比描述如表1所示。
考慮機載網絡各作戰單元間動態組織配合,在網絡拓撲上被視為隨機動態變化,因此,在實驗過程中使用的拓撲為,在給定的區域中隨機生成數個節點,這些節點依據相關子域劃分方法[25],被劃分為多個控制域。仿真參數設置如表2所示;假設在仿真環境中,控制節點故障率在0~0.3中隨機取值,節點平均流請求量在0~2 packet/ms中隨機取值,節點移動速度為340 m/s。值得說明的是,上述參數的設置僅影響仿真計算的具體數值,并不影響各策略的性能對比,在實際應用中,可根據具體情況進行設置。

表1 策略對比Table 1 Strategy comparison

表2 仿真參數設置Table 2 Simulation parameter setting
1) 遷移時延
本實驗分別在節點規模為60、100、140的航空網絡環境中,并且這些節點被劃分為10個子域,即網絡中控制節點數量為10,同時設定網絡中故障控制節點的數量不超過控制節點總數的30%。
圖3表示節點規模為60、100、140時,遷移時延隨故障控制節點數量的變化情況。由于遷移時延主要與遷移傳輸節點數量以及遷移對象間的距離有關,所以當網絡中節點規模越大,故障控制節點數量越多,需要遷移的傳輸節點也越多,因此,整個遷移過程所耗費的遷移時延也隨之增大。并且可以看出,由于DCM的就近遷移策略旨在選擇故障域附近的正常控制節點進行遷移,使得整個遷移過程所耗費的時延最少;DHA策略根據網絡中控制節點剩余容量的大小關系,選擇剩余容量最大的進行遷移,而較少考慮遷移對象間的距離,導致遷移過程中耗費的遷移時延最大;本文由于兼顧遷移時延和負載均衡率兩個目標,根據優化模型完成遷移過程,使得TNM-LLB策略下的遷移時延處于DCM與DHA之間。由于機載網絡相較于地面網絡具有高動態拓撲變化等特性,因此對網絡中的遷移時延要求較高;但由于機載網絡的規模也較大,其拓撲變化也需要一定的時間。從圖中可以看出,3種策略的遷移時延均在秒級范圍,能有效應對機載網絡故障恢復問題。而TNM-LLB策略在犧牲少量遷移時延的條件下,來獲取更低的負載均衡率,使最終遷移效果更佳。

圖3 不同網絡規模下遷移時延隨故障控制節點數的變化Fig.3 Changes in migration delay with number of fault control nodes at different network scales
2) 負載均衡率
本實驗同樣分別在節點規模60、100、140的航空網絡環境中,控制節點數為10,網絡中故障控制節點的數量不超過控制節點總數的30%,對比不同網絡規模下,各策略進行遷移時得出的負載均衡率隨故障控制節點數的變化。
從圖4中可以看出,在不同的網絡規模下,各策略得出的負載均衡率數值呈現上升趨勢,即網絡的負載越來越不均衡,這是由于隨著故障控制節點的數量增多,需要遷移的傳輸節點隨之增多,導致網絡的控制節點間的負載差異增大,從而網絡的負載均衡率增大。
DCM策略將故障域內的傳輸節點遷移至就近的正常控制節點,使得附近的遷入控制節點的負載突增,與距離較遠的控制節點間的負載差異也增大,并且隨著故障控制節點增多,其附近的控制節點增加的負載也越多,使得整個網絡的負載均衡率呈現上升趨勢;當網絡規模增大時,各域中的傳輸節點相對增多,向附近控制節點遷移的傳輸節點數量增多,導致整個網絡控制節點間的負載差異更大,從而負載均衡率也隨之增大。
DHA策略根據網絡中各控制節點的剩余容量信息,將故障域內的傳輸節點向剩余容量最大的正常控制節點進行遷移。由DHA策略思想可以看出,當控制節點發生故障前,網絡中控制節點的負載差異相對較大時,將故障域內的傳輸節點遷移至剩余容量最大的控制節點,能夠較好的平衡控制節點間的負載差異,減小負載均衡率;然而,當控制節點發生故障前,網絡控制節點負載已處于較為平衡的狀態,此時運用此策略將故障域內的傳輸節點進行遷移,將難以使網絡的負載均衡率處于較低水平。當故障控制節點增多時,隨著網絡規模的增大,故障域內需要遷移的傳輸節點增多,如果將這些傳輸節點遷移至剩余容量最大的控制節點,將使得該控制節點的負載突增,與其他控制節點的負載差異增大,導致負載均衡率增大。因此,從圖4(a)~圖4(c)中可以發現,當需要遷移的傳輸節點越少時,DHA策略的負載均衡率最小,網絡中控制節點間的負載越均衡;否則,隨著遷移傳輸節點的增多,其完成遷移過程造成的負載均衡率增大,負載越不均衡。
本文TNM-LLB策略對遷移時延和負載均衡率進行綜合權衡,通過負載差異矩陣和貪婪決策模型指導遷移過程,使每個遷出傳輸節點在遷移過程中,選擇具有最小優化目標函數的控制節點進行遷移,從而使整個遷移過程產生的負載均衡率保持在較低水平。從圖4中可以看出,當網絡規模增大,故障控制節點增多時,本文策略產生的負載均衡率雖然也在增大,但均低于其他兩種策略,并且處于較低水平,整個網絡中控制節點間的負載越均衡。
圖5表示在節點規模為60、100、140的航空網絡環境中,目標函數隨故障控制節點數的變化對比圖。從圖中可知,相較于其他兩種策略,本文策略以遷移時延和控制節點負載均衡率性能指標為出發點,在犧牲少量遷移時延的條件下,使網絡中控制節點負載更為負均衡,并使最終的目標函數最小,整體遷移效果最佳。

圖4 不同網絡規模下負載均衡率隨故障控制節點數的變化Fig.4 Changes in load balancing rate with number of fault control nodes at different network scales

圖5 不同網絡規模下目標函數隨故障控制節點數的變化Fig.5 Changes in objective function with number of fault control nodes at different network scales
1) 針對軟件定義機載網絡控制域內控制節點故障問題,提出了一種基于時延和負載均衡的傳輸節點遷移TNM-LLB策略,并設計了TNM-LLB算法,將故障域內的傳輸節點遷移至其他正常控制節點域內,進行新的控制關系轉換,實現控制域內的故障恢復。
2) 與其他策略相比,本文策略綜合權衡了遷移時延和控制節點負載均衡率性能指標,并使得最終的目標函數均小于其他兩種策略。在犧牲少量遷移時延的條件下,使負載均衡率小于其他兩種策略,使網絡中控制節點負載更為均衡,同時驗證了本文優化模型能更好地適用于機載網絡控制節點故障恢復場景。