基于覆蓋網(wǎng)絡(luò)的災(zāi)后恢復(fù)策略研究綜述

2023-09-15 03:34:00吳之沫馬琳茹

軟件導(dǎo)刊 2023年9期

吳之沫，馬琳茹

（中國人民解放軍軍事科學(xué)院系統(tǒng)工程研究院，北京 100039）

0 引言

人們的日常生活離不開網(wǎng)絡(luò)提供的各種服務(wù)，各行各業(yè)對網(wǎng)絡(luò)性能的要求越來越嚴(yán)格，網(wǎng)絡(luò)規(guī)模和復(fù)雜度呈爆炸性增長趨勢。然而，當(dāng)前的網(wǎng)絡(luò)基礎(chǔ)設(shè)施面臨著各種各樣的潛在威脅，除了網(wǎng)絡(luò)部件自然老化而導(dǎo)致的失效問題，還隨時可能遭遇地震、洪水、颶風(fēng)等自然災(zāi)害，以及恐怖襲擊、軍事戰(zhàn)爭等人為災(zāi)難性事件。即使發(fā)生故障的是一個或幾個網(wǎng)絡(luò)部件，其周圍區(qū)域也會由于受到網(wǎng)絡(luò)信息流量過載的影響而發(fā)生擁塞，引發(fā)連鎖效應(yīng)，最終導(dǎo)致相當(dāng)一部分節(jié)點甚至整個網(wǎng)絡(luò)崩潰。因此，及時對網(wǎng)絡(luò)故障進(jìn)行修復(fù)至關(guān)重要。

為解決現(xiàn)有TCP/IP 體系架構(gòu)服務(wù)質(zhì)量提升緩慢、路由故障恢復(fù)效率低下以及可擴(kuò)展性差等問題，科學(xué)家們提出使用覆蓋網(wǎng)絡(luò)對現(xiàn)有網(wǎng)絡(luò)進(jìn)行系統(tǒng)性、廣泛性、整體性改造。覆蓋網(wǎng)絡(luò)是一種整合式互聯(lián)網(wǎng)改進(jìn)方案，相較于打補(bǔ)丁式的改良式方案與從零開始的革命式方案，其是一種介于二者之間的折中方案［1］，既不會明顯增加網(wǎng)絡(luò)復(fù)雜性，也無需拋棄現(xiàn)有網(wǎng)絡(luò)體系，只需在現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的IP 層之上、應(yīng)用層之下增加一個中間層，采用覆蓋網(wǎng)絡(luò)改善當(dāng)前互聯(lián)網(wǎng)即可。這種對互聯(lián)網(wǎng)體系架構(gòu)的系統(tǒng)性修補(bǔ)可以在保留現(xiàn)有互聯(lián)網(wǎng)架構(gòu)的前提下提供更可靠的服務(wù)，為下一代互聯(lián)網(wǎng)設(shè)計提供了一種可行性方案。

基于虛擬化傳輸?shù)奶匦裕采w網(wǎng)絡(luò)部署時間短、可拓展性強(qiáng)，在災(zāi)后恢復(fù)方面的應(yīng)用研究呈上升趨勢，目前已被廣泛應(yīng)用于公路交通網(wǎng)絡(luò)［2］、光網(wǎng)絡(luò)［3］、相互依存網(wǎng)絡(luò)［4］、水下無線傳感器網(wǎng)絡(luò)［5］等各個領(lǐng)域。然而，覆蓋網(wǎng)絡(luò)在災(zāi)后恢復(fù)中的應(yīng)用研究尚不成體系，或僅聚焦于單純的故障定位［6］、故障檢測［7］，或側(cè)重于相互依存網(wǎng)絡(luò)［4］的災(zāi)后響應(yīng)。為此，本文對覆蓋網(wǎng)絡(luò)應(yīng)用于信息網(wǎng)絡(luò)災(zāi)后恢復(fù)方面的相關(guān)文獻(xiàn)進(jìn)行整理與總結(jié)，從故障建模和受損網(wǎng)絡(luò)連接恢復(fù)兩個方面入手，綜述覆蓋網(wǎng)絡(luò)災(zāi)后恢復(fù)方法，為相關(guān)研究者提供參考。

1 覆蓋網(wǎng)絡(luò)容災(zāi)性研究基礎(chǔ)

1.1 覆蓋網(wǎng)絡(luò)發(fā)展歷程

覆蓋網(wǎng)絡(luò)本質(zhì)上是一種面向服務(wù)的邏輯網(wǎng)絡(luò)［8］，其節(jié)點由連接在互聯(lián)網(wǎng)上的部分終端節(jié)點或應(yīng)用類服務(wù)器組成，每條網(wǎng)絡(luò)鏈路對應(yīng)一條或多條物理鏈路。如圖1 所示，覆蓋網(wǎng)絡(luò)將二層報文封裝在IP 報文之上，利用成熟的IP 路由協(xié)議進(jìn)行數(shù)據(jù)分發(fā)，構(gòu)建了一層邏輯拓?fù)洹Ｆ渚W(wǎng)絡(luò)拓?fù)溆煞?wù)提供商們根據(jù)用戶需求定義，可以在不改變互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的前提下提供更可靠、容錯性更好的服務(wù)，彌補(bǔ)了傳統(tǒng)網(wǎng)絡(luò)路由的缺陷，提高了互聯(lián)網(wǎng)的可擴(kuò)展性和魯棒性。

Fig.1 Impact of overlay network technology on the Internet hierarchy architecture圖1 覆蓋網(wǎng)絡(luò)技術(shù)對互聯(lián)網(wǎng)層次架構(gòu)的影響

早在1974 年，英國學(xué)者Duerdoth［9］就提出了覆蓋網(wǎng)絡(luò)的概念，不過這個概念最初是應(yīng)用于電信技術(shù)上。在那個模擬技術(shù)與數(shù)字技術(shù)并存的時期，使用覆蓋網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)可以在保留原有電話服務(wù)的基礎(chǔ)上引入數(shù)字技術(shù)，同時避免高昂的經(jīng)濟(jì)成本。隨著信息技術(shù)的發(fā)展，光纖技術(shù)開始走進(jìn)大眾視野。1986 年，德國學(xué)者提出寬帶通信服務(wù)覆蓋網(wǎng)絡(luò)［10］，德國郵政公司將覆蓋網(wǎng)絡(luò)技術(shù)視為發(fā)展高效集成通用網(wǎng)絡(luò)的戰(zhàn)略［11］。自此，覆蓋網(wǎng)絡(luò)正式被視為承舊啟新的框架技術(shù)，繼電報網(wǎng)、電話網(wǎng)、綜合業(yè)務(wù)數(shù)字網(wǎng)之后走進(jìn)了人們的視線。21 世紀(jì)初，覆蓋網(wǎng)絡(luò)被應(yīng)用于可靠多播技術(shù)［12］，充分利用底層網(wǎng)絡(luò)拓?fù)洌ㄟ^覆蓋樹協(xié)議構(gòu)造了可靠分發(fā)樹，為用戶提供故障容忍的密集帶寬。此后，覆蓋網(wǎng)絡(luò)普遍應(yīng)用于網(wǎng)絡(luò)組播技術(shù)。

近年來，覆蓋網(wǎng)絡(luò)技術(shù)得到了深入研究和廣泛應(yīng)用，如以去中心化為特點的對等網(wǎng)絡(luò)（Peer to Peer，P2P）常用于文件共享［13-14］、即時通信［15］、協(xié)同處理［16］和流媒體通信［17］領(lǐng)域；內(nèi)容分發(fā)網(wǎng)（Content Delivery Network，CDN）用于視頻分發(fā)，采用重定向機(jī)制縮短了分發(fā)服務(wù)器與用戶的距離［18］，不僅可以提高訪問速度，還能緩解網(wǎng)絡(luò)擁塞；應(yīng)用層多播機(jī)制通過建立路由器間的多播分發(fā)樹管理成員和分發(fā)數(shù)據(jù)［19］。此外，覆蓋網(wǎng)絡(luò)還常用于增強(qiáng)服務(wù)質(zhì)量（Quality of Service，QoS）［20］、云計算數(shù)據(jù)中心網(wǎng)［21］、軟件定義網(wǎng)絡(luò)（Software Defined Network，SDN）［22］等技術(shù)領(lǐng)域。

覆蓋網(wǎng)絡(luò)受到大眾青睞的主要原因是其可以在不改變底層網(wǎng)絡(luò)的前提下提供組播、QoS 增強(qiáng)等服務(wù)，對下層網(wǎng)絡(luò)故障透明，結(jié)構(gòu)多樣化且具有較低的部署成本和部署難度。這些優(yōu)點有效緩解了傳統(tǒng)IP 網(wǎng)絡(luò)的僵化問題，精簡和優(yōu)化了網(wǎng)絡(luò)整體結(jié)構(gòu)。同時，超節(jié)點的存在使復(fù)雜的網(wǎng)絡(luò)鏈路變得簡單靈活，具有很好的魯棒性［23］。

1.2 網(wǎng)絡(luò)容災(zāi)性的含義

伴隨科學(xué)技術(shù)日新月異的發(fā)展，通信網(wǎng)絡(luò)面臨的潛在威脅也越來越極端，一個完備的通信網(wǎng)絡(luò)體系必須具備一定的容災(zāi)能力。從數(shù)學(xué)層面來說，網(wǎng)絡(luò)容災(zāi)性可被描述為一個網(wǎng)絡(luò)被徹底破壞所需要除掉的節(jié)點數(shù)占總節(jié)點數(shù)的比例，在現(xiàn)實世界中則表現(xiàn)為當(dāng)局部網(wǎng)絡(luò)遭到破壞或網(wǎng)絡(luò)服務(wù)大規(guī)模損毀時，網(wǎng)絡(luò)仍然可以保持關(guān)鍵服務(wù)正常運行的能力。具有較高容災(zāi)性的網(wǎng)絡(luò)能夠更好地預(yù)防和抵御攻擊，并在受到攻擊后快速恢復(fù)。

如圖2 所示，圍繞提高容災(zāi)性這一目標(biāo)，覆蓋網(wǎng)絡(luò)研究工作可以分為兩個方面：一是災(zāi)難損毀模型建立。合適的損毀模型可以精確描述網(wǎng)絡(luò)受損情況，分為確定性損毀模型和概率故障模型兩種；二是受損網(wǎng)絡(luò)的連接恢復(fù)。可采用主動式保護(hù)、被動式恢復(fù)以及主被動結(jié)合恢復(fù)3 種策略，其中主動式保護(hù)策略通過提供備份節(jié)點或鏈路，使覆蓋網(wǎng)絡(luò)可以迅速切換受損節(jié)點或鏈路，防止由于部分節(jié)點或鏈路失效而造成的大面積癱瘓；被動式恢復(fù)策略是指在災(zāi)難發(fā)生后，即使網(wǎng)絡(luò)遭受到外力破壞導(dǎo)致拓?fù)浣Y(jié)構(gòu)發(fā)生變化或重組，仍然可以通過重路由等方式使系統(tǒng)恢復(fù)正常運作，完成預(yù)期主要目標(biāo)，強(qiáng)調(diào)的是網(wǎng)絡(luò)的恢復(fù)能力。

Fig.2 Classification of overlay network research work圖2 覆蓋網(wǎng)絡(luò)研究工作分類

2 災(zāi)難損毀故障建模

網(wǎng)絡(luò)災(zāi)后恢復(fù)的前提是定位網(wǎng)絡(luò)發(fā)生損毀的位置，及時精確地監(jiān)控網(wǎng)絡(luò)故障，這就需要對災(zāi)難損毀故障進(jìn)行建模。災(zāi)難損毀模型可以直觀展示災(zāi)害對網(wǎng)絡(luò)的影響，包括受損位置、損毀范圍、癱瘓程度等。然而，由于災(zāi)難類型多樣，研究人員很難為每一種自然災(zāi)害和人為損壞建立合適的模型，現(xiàn)有研究多為利用幾何知識建立理論模型，主要分為確定性損毀模型和概率故障模型兩種。

2.1 確定性損毀模型

確定性損毀模型的關(guān)鍵在于找到受災(zāi)區(qū)域，關(guān)注的是故障的地理位置，一旦計算出受災(zāi)區(qū)域，便假設(shè)這個區(qū)域中所有的網(wǎng)絡(luò)設(shè)備全部被損毀，即故障概率為1。2010年，Neumayer 等［24］首次將計算幾何的理論工具應(yīng)用于網(wǎng)絡(luò)容災(zāi)性研究中，提出一個簡化的二部圖模型。該模型使用線段表示颶風(fēng)等造成的線性災(zāi)害，圓形表示地震等造成的區(qū)域性災(zāi)害，利用多項式時間算法在平面圖模型中識別最壞線切割和最壞圓切割，這是網(wǎng)絡(luò)最脆弱的部分，任何在地理位置上與該災(zāi)害區(qū)域相交的網(wǎng)絡(luò)組件均無法正常工作；Stojan 等［25］降低了Neumayer 等研究的復(fù)雜性，在其基礎(chǔ)上開發(fā)了一種多項式時間算法，采用橢圓形和多邊形表示網(wǎng)絡(luò)失效的脆弱區(qū)域；Tapolcai 等［26］受到二部圖模型的啟發(fā)，提出固定半徑的圓盤破壞模型，以故障點為圓心，認(rèn)為一定半徑內(nèi)的所有網(wǎng)絡(luò)部件均受到了災(zāi)難影響。考慮到大多數(shù)災(zāi)難可能并不是均勻分布的，Gour 等［27］在固定半徑的圓盤失效模型中引入邊和路徑脆弱區(qū)的概念，使其適用于失效事件非均勻分布的災(zāi)難區(qū)域。該模型使用圓盤表示災(zāi)難損毀區(qū)域，簡單直觀，極大降低了處理區(qū)域性損毀的復(fù)雜度，在災(zāi)后恢復(fù)工作中得到廣泛使用。然而，圓盤形災(zāi)難模型僅適用于區(qū)域性災(zāi)害，如地震、大規(guī)模殺傷性武器導(dǎo)致的災(zāi)難，而對于颶風(fēng)、海嘯、山體滑坡、自然火災(zāi)等，圓盤模型并不能精確描述。

在實際場景中，受災(zāi)區(qū)域往往不是呈現(xiàn)出圓盤形、四邊形、線形等規(guī)則形狀。為精確描述災(zāi)難造成的不規(guī)則傷害，Agrawal 等［28］針對地震造成的損毀，結(jié)合震中位置、震中密度、地震震級和網(wǎng)絡(luò)拓?fù)涞纫靥岢龅卣痫L(fēng)險骨干網(wǎng)絡(luò)模型，將地理區(qū)域細(xì)分為多個任意形狀的地震帶，表示不同級別的地震風(fēng)險；同時還提出地震風(fēng)險最小化節(jié)點遷移方案，使得模型在網(wǎng)絡(luò)動態(tài)變化時也能準(zhǔn)確描述受損區(qū)域與受損程度。然而，這些關(guān)于災(zāi)難建模的研究均默認(rèn)網(wǎng)絡(luò)在一個平面上，而地球是類球形的，這種計算方式難免有些失真。對于一些小規(guī)模的損毀，這種失真是微不足道的，而對于一個幅員遼闊的國家、大陸甚至大洲，這種映射的誤差將會超過5%。為此，Vass 等［29］通過改進(jìn)多項式共享風(fēng)險鏈路組（Shared Risk Link Groups，SRLG）生成技術(shù)，使模型適應(yīng)球面幾何，生成更精確的SRLG 列表，同時還引入圖密度參數(shù)，使模型同樣適用于不規(guī)則受災(zāi)區(qū)域。

2.2 概率故障模型

確定性損毀模型雖然直觀，但過于簡化，難以表達(dá)真實損毀場景的一些重要特征。事實上，某區(qū)域即使發(fā)生了災(zāi)害，其網(wǎng)絡(luò)組件也未必全部損毀，只是大大增加了發(fā)生故障的概率。網(wǎng)絡(luò)損毀的概率與鏈路長度、節(jié)點密度、災(zāi)害強(qiáng)弱和災(zāi)害區(qū)域大小均有關(guān)系，可采用概率損毀模型進(jìn)行預(yù)測。例如，Vass等［30］假設(shè)在災(zāi)害發(fā)生后區(qū)域網(wǎng)絡(luò)平面中會產(chǎn)生一個明顯的故障概率分布，并依據(jù)該假設(shè)構(gòu)造了鏈路失效的聯(lián)合概率分布，提出通用概率區(qū)域損毀模型，其中鏈路的累積失效概率取決于鏈路長度以及鏈路與災(zāi)害的地理鄰近性。針對虛擬網(wǎng)絡(luò)的生存性，Oliveira 等［31］提出高度時空相關(guān)的多鏈路故障災(zāi)難模型。由于網(wǎng)絡(luò)功能虛擬化（Virtual Network Feature，VNF）基礎(chǔ)設(shè)施具有極高的復(fù)用度，VNF 網(wǎng)絡(luò)中的節(jié)點和鏈路故障具有高度相關(guān)性，如果在前一組故障修復(fù)前發(fā)生了更多災(zāi)害，可能會導(dǎo)致多組相關(guān)鏈路發(fā)生故障。該文獻(xiàn)還創(chuàng)造性地采用基于網(wǎng)格分區(qū)的方案估計隨機(jī)區(qū)域故障下的各種網(wǎng)絡(luò)統(tǒng)計指標(biāo)，網(wǎng)格劃分不僅有助于識別網(wǎng)絡(luò)的脆弱區(qū)域，還可以依據(jù)網(wǎng)格對故障發(fā)起適當(dāng)保護(hù)。

表1 對以上災(zāi)難損毀故障建模方案的基本信息進(jìn)行了總結(jié)，其中適用網(wǎng)絡(luò)為靜態(tài)網(wǎng)絡(luò)的方案只能在災(zāi)難發(fā)生后進(jìn)行一次建模，而動態(tài)網(wǎng)絡(luò)則可以根據(jù)受災(zāi)區(qū)域的變化進(jìn)行適應(yīng)性建模。

Table 1 Disaster damage modeling schemes表1 災(zāi)難損毀建模方案

3 受損網(wǎng)絡(luò)連接恢復(fù)

3.1 主動式連接保護(hù)策略

建立災(zāi)難損毀故障模型的目的是為了更加及時有效地恢復(fù)受損鏈接。當(dāng)前應(yīng)用最為廣泛的網(wǎng)絡(luò)連接恢復(fù)策略為主動式連接保護(hù)策略，主要應(yīng)用于發(fā)生單鏈路故障或多條獨立鏈路故障的場景，即當(dāng)網(wǎng)絡(luò)遭受不嚴(yán)重的破壞，只有個別節(jié)點或鏈路發(fā)生故障之時。研究指出，網(wǎng)絡(luò)中70%的故障都是單鏈路故障［32］。在大多數(shù)情況下，任意網(wǎng)絡(luò)節(jié)點對之間傳輸數(shù)據(jù)都只選擇路徑最優(yōu)的那一條，如果這條最優(yōu)路徑上的任何一條鏈路發(fā)生了故障，那么該節(jié)點對之間的通信便會中斷。主動式連接保護(hù)策略即在災(zāi)難發(fā)生前為這對節(jié)點設(shè)置一條或多條備用路徑，當(dāng)使用最優(yōu)路徑無法進(jìn)行通信時，源節(jié)點快速將流量轉(zhuǎn)入次優(yōu)路徑，使得通信業(yè)務(wù)得到恢復(fù)并實現(xiàn)正常傳輸。

根據(jù)備份原理，主動式連接保護(hù)策略又可分為節(jié)點備份方案和鏈路備份方案。在節(jié)點備份方案方面，Zhi 等［33］以節(jié)點度作為評價指標(biāo)，采用對等覆蓋網(wǎng)絡(luò)拓?fù)渥詣踊謴?fù)算法為關(guān)鍵節(jié)點的每一條邊選取一個度較小的點作為備用節(jié)點，同時在節(jié)點接收數(shù)據(jù)包時執(zhí)行路徑壓縮算法，以確保網(wǎng)絡(luò)拓?fù)涞恼_性和連通性，提高網(wǎng)絡(luò)傳輸效率；朱國暉等［34］將建立覆蓋網(wǎng)絡(luò)的成本與收益納入考量，綜合考慮節(jié)點資源度、接受中心度、網(wǎng)絡(luò)收益開銷比、鏈路重要程度等因素建立覆蓋網(wǎng)絡(luò)，只有新生成的鏈路所需資源之和小于物理網(wǎng)絡(luò)剩余資源時才將鏈路端點納入備用節(jié)點候選集；郝黨科等［35］將大數(shù)據(jù)技術(shù)引入節(jié)點篩選算法，將研究場景設(shè)定在高速公路網(wǎng)絡(luò)上，利用工程參數(shù)表和大數(shù)據(jù)用戶識別技術(shù)篩選出核心節(jié)點，并由此建立關(guān)系庫；然后應(yīng)用黃金分割搜索算法得出最優(yōu)備份節(jié)點，最終實現(xiàn)了站點故障后網(wǎng)絡(luò)的自修復(fù)，確保了故障區(qū)域的網(wǎng)絡(luò)覆蓋與業(yè)務(wù)質(zhì)量。

在面向業(yè)務(wù)的覆蓋網(wǎng)絡(luò)中可優(yōu)先選擇最佳鏈路恢復(fù)故障。例如，Li等［36］將保護(hù)能力感知技術(shù)與面向故障避免技術(shù)相結(jié)合以提高虛擬網(wǎng)絡(luò)的可靠性。其假設(shè)每條鏈路都對應(yīng)一個失效概率，由此選出需要重點保護(hù)的主鏈路，并使用基于馬爾可夫的線性規(guī)劃為每條主鏈路計算備份路徑。為減少預(yù)備份所需資源，耿海軍等［37］提出可在每個路由節(jié)點轉(zhuǎn)發(fā)表中保存和維護(hù)最優(yōu)下一跳和次優(yōu)下一跳，當(dāng)目標(biāo)節(jié)點的最優(yōu)路徑發(fā)生故障時便自動切換至次優(yōu)下一跳，如此以來大大減小了算法的存儲空間；Hirano 等［38］和Khouangvichit 等［39］認(rèn)為傳統(tǒng)穩(wěn)健優(yōu)化方案高估了備份鏈路的容量，分別將備份鏈路設(shè)計問題描述為具有魯棒優(yōu)化和穩(wěn)健優(yōu)化的混合整數(shù)線性規(guī)劃（Mixed Integer Linear Programming，MILP）問題，以最小化備份資源為目標(biāo)尋找最優(yōu)備份鏈路；Wang 等［40］以提高備份資源利用率為思路，提出一種基于環(huán)的單鏈路故障恢復(fù)方法，根據(jù)節(jié)點重要性與鏈路性能選擇核心節(jié)點并將其連接成共享環(huán)，使所有備份路徑共享該路徑，即每個備份路徑都包含共享環(huán)的一部分。共享環(huán)生成后，根據(jù)故障鏈路的位置處理故障，若故障鏈路不屬于共享環(huán)，就先將受故障影響的數(shù)據(jù)包重定向至環(huán)節(jié)點，然后沿環(huán)傳輸；若故障鏈路屬于共享環(huán)，受故障影響的數(shù)據(jù)包將沿環(huán)以相反方向傳輸。該方法提高了備份的可重用性，降低了備份路由數(shù)；同時為了保證備份路由性能，該方法還會根據(jù)預(yù)測負(fù)載定期更新環(huán)路。

主動式連接保護(hù)策略可以非常高效地恢復(fù)網(wǎng)絡(luò)連接，這是由于所有路徑的計算工作是預(yù)先完成的，故障發(fā)生后只需要進(jìn)行簡單的路徑切換。然而，為不同故障場景建立不同備份路徑需要較高的部署成本，而且當(dāng)發(fā)生地震、洪水等大規(guī)模區(qū)域損毀時，主動式連接保護(hù)策略提供的多條備份路徑極有可能同時失效。表2 列出了上述主動連接保護(hù)策略的優(yōu)點、局限性等基本信息。

3.2 被動式重新尋路策略

被動式重新尋路策略無需提前預(yù)留資源，只需要在故障發(fā)生后根據(jù)當(dāng)前網(wǎng)絡(luò)的實時路由狀態(tài)及資源剩余情況計算重路由方案，基于設(shè)定的反應(yīng)機(jī)制應(yīng)對災(zāi)難損毀。目前關(guān)于該策略的研究主要集中在最短路徑計算、故障信息傳播等方面，且多數(shù)研究是依靠覆蓋網(wǎng)絡(luò)的虛擬性靈活繞開發(fā)生故障的網(wǎng)絡(luò)部件，以保持信息的正常傳輸。例如，張艷梅［41］通過限制網(wǎng)絡(luò)拓?fù)鋯挝粫r間內(nèi)需要維護(hù)的消息數(shù)量，在給定維護(hù)代價的基礎(chǔ)上使用自適應(yīng)搜索的免疫克隆算法求解路由性能最好、物理鏈路重用度最小的備選鏈路，將網(wǎng)絡(luò)災(zāi)后恢復(fù)工作轉(zhuǎn)化為多目標(biāo)約束優(yōu)化問題。從單個角度來看，該方法找到的備選鏈路可能并不是最優(yōu)的，但當(dāng)同時考慮維護(hù)代價、路由性能和物理鏈路負(fù)載等多個子目標(biāo)時，其是最優(yōu)方案。然而與大多數(shù)主動式連接保護(hù)策略相同，這種選擇節(jié)點或鏈路的方法難以應(yīng)對大規(guī)模災(zāi)難損毀。Zad 等［42］提出一種針對大規(guī)模區(qū)域損毀場景的網(wǎng)絡(luò)恢復(fù)方法，稱為迭代隨機(jī)恢復(fù)算法（Iterative Stochastic Recovery，ISR）。該算法將修復(fù)成本建模為網(wǎng)絡(luò)中每個要素的失效概率函數(shù)，該成本與節(jié)點所在位置有關(guān)，旨在恢復(fù)連接的同時最小化期望恢復(fù)成本。該算法無需使用故障概率先驗知識，解決了在不了解受損節(jié)點確切位置時的網(wǎng)絡(luò)恢復(fù)問題，但沒有考慮到災(zāi)難損毀后恢復(fù)資源受限的情況。

考慮到發(fā)生故障時覆蓋網(wǎng)絡(luò)路由與底層網(wǎng)絡(luò)均會發(fā)出報警信號，且會采取各自獨立的重路由機(jī)制恢復(fù)故障，如果不對二者路由策略的沖突問題加以協(xié)調(diào)控制，將會產(chǎn)生恢復(fù)沖突和網(wǎng)絡(luò)資源浪費現(xiàn)象。為此，Srinivasan 等［43］提出3 種雙重路由協(xié)調(diào)恢復(fù)機(jī)制：①為覆蓋網(wǎng)絡(luò)的故障恢復(fù)設(shè)置概率門限；②為網(wǎng)絡(luò)故障恢復(fù)設(shè)置計時器，等待IP層先進(jìn)行重路由；③為覆蓋網(wǎng)絡(luò)與IP 層檢測到的故障時間間隔設(shè)置門限。然而以上3 種方式均會增加故障恢復(fù)時間，且需要確定是哪一層發(fā)生了故障。為降低選路代價，武照東［44］提出基于不同自治域的雙重路由協(xié)調(diào)機(jī)制，按照自治域?qū)收线M(jìn)行分類，自治域之內(nèi)的覆蓋網(wǎng)絡(luò)節(jié)點可以采用內(nèi)部網(wǎng)關(guān)協(xié)議（如OSPF 路由協(xié)議、RIP 協(xié)議）選擇路由，而自治域之間需要采用外部網(wǎng)關(guān)協(xié)議（如BGP 協(xié)議）使得自治域互聯(lián)。在OSPF 協(xié)議中的Hello 包中加入自治系統(tǒng)（Autonomous System，AS）號，若接收節(jié)點的AS 號與源節(jié)點相同，則為自治域內(nèi)故障，可使用IP 網(wǎng)絡(luò)的重路由機(jī)制恢復(fù)；若AS 號不同，則采用覆蓋網(wǎng)絡(luò)的重路由機(jī)制恢復(fù)，如此以來可以降低網(wǎng)絡(luò)抖動次數(shù)，減少恢復(fù)時的競爭沖突，實現(xiàn)路由的最優(yōu)恢復(fù)。

3.3 主被動結(jié)合的災(zāi)后恢復(fù)策略

主動式保護(hù)策略降低了受損網(wǎng)絡(luò)恢復(fù)時間，但需要大量備份資源；被動式恢復(fù)策略更加靈活，但所需恢復(fù)時間較長。從網(wǎng)絡(luò)全生命周期的視角考慮，將主動式連接保護(hù)策略與被動式重新尋路策略緊密結(jié)合起來可對網(wǎng)絡(luò)拓?fù)溥M(jìn)行更全面的保護(hù)，極大提高其對災(zāi)難的抵御能力。

覆蓋網(wǎng)絡(luò)中最常見的主被動結(jié)合災(zāi)后恢復(fù)策略均在彈性覆蓋網(wǎng)絡(luò)（Resilience Overlay Network，RON）的基礎(chǔ)上進(jìn)行［45］。作為一種應(yīng)用層路由技術(shù)，RON 節(jié)點采用主動與被動相結(jié)合的方式監(jiān)測內(nèi)部路由的服務(wù)質(zhì)量，并依據(jù)這些信息選擇下一跳覆蓋節(jié)點。在生成彈性路由層時需要首先隔離部分鏈路，然后檢查鏈路的連通性并由此生成路由層。理論上來說，當(dāng)生成的彈性層足夠多、隔離的鏈路組合足夠豐富時便可以恢復(fù)所有類型的多鏈路故障。例如，Andersen 等［46］證實了RON 的故障診斷和恢復(fù)能力明顯優(yōu)于普通路由，能有效降低數(shù)據(jù)傳輸丟失率和延遲；Iloglu 等［47］對受損后的道路基礎(chǔ)設(shè)施網(wǎng)絡(luò)進(jìn)行數(shù)學(xué)建模，分別使用基于拉格朗日的求解過程和基于線性松弛的整數(shù)規(guī)劃過程兩種啟發(fā)式算法證明了多重覆蓋的可行性。然而，由于要想獲得好的恢復(fù)效果就必須生成足夠多的路由層，導(dǎo)致開銷巨大，傳統(tǒng)的RON 網(wǎng)絡(luò)難以大規(guī)模部署，可拓展性較差。此外，RON 的路由表只能覆蓋RON 節(jié)點，對于RON 以外的目的地則無能為力。為此，趙珩等［48］提出基于網(wǎng)絡(luò)分塊的主被動相結(jié)合的網(wǎng)絡(luò)恢復(fù)策略，利用Kmeans 算法將網(wǎng)絡(luò)分塊，選取集合中心的節(jié)點作為集合中間節(jié)點，度最大的節(jié)點作為系統(tǒng)覆蓋節(jié)點，如此以來網(wǎng)絡(luò)流量在傳輸中便可以借助源路由及時跳過故障區(qū)域，通信網(wǎng)絡(luò)的可靠性明顯提升。此外，考慮到災(zāi)后故障區(qū)域極容易發(fā)生網(wǎng)絡(luò)信息擁堵現(xiàn)象，該策略還加入擁塞感知恢復(fù)系統(tǒng)，以便實現(xiàn)跳級處理，同時客戶端模塊與覆蓋節(jié)點模塊可保障系統(tǒng)中節(jié)點不會發(fā)生環(huán)路傳輸情況；Zhang 等［49］提出一種用較少備份資源實現(xiàn)故障恢復(fù)的方法，根據(jù)鏈路復(fù)用度和帶寬利用率兩個指標(biāo)確定鏈路對故障的影響程度，將其分為3 個具有不同優(yōu)先級的集合，對于具有更低延遲和更高傳輸質(zhì)量要求的鏈路，使用雙路徑恢復(fù)策略進(jìn)行恢復(fù)，即為其記錄兩條備份路徑；對于復(fù)用度低或?qū)ρ舆t與數(shù)據(jù)包丟失沒有較高需求的鏈路采用反應(yīng)式恢復(fù)策略，該策略的備份路徑是動態(tài)分配的，但不會在故障發(fā)生之前分配恢復(fù)路徑所需資源，故障發(fā)生后需要額外的信令建立備份路徑；對于優(yōu)先級居中的鏈路采用單路徑恢復(fù)策略，只需預(yù)先配置一條備份路徑用于恢復(fù)鏈路故障，從而滿足故障切換所需延遲，如果該策略失敗再觸發(fā)反應(yīng)式恢復(fù)策略。以上方法可以在滿足鏈路故障所需恢復(fù)延遲的同時降低對預(yù)備份資源的需求。

3.4 小結(jié)

主動式連接保護(hù)策略通過預(yù)先規(guī)劃為重要鏈路預(yù)留出冗余資源，在遭遇故障時及時建立保護(hù)連接，保證網(wǎng)絡(luò)的正常運行。這種方法可以在較短時間內(nèi)恢復(fù)故障，預(yù)留資源不能被其他業(yè)務(wù)共享，會造成網(wǎng)絡(luò)資源利用率降低，且靈活性相對較差，若發(fā)生大規(guī)模災(zāi)害導(dǎo)致冗余鏈路同時損毀，該策略便會失效。被動式重新尋路策略可在故障場景中動態(tài)地為業(yè)務(wù)計算路由分配資源，從而恢復(fù)通信并提高網(wǎng)絡(luò)的生存性。這種方法的關(guān)鍵在于根據(jù)故障發(fā)生時刻的網(wǎng)絡(luò)現(xiàn)狀以及閑置資源重新規(guī)劃路由，從而實現(xiàn)對故障路由的替代，無需預(yù)留冗余資源，大大提高了資源利用率。然而，重新進(jìn)行路由規(guī)劃需要花費較多時間，因此對故障的恢復(fù)速度不及主動式連接保護(hù)策略。為提高網(wǎng)絡(luò)生存性，目前常在使用主動式連接保護(hù)策略的同時通過被動式重新尋路策略對網(wǎng)絡(luò)業(yè)務(wù)進(jìn)行保護(hù)。

4 結(jié)語

與通用的故障處理思路相同，覆蓋網(wǎng)絡(luò)的災(zāi)后恢復(fù)策略同樣是先定位、再恢復(fù)，相關(guān)研究主要聚焦于災(zāi)難損毀模型建立和受損網(wǎng)絡(luò)連接恢復(fù)兩方面。當(dāng)前對于覆蓋網(wǎng)絡(luò)在災(zāi)后恢復(fù)方面的應(yīng)用研究仍處于探索階段，雖然恢復(fù)個別節(jié)點或鏈路故障的方案較為成熟，但面對地震、颶風(fēng)等自然災(zāi)害導(dǎo)致的大規(guī)模網(wǎng)絡(luò)癱瘓，恢復(fù)方案仍存在局限性。在未來研究中應(yīng)充分考慮災(zāi)難發(fā)生的隨機(jī)性和不確定性，以降低冗余資源需求、縮短故障恢復(fù)時間和提高恢復(fù)率為目標(biāo)進(jìn)一步優(yōu)化覆蓋網(wǎng)絡(luò)的災(zāi)后恢復(fù)策略。