吳之沫,馬琳茹
(中國人民解放軍軍事科學(xué)院 系統(tǒng)工程研究院,北京 100039)
人們的日常生活離不開網(wǎng)絡(luò)提供的各種服務(wù),各行各業(yè)對網(wǎng)絡(luò)性能的要求越來越嚴(yán)格,網(wǎng)絡(luò)規(guī)模和復(fù)雜度呈爆炸性增長趨勢。然而,當(dāng)前的網(wǎng)絡(luò)基礎(chǔ)設(shè)施面臨著各種各樣的潛在威脅,除了網(wǎng)絡(luò)部件自然老化而導(dǎo)致的失效問題,還隨時可能遭遇地震、洪水、颶風(fēng)等自然災(zāi)害,以及恐怖襲擊、軍事戰(zhàn)爭等人為災(zāi)難性事件。即使發(fā)生故障的是一個或幾個網(wǎng)絡(luò)部件,其周圍區(qū)域也會由于受到網(wǎng)絡(luò)信息流量過載的影響而發(fā)生擁塞,引發(fā)連鎖效應(yīng),最終導(dǎo)致相當(dāng)一部分節(jié)點甚至整個網(wǎng)絡(luò)崩潰。因此,及時對網(wǎng)絡(luò)故障進(jìn)行修復(fù)至關(guān)重要。
為解決現(xiàn)有TCP/IP 體系架構(gòu)服務(wù)質(zhì)量提升緩慢、路由故障恢復(fù)效率低下以及可擴(kuò)展性差等問題,科學(xué)家們提出使用覆蓋網(wǎng)絡(luò)對現(xiàn)有網(wǎng)絡(luò)進(jìn)行系統(tǒng)性、廣泛性、整體性改造。覆蓋網(wǎng)絡(luò)是一種整合式互聯(lián)網(wǎng)改進(jìn)方案,相較于打補(bǔ)丁式的改良式方案與從零開始的革命式方案,其是一種介于二者之間的折中方案[1],既不會明顯增加網(wǎng)絡(luò)復(fù)雜性,也無需拋棄現(xiàn)有網(wǎng)絡(luò)體系,只需在現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的IP 層之上、應(yīng)用層之下增加一個中間層,采用覆蓋網(wǎng)絡(luò)改善當(dāng)前互聯(lián)網(wǎng)即可。這種對互聯(lián)網(wǎng)體系架構(gòu)的系統(tǒng)性修補(bǔ)可以在保留現(xiàn)有互聯(lián)網(wǎng)架構(gòu)的前提下提供更可靠的服務(wù),為下一代互聯(lián)網(wǎng)設(shè)計提供了一種可行性方案。
基于虛擬化傳輸?shù)奶匦裕采w網(wǎng)絡(luò)部署時間短、可拓展性強(qiáng),在災(zāi)后恢復(fù)方面的應(yīng)用研究呈上升趨勢,目前已被廣泛應(yīng)用于公路交通網(wǎng)絡(luò)[2]、光網(wǎng)絡(luò)[3]、相互依存網(wǎng)絡(luò)[4]、水下無線傳感器網(wǎng)絡(luò)[5]等各個領(lǐng)域。然而,覆蓋網(wǎng)絡(luò)在災(zāi)后恢復(fù)中的應(yīng)用研究尚不成體系,或僅聚焦于單純的故障定位[6]、故障檢測[7],或側(cè)重于相互依存網(wǎng)絡(luò)[4]的災(zāi)后響應(yīng)。為此,本文對覆蓋網(wǎng)絡(luò)應(yīng)用于信息網(wǎng)絡(luò)災(zāi)后恢復(fù)方面的相關(guān)文獻(xiàn)進(jìn)行整理與總結(jié),從故障建模和受損網(wǎng)絡(luò)連接恢復(fù)兩個方面入手,綜述覆蓋網(wǎng)絡(luò)災(zāi)后恢復(fù)方法,為相關(guān)研究者提供參考。
覆蓋網(wǎng)絡(luò)本質(zhì)上是一種面向服務(wù)的邏輯網(wǎng)絡(luò)[8],其節(jié)點由連接在互聯(lián)網(wǎng)上的部分終端節(jié)點或應(yīng)用類服務(wù)器組成,每條網(wǎng)絡(luò)鏈路對應(yīng)一條或多條物理鏈路。如圖1 所示,覆蓋網(wǎng)絡(luò)將二層報文封裝在IP 報文之上,利用成熟的IP 路由協(xié)議進(jìn)行數(shù)據(jù)分發(fā),構(gòu)建了一層邏輯拓?fù)洹F渚W(wǎng)絡(luò)拓?fù)溆煞?wù)提供商們根據(jù)用戶需求定義,可以在不改變互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的前提下提供更可靠、容錯性更好的服務(wù),彌補(bǔ)了傳統(tǒng)網(wǎng)絡(luò)路由的缺陷,提高了互聯(lián)網(wǎng)的可擴(kuò)展性和魯棒性。

Fig.1 Impact of overlay network technology on the Internet hierarchy architecture圖1 覆蓋網(wǎng)絡(luò)技術(shù)對互聯(lián)網(wǎng)層次架構(gòu)的影響
早在1974 年,英國學(xué)者Duerdoth[9]就提出了覆蓋網(wǎng)絡(luò)的概念,不過這個概念最初是應(yīng)用于電信技術(shù)上。在那個模擬技術(shù)與數(shù)字技術(shù)并存的時期,使用覆蓋網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)可以在保留原有電話服務(wù)的基礎(chǔ)上引入數(shù)字技術(shù),同時避免高昂的經(jīng)濟(jì)成本。隨著信息技術(shù)的發(fā)展,光纖技術(shù)開始走進(jìn)大眾視野。1986 年,德國學(xué)者提出寬帶通信服務(wù)覆蓋網(wǎng)絡(luò)[10],德國郵政公司將覆蓋網(wǎng)絡(luò)技術(shù)視為發(fā)展高效集成通用網(wǎng)絡(luò)的戰(zhàn)略[11]。自此,覆蓋網(wǎng)絡(luò)正式被視為承舊啟新的框架技術(shù),繼電報網(wǎng)、電話網(wǎng)、綜合業(yè)務(wù)數(shù)字網(wǎng)之后走進(jìn)了人們的視線。21 世紀(jì)初,覆蓋網(wǎng)絡(luò)被應(yīng)用于可靠多播技術(shù)[12],充分利用底層網(wǎng)絡(luò)拓?fù)洌ㄟ^覆蓋樹協(xié)議構(gòu)造了可靠分發(fā)樹,為用戶提供故障容忍的密集帶寬。此后,覆蓋網(wǎng)絡(luò)普遍應(yīng)用于網(wǎng)絡(luò)組播技術(shù)。
近年來,覆蓋網(wǎng)絡(luò)技術(shù)得到了深入研究和廣泛應(yīng)用,如以去中心化為特點的對等網(wǎng)絡(luò)(Peer to Peer,P2P)常用于文件共享[13-14]、即時通信[15]、協(xié)同處理[16]和流媒體通信[17]領(lǐng)域;內(nèi)容分發(fā)網(wǎng)(Content Delivery Network,CDN)用于視頻分發(fā),采用重定向機(jī)制縮短了分發(fā)服務(wù)器與用戶的距離[18],不僅可以提高訪問速度,還能緩解網(wǎng)絡(luò)擁塞;應(yīng)用層多播機(jī)制通過建立路由器間的多播分發(fā)樹管理成員和分發(fā)數(shù)據(jù)[19]。此外,覆蓋網(wǎng)絡(luò)還常用于增強(qiáng)服務(wù)質(zhì)量(Quality of Service,QoS)[20]、云計算數(shù)據(jù)中心網(wǎng)[21]、軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)[22]等技術(shù)領(lǐng)域。
覆蓋網(wǎng)絡(luò)受到大眾青睞的主要原因是其可以在不改變底層網(wǎng)絡(luò)的前提下提供組播、QoS 增強(qiáng)等服務(wù),對下層網(wǎng)絡(luò)故障透明,結(jié)構(gòu)多樣化且具有較低的部署成本和部署難度。這些優(yōu)點有效緩解了傳統(tǒng)IP 網(wǎng)絡(luò)的僵化問題,精簡和優(yōu)化了網(wǎng)絡(luò)整體結(jié)構(gòu)。同時,超節(jié)點的存在使復(fù)雜的網(wǎng)絡(luò)鏈路變得簡單靈活,具有很好的魯棒性[23]。
伴隨科學(xué)技術(shù)日新月異的發(fā)展,通信網(wǎng)絡(luò)面臨的潛在威脅也越來越極端,一個完備的通信網(wǎng)絡(luò)體系必須具備一定的容災(zāi)能力。從數(shù)學(xué)層面來說,網(wǎng)絡(luò)容災(zāi)性可被描述為一個網(wǎng)絡(luò)被徹底破壞所需要除掉的節(jié)點數(shù)占總節(jié)點數(shù)的比例,在現(xiàn)實世界中則表現(xiàn)為當(dāng)局部網(wǎng)絡(luò)遭到破壞或網(wǎng)絡(luò)服務(wù)大規(guī)模損毀時,網(wǎng)絡(luò)仍然可以保持關(guān)鍵服務(wù)正常運行的能力。具有較高容災(zāi)性的網(wǎng)絡(luò)能夠更好地預(yù)防和抵御攻擊,并在受到攻擊后快速恢復(fù)。
如圖2 所示,圍繞提高容災(zāi)性這一目標(biāo),覆蓋網(wǎng)絡(luò)研究工作可以分為兩個方面:一是災(zāi)難損毀模型建立。合適的損毀模型可以精確描述網(wǎng)絡(luò)受損情況,分為確定性損毀模型和概率故障模型兩種;二是受損網(wǎng)絡(luò)的連接恢復(fù)。可采用主動式保護(hù)、被動式恢復(fù)以及主被動結(jié)合恢復(fù)3 種策略,其中主動式保護(hù)策略通過提供備份節(jié)點或鏈路,使覆蓋網(wǎng)絡(luò)可以迅速切換受損節(jié)點或鏈路,防止由于部分節(jié)點或鏈路失效而造成的大面積癱瘓;被動式恢復(fù)策略是指在災(zāi)難發(fā)生后,即使網(wǎng)絡(luò)遭受到外力破壞導(dǎo)致拓?fù)浣Y(jié)構(gòu)發(fā)生變化或重組,仍然可以通過重路由等方式使系統(tǒng)恢復(fù)正常運作,完成預(yù)期主要目標(biāo),強(qiáng)調(diào)的是網(wǎng)絡(luò)的恢復(fù)能力。

Fig.2 Classification of overlay network research work圖2 覆蓋網(wǎng)絡(luò)研究工作分類
網(wǎng)絡(luò)災(zāi)后恢復(fù)的前提是定位網(wǎng)絡(luò)發(fā)生損毀的位置,及時精確地監(jiān)控網(wǎng)絡(luò)故障,這就需要對災(zāi)難損毀故障進(jìn)行建模。災(zāi)難損毀模型可以直觀展示災(zāi)害對網(wǎng)絡(luò)的影響,包括受損位置、損毀范圍、癱瘓程度等。然而,由于災(zāi)難類型多樣,研究人員很難為每一種自然災(zāi)害和人為損壞建立合適的模型,現(xiàn)有研究多為利用幾何知識建立理論模型,主要分為確定性損毀模型和概率故障模型兩種。
確定性損毀模型的關(guān)鍵在于找到受災(zāi)區(qū)域,關(guān)注的是故障的地理位置,一旦計算出受災(zāi)區(qū)域,便假設(shè)這個區(qū)域中所有的網(wǎng)絡(luò)設(shè)備全部被損毀,即故障概率為1。2010年,Neumayer 等[24]首次將計算幾何的理論工具應(yīng)用于網(wǎng)絡(luò)容災(zāi)性研究中,提出一個簡化的二部圖模型。該模型使用線段表示颶風(fēng)等造成的線性災(zāi)害,圓形表示地震等造成的區(qū)域性災(zāi)害,利用多項式時間算法在平面圖模型中識別最壞線切割和最壞圓切割,這是網(wǎng)絡(luò)最脆弱的部分,任何在地理位置上與該災(zāi)害區(qū)域相交的網(wǎng)絡(luò)組件均無法正常工作;Stojan 等[25]降低了Neumayer 等研究的復(fù)雜性,在其基礎(chǔ)上開發(fā)了一種多項式時間算法,采用橢圓形和多邊形表示網(wǎng)絡(luò)失效的脆弱區(qū)域;Tapolcai 等[26]受到二部圖模型的啟發(fā),提出固定半徑的圓盤破壞模型,以故障點為圓心,認(rèn)為一定半徑內(nèi)的所有網(wǎng)絡(luò)部件均受到了災(zāi)難影響。考慮到大多數(shù)災(zāi)難可能并不是均勻分布的,Gour 等[27]在固定半徑的圓盤失效模型中引入邊和路徑脆弱區(qū)的概念,使其適用于失效事件非均勻分布的災(zāi)難區(qū)域。該模型使用圓盤表示災(zāi)難損毀區(qū)域,簡單直觀,極大降低了處理區(qū)域性損毀的復(fù)雜度,在災(zāi)后恢復(fù)工作中得到廣泛使用。然而,圓盤形災(zāi)難模型僅適用于區(qū)域性災(zāi)害,如地震、大規(guī)模殺傷性武器導(dǎo)致的災(zāi)難,而對于颶風(fēng)、海嘯、山體滑坡、自然火災(zāi)等,圓盤模型并不能精確描述。
在實際場景中,受災(zāi)區(qū)域往往不是呈現(xiàn)出圓盤形、四邊形、線形等規(guī)則形狀。為精確描述災(zāi)難造成的不規(guī)則傷害,Agrawal 等[28]針對地震造成的損毀,結(jié)合震中位置、震中密度、地震震級和網(wǎng)絡(luò)拓?fù)涞纫靥岢龅卣痫L(fēng)險骨干網(wǎng)絡(luò)模型,將地理區(qū)域細(xì)分為多個任意形狀的地震帶,表示不同級別的地震風(fēng)險;同時還提出地震風(fēng)險最小化節(jié)點遷移方案,使得模型在網(wǎng)絡(luò)動態(tài)變化時也能準(zhǔn)確描述受損區(qū)域與受損程度。然而,這些關(guān)于災(zāi)難建模的研究均默認(rèn)網(wǎng)絡(luò)在一個平面上,而地球是類球形的,這種計算方式難免有些失真。對于一些小規(guī)模的損毀,這種失真是微不足道的,而對于一個幅員遼闊的國家、大陸甚至大洲,這種映射的誤差將會超過5%。為此,Vass 等[29]通過改進(jìn)多項式共享風(fēng)險鏈路組(Shared Risk Link Groups,SRLG)生成技術(shù),使模型適應(yīng)球面幾何,生成更精確的SRLG 列表,同時還引入圖密度參數(shù),使模型同樣適用于不規(guī)則受災(zāi)區(qū)域。
確定性損毀模型雖然直觀,但過于簡化,難以表達(dá)真實損毀場景的一些重要特征。事實上,某區(qū)域即使發(fā)生了災(zāi)害,其網(wǎng)絡(luò)組件也未必全部損毀,只是大大增加了發(fā)生故障的概率。網(wǎng)絡(luò)損毀的概率與鏈路長度、節(jié)點密度、災(zāi)害強(qiáng)弱和災(zāi)害區(qū)域大小均有關(guān)系,可采用概率損毀模型進(jìn)行預(yù)測。例如,Vass等[30]假設(shè)在災(zāi)害發(fā)生后區(qū)域網(wǎng)絡(luò)平面中會產(chǎn)生一個明顯的故障概率分布,并依據(jù)該假設(shè)構(gòu)造了鏈路失效的聯(lián)合概率分布,提出通用概率區(qū)域損毀模型,其中鏈路的累積失效概率取決于鏈路長度以及鏈路與災(zāi)害的地理鄰近性。針對虛擬網(wǎng)絡(luò)的生存性,Oliveira 等[31]提出高度時空相關(guān)的多鏈路故障災(zāi)難模型。由于網(wǎng)絡(luò)功能虛擬化(Virtual Network Feature,VNF)基礎(chǔ)設(shè)施具有極高的復(fù)用度,VNF 網(wǎng)絡(luò)中的節(jié)點和鏈路故障具有高度相關(guān)性,如果在前一組故障修復(fù)前發(fā)生了更多災(zāi)害,可能會導(dǎo)致多組相關(guān)鏈路發(fā)生故障。該文獻(xiàn)還創(chuàng)造性地采用基于網(wǎng)格分區(qū)的方案估計隨機(jī)區(qū)域故障下的各種網(wǎng)絡(luò)統(tǒng)計指標(biāo),網(wǎng)格劃分不僅有助于識別網(wǎng)絡(luò)的脆弱區(qū)域,還可以依據(jù)網(wǎng)格對故障發(fā)起適當(dāng)保護(hù)。
表1 對以上災(zāi)難損毀故障建模方案的基本信息進(jìn)行了總結(jié),其中適用網(wǎng)絡(luò)為靜態(tài)網(wǎng)絡(luò)的方案只能在災(zāi)難發(fā)生后進(jìn)行一次建模,而動態(tài)網(wǎng)絡(luò)則可以根據(jù)受災(zāi)區(qū)域的變化進(jìn)行適應(yīng)性建模。

Table 1 Disaster damage modeling schemes表1 災(zāi)難損毀建模方案
建立災(zāi)難損毀故障模型的目的是為了更加及時有效地恢復(fù)受損鏈接。當(dāng)前應(yīng)用最為廣泛的網(wǎng)絡(luò)連接恢復(fù)策略為主動式連接保護(hù)策略,主要應(yīng)用于發(fā)生單鏈路故障或多條獨立鏈路故障的場景,即當(dāng)網(wǎng)絡(luò)遭受不嚴(yán)重的破壞,只有個別節(jié)點或鏈路發(fā)生故障之時。研究指出,網(wǎng)絡(luò)中70%的故障都是單鏈路故障[32]。在大多數(shù)情況下,任意網(wǎng)絡(luò)節(jié)點對之間傳輸數(shù)據(jù)都只選擇路徑最優(yōu)的那一條,如果這條最優(yōu)路徑上的任何一條鏈路發(fā)生了故障,那么該節(jié)點對之間的通信便會中斷。主動式連接保護(hù)策略即在災(zāi)難發(fā)生前為這對節(jié)點設(shè)置一條或多條備用路徑,當(dāng)使用最優(yōu)路徑無法進(jìn)行通信時,源節(jié)點快速將流量轉(zhuǎn)入次優(yōu)路徑,使得通信業(yè)務(wù)得到恢復(fù)并實現(xiàn)正常傳輸。
根據(jù)備份原理,主動式連接保護(hù)策略又可分為節(jié)點備份方案和鏈路備份方案。在節(jié)點備份方案方面,Zhi 等[33]以節(jié)點度作為評價指標(biāo),采用對等覆蓋網(wǎng)絡(luò)拓?fù)渥詣踊謴?fù)算法為關(guān)鍵節(jié)點的每一條邊選取一個度較小的點作為備用節(jié)點,同時在節(jié)點接收數(shù)據(jù)包時執(zhí)行路徑壓縮算法,以確保網(wǎng)絡(luò)拓?fù)涞恼_性和連通性,提高網(wǎng)絡(luò)傳輸效率;朱國暉等[34]將建立覆蓋網(wǎng)絡(luò)的成本與收益納入考量,綜合考慮節(jié)點資源度、接受中心度、網(wǎng)絡(luò)收益開銷比、鏈路重要程度等因素建立覆蓋網(wǎng)絡(luò),只有新生成的鏈路所需資源之和小于物理網(wǎng)絡(luò)剩余資源時才將鏈路端點納入備用節(jié)點候選集;郝黨科等[35]將大數(shù)據(jù)技術(shù)引入節(jié)點篩選算法,將研究場景設(shè)定在高速公路網(wǎng)絡(luò)上,利用工程參數(shù)表和大數(shù)據(jù)用戶識別技術(shù)篩選出核心節(jié)點,并由此建立關(guān)系庫;然后應(yīng)用黃金分割搜索算法得出最優(yōu)備份節(jié)點,最終實現(xiàn)了站點故障后網(wǎng)絡(luò)的自修復(fù),確保了故障區(qū)域的網(wǎng)絡(luò)覆蓋與業(yè)務(wù)質(zhì)量。
在面向業(yè)務(wù)的覆蓋網(wǎng)絡(luò)中可優(yōu)先選擇最佳鏈路恢復(fù)故障。例如,Li等[36]將保護(hù)能力感知技術(shù)與面向故障避免技術(shù)相結(jié)合以提高虛擬網(wǎng)絡(luò)的可靠性。其假設(shè)每條鏈路都對應(yīng)一個失效概率,由此選出需要重點保護(hù)的主鏈路,并使用基于馬爾可夫的線性規(guī)劃為每條主鏈路計算備份路徑。為減少預(yù)備份所需資源,耿海軍等[37]提出可在每個路由節(jié)點轉(zhuǎn)發(fā)表中保存和維護(hù)最優(yōu)下一跳和次優(yōu)下一跳,當(dāng)目標(biāo)節(jié)點的最優(yōu)路徑發(fā)生故障時便自動切換至次優(yōu)下一跳,如此以來大大減小了算法的存儲空間;Hirano 等[38]和Khouangvichit 等[39]認(rèn)為傳統(tǒng)穩(wěn)健優(yōu)化方案高估了備份鏈路的容量,分別將備份鏈路設(shè)計問題描述為具有魯棒優(yōu)化和穩(wěn)健優(yōu)化的混合整數(shù)線性規(guī)劃(Mixed Integer Linear Programming,MILP)問題,以最小化備份資源為目標(biāo)尋找最優(yōu)備份鏈路;Wang 等[40]以提高備份資源利用率為思路,提出一種基于環(huán)的單鏈路故障恢復(fù)方法,根據(jù)節(jié)點重要性與鏈路性能選擇核心節(jié)點并將其連接成共享環(huán),使所有備份路徑共享該路徑,即每個備份路徑都包含共享環(huán)的一部分。共享環(huán)生成后,根據(jù)故障鏈路的位置處理故障,若故障鏈路不屬于共享環(huán),就先將受故障影響的數(shù)據(jù)包重定向至環(huán)節(jié)點,然后沿環(huán)傳輸;若故障鏈路屬于共享環(huán),受故障影響的數(shù)據(jù)包將沿環(huán)以相反方向傳輸。該方法提高了備份的可重用性,降低了備份路由數(shù);同時為了保證備份路由性能,該方法還會根據(jù)預(yù)測負(fù)載定期更新環(huán)路。
主動式連接保護(hù)策略可以非常高效地恢復(fù)網(wǎng)絡(luò)連接,這是由于所有路徑的計算工作是預(yù)先完成的,故障發(fā)生后只需要進(jìn)行簡單的路徑切換。然而,為不同故障場景建立不同備份路徑需要較高的部署成本,而且當(dāng)發(fā)生地震、洪水等大規(guī)模區(qū)域損毀時,主動式連接保護(hù)策略提供的多條備份路徑極有可能同時失效。表2 列出了上述主動連接保護(hù)策略的優(yōu)點、局限性等基本信息。
被動式重新尋路策略無需提前預(yù)留資源,只需要在故障發(fā)生后根據(jù)當(dāng)前網(wǎng)絡(luò)的實時路由狀態(tài)及資源剩余情況計算重路由方案,基于設(shè)定的反應(yīng)機(jī)制應(yīng)對災(zāi)難損毀。目前關(guān)于該策略的研究主要集中在最短路徑計算、故障信息傳播等方面,且多數(shù)研究是依靠覆蓋網(wǎng)絡(luò)的虛擬性靈活繞開發(fā)生故障的網(wǎng)絡(luò)部件,以保持信息的正常傳輸。例如,張艷梅[41]通過限制網(wǎng)絡(luò)拓?fù)鋯挝粫r間內(nèi)需要維護(hù)的消息數(shù)量,在給定維護(hù)代價的基礎(chǔ)上使用自適應(yīng)搜索的免疫克隆算法求解路由性能最好、物理鏈路重用度最小的備選鏈路,將網(wǎng)絡(luò)災(zāi)后恢復(fù)工作轉(zhuǎn)化為多目標(biāo)約束優(yōu)化問題。從單個角度來看,該方法找到的備選鏈路可能并不是最優(yōu)的,但當(dāng)同時考慮維護(hù)代價、路由性能和物理鏈路負(fù)載等多個子目標(biāo)時,其是最優(yōu)方案。然而與大多數(shù)主動式連接保護(hù)策略相同,這種選擇節(jié)點或鏈路的方法難以應(yīng)對大規(guī)模災(zāi)難損毀。Zad 等[42]提出一種針對大規(guī)模區(qū)域損毀場景的網(wǎng)絡(luò)恢復(fù)方法,稱為迭代隨機(jī)恢復(fù)算法(Iterative Stochastic Recovery,ISR)。該算法將修復(fù)成本建模為網(wǎng)絡(luò)中每個要素的失效概率函數(shù),該成本與節(jié)點所在位置有關(guān),旨在恢復(fù)連接的同時最小化期望恢復(fù)成本。該算法無需使用故障概率先驗知識,解決了在不了解受損節(jié)點確切位置時的網(wǎng)絡(luò)恢復(fù)問題,但沒有考慮到災(zāi)難損毀后恢復(fù)資源受限的情況。
考慮到發(fā)生故障時覆蓋網(wǎng)絡(luò)路由與底層網(wǎng)絡(luò)均會發(fā)出報警信號,且會采取各自獨立的重路由機(jī)制恢復(fù)故障,如果不對二者路由策略的沖突問題加以協(xié)調(diào)控制,將會產(chǎn)生恢復(fù)沖突和網(wǎng)絡(luò)資源浪費現(xiàn)象。為此,Srinivasan 等[43]提出3 種雙重路由協(xié)調(diào)恢復(fù)機(jī)制:①為覆蓋網(wǎng)絡(luò)的故障恢復(fù)設(shè)置概率門限;②為網(wǎng)絡(luò)故障恢復(fù)設(shè)置計時器,等待IP層先進(jìn)行重路由;③為覆蓋網(wǎng)絡(luò)與IP 層檢測到的故障時間間隔設(shè)置門限。然而以上3 種方式均會增加故障恢復(fù)時間,且需要確定是哪一層發(fā)生了故障。為降低選路代價,武照東[44]提出基于不同自治域的雙重路由協(xié)調(diào)機(jī)制,按照自治域?qū)收线M(jìn)行分類,自治域之內(nèi)的覆蓋網(wǎng)絡(luò)節(jié)點可以采用內(nèi)部網(wǎng)關(guān)協(xié)議(如OSPF 路由協(xié)議、RIP 協(xié)議)選擇路由,而自治域之間需要采用外部網(wǎng)關(guān)協(xié)議(如BGP 協(xié)議)使得自治域互聯(lián)。在OSPF 協(xié)議中的Hello 包中加入自治系統(tǒng)(Autonomous System,AS)號,若接收節(jié)點的AS 號與源節(jié)點相同,則為自治域內(nèi)故障,可使用IP 網(wǎng)絡(luò)的重路由機(jī)制恢復(fù);若AS 號不同,則采用覆蓋網(wǎng)絡(luò)的重路由機(jī)制恢復(fù),如此以來可以降低網(wǎng)絡(luò)抖動次數(shù),減少恢復(fù)時的競爭沖突,實現(xiàn)路由的最優(yōu)恢復(fù)。
主動式保護(hù)策略降低了受損網(wǎng)絡(luò)恢復(fù)時間,但需要大量備份資源;被動式恢復(fù)策略更加靈活,但所需恢復(fù)時間較長。從網(wǎng)絡(luò)全生命周期的視角考慮,將主動式連接保護(hù)策略與被動式重新尋路策略緊密結(jié)合起來可對網(wǎng)絡(luò)拓?fù)溥M(jìn)行更全面的保護(hù),極大提高其對災(zāi)難的抵御能力。
覆蓋網(wǎng)絡(luò)中最常見的主被動結(jié)合災(zāi)后恢復(fù)策略均在彈性覆蓋網(wǎng)絡(luò)(Resilience Overlay Network,RON)的基礎(chǔ)上進(jìn)行[45]。作為一種應(yīng)用層路由技術(shù),RON 節(jié)點采用主動與被動相結(jié)合的方式監(jiān)測內(nèi)部路由的服務(wù)質(zhì)量,并依據(jù)這些信息選擇下一跳覆蓋節(jié)點。在生成彈性路由層時需要首先隔離部分鏈路,然后檢查鏈路的連通性并由此生成路由層。理論上來說,當(dāng)生成的彈性層足夠多、隔離的鏈路組合足夠豐富時便可以恢復(fù)所有類型的多鏈路故障。例如,Andersen 等[46]證實了RON 的故障診斷和恢復(fù)能力明顯優(yōu)于普通路由,能有效降低數(shù)據(jù)傳輸丟失率和延遲;Iloglu 等[47]對受損后的道路基礎(chǔ)設(shè)施網(wǎng)絡(luò)進(jìn)行數(shù)學(xué)建模,分別使用基于拉格朗日的求解過程和基于線性松弛的整數(shù)規(guī)劃過程兩種啟發(fā)式算法證明了多重覆蓋的可行性。然而,由于要想獲得好的恢復(fù)效果就必須生成足夠多的路由層,導(dǎo)致開銷巨大,傳統(tǒng)的RON 網(wǎng)絡(luò)難以大規(guī)模部署,可拓展性較差。此外,RON 的路由表只能覆蓋RON 節(jié)點,對于RON 以外的目的地則無能為力。為此,趙珩等[48]提出基于網(wǎng)絡(luò)分塊的主被動相結(jié)合的網(wǎng)絡(luò)恢復(fù)策略,利用Kmeans 算法將網(wǎng)絡(luò)分塊,選取集合中心的節(jié)點作為集合中間節(jié)點,度最大的節(jié)點作為系統(tǒng)覆蓋節(jié)點,如此以來網(wǎng)絡(luò)流量在傳輸中便可以借助源路由及時跳過故障區(qū)域,通信網(wǎng)絡(luò)的可靠性明顯提升。此外,考慮到災(zāi)后故障區(qū)域極容易發(fā)生網(wǎng)絡(luò)信息擁堵現(xiàn)象,該策略還加入擁塞感知恢復(fù)系統(tǒng),以便實現(xiàn)跳級處理,同時客戶端模塊與覆蓋節(jié)點模塊可保障系統(tǒng)中節(jié)點不會發(fā)生環(huán)路傳輸情況;Zhang 等[49]提出一種用較少備份資源實現(xiàn)故障恢復(fù)的方法,根據(jù)鏈路復(fù)用度和帶寬利用率兩個指標(biāo)確定鏈路對故障的影響程度,將其分為3 個具有不同優(yōu)先級的集合,對于具有更低延遲和更高傳輸質(zhì)量要求的鏈路,使用雙路徑恢復(fù)策略進(jìn)行恢復(fù),即為其記錄兩條備份路徑;對于復(fù)用度低或?qū)ρ舆t與數(shù)據(jù)包丟失沒有較高需求的鏈路采用反應(yīng)式恢復(fù)策略,該策略的備份路徑是動態(tài)分配的,但不會在故障發(fā)生之前分配恢復(fù)路徑所需資源,故障發(fā)生后需要額外的信令建立備份路徑;對于優(yōu)先級居中的鏈路采用單路徑恢復(fù)策略,只需預(yù)先配置一條備份路徑用于恢復(fù)鏈路故障,從而滿足故障切換所需延遲,如果該策略失敗再觸發(fā)反應(yīng)式恢復(fù)策略。以上方法可以在滿足鏈路故障所需恢復(fù)延遲的同時降低對預(yù)備份資源的需求。
主動式連接保護(hù)策略通過預(yù)先規(guī)劃為重要鏈路預(yù)留出冗余資源,在遭遇故障時及時建立保護(hù)連接,保證網(wǎng)絡(luò)的正常運行。這種方法可以在較短時間內(nèi)恢復(fù)故障,預(yù)留資源不能被其他業(yè)務(wù)共享,會造成網(wǎng)絡(luò)資源利用率降低,且靈活性相對較差,若發(fā)生大規(guī)模災(zāi)害導(dǎo)致冗余鏈路同時損毀,該策略便會失效。被動式重新尋路策略可在故障場景中動態(tài)地為業(yè)務(wù)計算路由分配資源,從而恢復(fù)通信并提高網(wǎng)絡(luò)的生存性。這種方法的關(guān)鍵在于根據(jù)故障發(fā)生時刻的網(wǎng)絡(luò)現(xiàn)狀以及閑置資源重新規(guī)劃路由,從而實現(xiàn)對故障路由的替代,無需預(yù)留冗余資源,大大提高了資源利用率。然而,重新進(jìn)行路由規(guī)劃需要花費較多時間,因此對故障的恢復(fù)速度不及主動式連接保護(hù)策略。為提高網(wǎng)絡(luò)生存性,目前常在使用主動式連接保護(hù)策略的同時通過被動式重新尋路策略對網(wǎng)絡(luò)業(yè)務(wù)進(jìn)行保護(hù)。
與通用的故障處理思路相同,覆蓋網(wǎng)絡(luò)的災(zāi)后恢復(fù)策略同樣是先定位、再恢復(fù),相關(guān)研究主要聚焦于災(zāi)難損毀模型建立和受損網(wǎng)絡(luò)連接恢復(fù)兩方面。當(dāng)前對于覆蓋網(wǎng)絡(luò)在災(zāi)后恢復(fù)方面的應(yīng)用研究仍處于探索階段,雖然恢復(fù)個別節(jié)點或鏈路故障的方案較為成熟,但面對地震、颶風(fēng)等自然災(zāi)害導(dǎo)致的大規(guī)模網(wǎng)絡(luò)癱瘓,恢復(fù)方案仍存在局限性。在未來研究中應(yīng)充分考慮災(zāi)難發(fā)生的隨機(jī)性和不確定性,以降低冗余資源需求、縮短故障恢復(fù)時間和提高恢復(fù)率為目標(biāo)進(jìn)一步優(yōu)化覆蓋網(wǎng)絡(luò)的災(zāi)后恢復(fù)策略。