張 庚,王亞男,邢祥棟,吳 紅,朱 敏,趙永利
(1.中國電力科學研究院有限公司,北京 100192; 2.北京郵電大學 信息光子學與光通信國家重點實驗室,北京 100876;3.國網四川省電力公司, 成都 610041 )
電力光通信網是支撐電網運行的重要基礎設施,當前日益復雜的業務承載在電力光通信網中按照傳統的業務規劃方法規化路由,會出現某條或多條鏈路被多條重要傳輸業務同時選中的情況,從而導致重要業務分布不均等問題[1]。因此在業務路由規劃時,不僅要考慮傳統約束,還要考慮不同業務類型所致影響,將重要業務盡可能平均分布到安全的鏈路中,避免在某一局部區域部署過多重要業務而形成的巨大風險[2]。
對于電力光通信網路由規劃問題,已有一些研究成果可以借鑒。文獻[3]直接將業務最短路徑作為業務傳輸通道;文獻[4]中采用K條最短路徑算法(Top-K-Shortest Paths,KSP)求出業務K條最短路徑,再從K條路徑中選出剩余容量最大的路徑作為最終傳輸路徑實現負載均衡;文獻[5]考慮了鏈路負載、光信噪比(Optical Signal-to-Noise Ratio, OSNR)和路由跳數等因素。但當前大多數路由規劃算法沒有把業務重要度、OSNR和鏈路剩余容量等因素與風險均衡結合起來,因此,現有算法無法滿足未來電力通信網實際的運行需求。
本文提出了一種基于深度強化學習的路由規劃算法,該算法基于業務重要度建立電力通信網風險均衡模型,同時兼顧OSNR和鏈路剩余容量等約束,可實現電力光通信業務可靠的路由分配。
在電力光通信網業務路由規劃流程中,主要涉及到的數學模型有電力通信網絡拓撲、業務、風險評價指標和路由可行性判別4個模型。
網絡拓撲在本質上是一個圖數據模型,定義電力光通信網絡拓撲結構為G(V,E),其中,V={v1,v2,…,vn}為電力通信網中傳輸設備的集合;E={e12,e13,…,e(n-1)n}為兩個互連傳輸設備間的光鏈路集合。每個鏈路都有屬性值,包括:鏈路長度、鏈路帶寬容量、鏈路剩余容量、鏈路業務風險度和鏈路OSNR等。
將電力通信網絡拓撲中的所有業務定義為集合S={s1,s2,…,sn}。每個業務也包括特有的屬性:業務類型Tsi。電力通信中業務類型繁多,不同類型的業務對傳輸的要求不同,對不同類型業務進行重要度Isi量化對電力通信路由規劃算法具有重要意義。本文參考文獻[6]中的業務重要度影響因素對電力通信業務重要度進行了分析整理,如表1所示。

表1 典型電力通信業務重要度情況
業務源節點Vsource和宿節點Vdestination。代表業務的起始和結束位置信息,是路由規劃算法最重要的輸入參數。
業務帶寬Bsi。根據不同的業務類型,定義業務帶寬。在配置業務時,都需要更新網絡拓撲中的資源占用情況,當某條鏈路的剩余帶寬資源不足以承載業務時,需要舍棄此鏈路而選擇其他路徑承載業務。
在電力通信業務規劃過程中,應考慮全局風險均衡情況,使業務更趨向部署在風險度較低的鏈路上,從而增強電力通信網絡的健康度和健壯性[7]。
鏈路風險值r(eij)反映該鏈路對全網造成的風險程度,是求解業務風險均衡的基礎,公式為
式中:eij為第i個節點與第j個節點之間的邊;A為一個故障概率權值,該值為一個常數,在越注重歷史故障概率的情況下該值越大;p(eij)為鏈路eij發生故障的風險概率值;m為該鏈路承載的業務數量;Isk為鏈路所承載第k個業務的業務重要度。
定義鏈路平均風險值ravg(G)為全網所有鏈路風險值的平均值,計算公式為
式中:G為待求的光通信網絡;N為全網鏈路的數量。
全網風險均衡度B定義為鏈路風險值的標準差,計算公式為
相較傳統路由算法,在電力通信業務路由規劃時考慮鏈路風險值因素可以顯著降低全網風險均衡度,達到降低全網風險的目的。
在最小化全網風險均衡度B的同時,要使業務所選鏈路的OSNR盡可能大,因為物理層最重要的參數就是OSNR,一旦不能滿足閾值要求,將會導致傳輸成本增加和傳輸質量降低等問題,這樣做是為了防止OSNR衰減對業務傳輸的影響。規劃重要業務時,可適當增大OSNR閾值,使業務盡可能在OSNR高的鏈路上傳輸以提高可靠性。要使鏈路的剩余帶寬盡量大,使業務盡可能在負載小的鏈路上進行傳輸,避免風險過高。在選擇路由時,路由可行性要滿足兩個條件:一是要使鏈路OSNR大于預設閾值,鏈路的OSNR計算方式參照文獻[5]的方案;二是鏈路剩余帶寬資源要滿足業務傳輸所需要的帶寬。
強化學習是智能體與環境進行迭代交互,最終得到最優動作策略的一種機器學習算法,目前已廣泛用于網絡路由規劃問題中。為了應用強化學習來處理電力光通信網路由規劃問題,需要將電力光通信網業務路由選擇問題建模為馬爾可夫決策模型[8],如圖1所示,它主要由智能體、動作、狀態、獎勵和環境(此場景下為電力光通信網)5個部分組成。

圖1 強化學習結構圖
傳統的強化學習局限于動作和樣本空間都很小,且一般是離散的情境下。在對于基于風險均衡的電力通信網業務路由規劃時,狀態和動作空間較大,傳統的強化學習很難處理,深度強化學習就是把深度學習對于高維輸入的處理能力與強化學習結合起來,用神經網絡來代表價值函數,通過對神經網絡參數不斷更新直至收斂,得到最優的動作策略,本文選取深度Q網絡(Deep Q-Network,DQN)算法來對電力光通信網絡風險均衡進行嘗試。
在基于DQN的電力通信網業務路由算法中,網絡中每個節點都是一個智能體。針對其中一個節點進行討論,在明確宿節點的背景下,從該節點出發經過任意一條可到達業務宿節點Vdestination的鏈路,都是該智能體中的某一個候選動作am(m為候選動作編號),每個動作的價值由神經網絡的輸出得出,如圖2所示,該神經網絡的輸入是電力通信網狀態st(t為狀態編號),輸出為狀態為st時某個候選動作am的價值Q(st,am),當狀態和動作空間非常龐大時,神經網絡可以選擇更高級的結構或更多的層數等。

圖2 DQN神經網絡結構圖
在執行路由算法的過程中,途經的每一個設備節點都面臨選擇下一條傳輸鏈路的情況。在明確業務宿節點的背景下,從該節點中的相應神經網絡輸出中選擇輸出值最大的鏈路,并對此鏈路進行可行性判斷,即鏈路剩余帶寬容量和OSNR是否滿足業務傳輸要求,如果鏈路不可行,則從神經網絡輸出中選擇輸出值次優的動作;如果鏈路可行,繼續對鏈路到達的下一設備節點重復上一步驟。當選擇的鏈路包括宿節點時,完成整個基于DQN的路由規劃。

式中:θt為t時刻的網絡參數;Q(s,a;θ)為動作狀態價值函數微分值;α為學習率;Rt+1為采取某一動作的獎勵,在本文中,獎勵函數R定義為為一個常數;γ為衰減系數;為目標網絡在狀態st+1時的價值函數;Q(st,ak;θ)為狀態為st時動作ai的價值。詳細的算法流程如圖3所示。

圖3 基于DQN的電力通信網路由規劃算法流程圖
值得注意的是,基于DQN的電力通信業務路由算法相較于傳統算法可能會引入更高的復雜度,從而需要消耗更多的計算和存儲資源。在網絡拓撲結構很大的場景下,尤其是在電力骨干通信網中,一個網絡中的節點數目可能達到成百上千個,強化學習中的狀態和動作空間數目急劇增加,算法中的復雜性急劇增強,難以得到優良的算法性能。
為了驗證基于DQN的電力通信業務路由規劃算法的可靠性和有效性,本文在某省的真實電力通信子網拓撲(具有25個節點和33條光鏈路)上進行仿真驗證,仿真拓撲如圖4所示。

圖4 某省電力通信子網拓撲
針對上述仿真背景,本文在上述網絡拓撲上隨機生成400條業務,對于隨機生成的每一條業務信息,業務的源節點、宿節點和業務類型是隨機的,根據隨機生成的業務類型,可以確定業務其他屬性信息(業務重要度和業務帶寬等等)。本文采用第3節所述的基于DQN的路由算法對隨機產生的400條業務進行路由推薦,并且DQN算法在訓練過程中采用ε貪婪策略以探索全部動作空間。此外,為了表明本文方案的可行性,本文同時實現了電力通信網常用的傳統路由規劃算法(考慮鏈路剩余容量的K條最短路徑算法)作為對照實驗,進行結果分析。
全網風險均衡度與訓練周期的關系如圖5所示。圖中比較了對照算法和基于DQN算法的風險均衡路由策略在路由規劃時的全網風險均衡度,由圖可知,在DQN算法訓練初期,兩種算法的全網風險均衡度均較差;但是,在經過多次訓練后,基于DQN算法的路由策略的全網風險均衡度顯著降低,相比對照算法要低2.6左右,這是因為前者可以從過去的全網風險中吸取經驗教訓,找到規避網絡風險均衡度過高的辦法,從而大大降低網絡風險,增加全網的業務可靠性。

圖5 全網風險均衡度與訓練周期的關系
圖6所示為兩種算法的對比結果,對于業務平均跳數指標,對照算法在尋找最短路由跳數方面有很大的優勢,平均業務跳數相差0.5,從而在時延方面有略微優勢,但在業務平均OSNR以及全網風險均衡度方面,對照算法有著巨大劣勢,具體地,平均OSNR相差2.5左右,全網風險均衡度相差2.6左右,根本原因在于對照算法無法綜合考慮OSNR和鏈路風險值等影響業務可靠性的因素。綜上所述,基于DQN的路由策略會占用更多的鏈路資源保證OSNR和鏈路風險值等可靠性因素,但是對于當前電力通信網普遍存在全網資源浪費的情況,其消耗更多網絡資源去換取更高的網絡可靠性是完全合理的。

圖6 DQN和對照算法結果比較
相比于通用網絡,電力通信網業務種類繁雜。在路由規劃時要綜合考慮業務類型、OSNR和鏈路容量等多種約束,避免局部風險過高而降低電力通信網健壯性的問題。本文借助強化學習技術,提出了一種基于DQN算法的電力通信網風險均衡路由算法,綜合考慮鏈路風險值、OSNR和剩余容量等約束條件,該算法性能優于電力通信網最常采用的K條最短路徑算法,可以有效解決電力通信業務在進行路由規劃時造成風險分布不均衡的問題,提高了電力通信網運行的可靠性。