周 剛,吳樹霖,張江龍,吳小華,莊浩濤,趙永利
(1.國網福建省電力有限公司,福州 350003; 2.國網福建省電力有限公司信息通信分公司,福州 350003;3.安徽繼遠軟件有限公司,合肥 230088; 4.北京郵電大學,北京 100876)
在投入商業使用的光網絡中,用戶隱私和商業機密保護等措施使得實時采集到的有效流量有限,難以支撐基于深度學習的流量預測或流量診斷等模型的訓練。
數據增強(合成)是解決數據量問題的有效方法。傳統方法依據已知流量數據特征和專家經驗,對經典數學模型進行再建模,以擬合出流量分布表達式。文獻[1]根據泊松模型對流量數據進行數學建模,但現網中業務種類繁多,流量數據特性越加復雜,基于泊松模型的數據合成會導致多源數據匯聚后變得越加失真;文獻[2-3]中均基于分形布朗運動模型對流量數據進行數學建模以合成流量數據,該模型能夠刻畫光網絡的突發性和自相似性[4],但不適用于非高斯流量數據的建模。可見傳統方法根據局部特性合成流量,難以適應現網高度變化的流量數據。為了解決生成對抗網絡(Generative Adversarial Networks,GANs)[5]難以合成序列數據的問題,文獻[6-7]基于循環神經網絡(Recurrent Neural Network,RNN)提出了針對序列數據的合成方法;為了解決時序數據條件性合成問題,文獻[8]引入基于多層感知機的元數據輔助模型。然而尚未有根據光鏈路特性對流量數據進行合成的研究成果。
針對上述流量合成方案的局限性,本文采用GANs的“半監督”能力代替專家經驗,構建了基于拓撲鏈路識別的光網絡流量數據合成(Topology-link Recognition-based Optical Networks Traffic Data Synthesis, TRONTDS)模型 。
在進行流量數據增強算法的研究之前,先設定算法網絡模型。圖1所示為圖像化的光傳送網(Optical Transport Network, OTN)拓撲圖,給定的OTN由1組OTN節點和1組OTN鏈路組成,可用無向圖G=(V,E)來表示該物理拓撲, 式中,V為物理節點的集合,E為光纖鏈路的集合。設Pp為所有物理路徑的集合,pp(src,dst)∈Pp為從源節點src∈V到目的節點dst∈V的物理鏈路。對src和dst間的鏈路pp(src,dst)進行數據增強,則將pp(src,dst)鏈路和端節點進行異化。本文采用顏色變換法對指定鏈路進行異化,使得數據增強模型能夠識別出該鏈路。

圖1 圖像化的OTN拓撲圖
結合以上拓撲模型,給出幾組定義和概念:
(1)vi為對光網絡中鏈路i進行測量得到的流量數值。
(2) 將鏈路i中一段經過預處理后包含n個流量的測量序列定義為

(3)DSt,i為鏈路i中t維光網絡流量序列集,有以下關系:



(5) 高斯白噪聲Zn到Sn,i的映射過程為



GANs包含了兩個重要結構——DM和GM[5]。GANs核心思想為GM與DM基于雙元零和博弈策略進行對抗學習——GM與DM在對抗學習中爭取各自“利益”的最優化,且雙元博弈“利益”總和為一個設定的常量。GM的輸入為隨機向量,一般為低維數據,如高斯白噪聲。GM的任務就是通過學習到的經驗(初始隨機設定)將該低維隨機向量進行處理后,根據輸出規定映射成一個多維或者高維數據。不同于GM,DM基于真實數據集,因此其初始輸入為真實的數據集,在對抗學習中輸入的是GM生成的數據。在GANs訓練過程中,DM的任務是對輸入數據進行真實性的鑒別并將鑒別結果作為輸出。GM目標是合成具有高度真實性的數據以使得DM無法鑒別出該數據為合成,同理可知,DM的目標是在對抗學習中不斷積累新“知識”,最大程度判別出GM合成的數據為非真實數據。從數學建模角度分析,GM的目標是對聯合概率分布P(X,Y)進行學習,X為數據特征,Y為標簽,從而GM可以根據該先驗分布進而獲悉后驗分布P(Y|X)=P(X,Y)/P(X)。DM的目標是基于原始數據集直接學習P(Y|X)分布,并根據數據特征算出標簽的概率。圖2所示為GANs模型的基本結構。

圖2 GANs模型的基本結構
正是由于DM與GM的目標是相反的,因此GANs的訓練過程呈現出雙元對抗性。GANs在數據生成中的整體任務是通過學習獲得數據特征知識,進而依據學到的知識生成符合原始數據分布規律的能夠以假亂真的合成數據。在這個訓練過程中,GM在DM模型的“反饋”下學習到真實數據的具體分布規律,并不斷生成新的數據輸出給DM進行判別,在不斷迭代的過程中,GM生成數據能夠完全逼近實際數據,DM需要根據先驗知識對GM所生成的數據進行鑒別,在每次迭代過程中導出鑒別的真偽結果。對于GANs的整體訓練過程而言,博弈雙方DM與GM的最終目標是趨向于動態的納什均衡。在GANs趨向于博弈均衡時,GM能夠生成逼近真實數據分布的合成數據,且DM所導出的判別結果趨近于0.5。
GANs的目標函數為
式中:G為GM的輸出;D為DM的輸出;Pz(x)為噪聲分布;E為期望;log對數的底大于1,一般取2或e;Pdata(x)為真實數據集的分布規律;G(x)為GM處理輸入數據的過程(如將隨機高斯白噪聲向量z轉換成目標多維數據);D(x)為數據x服從真實數據集分布規律Pdata(x)而非合成數據集分布規律Pg的概率。
圖3所示為基于拓撲鏈路識別的光網絡流量數據合成算法框架圖。

圖3 基于拓撲鏈路識別的光網絡流量數據合成算法框架圖
不同于傳統的GANs,其在GM中引進CNN[9]以合成“偽”拓撲向量。相應地,需要在DM中引入一個輔助模塊(同樣為一個CNN)用于鑒定“偽”拓撲向量并反饋信息給拓撲GM。由于流量數據為離散形式的序列數據且含有時間維度的特征,引入一種具有高效學習數據時間特性的神經網絡——RNN[10],用于合成流量數據。相較于原始的RNN,改良的長短時記憶(Long Short Term Memory,LSTM)[11]神經網絡能夠獲取到數據中較長的時序依賴關系,被廣泛應用于處理具有時間維度的離散數據,本文采用LSTM作為GM的核心部分。根據條件生成網絡[12]的思路,結合生成的拓撲向量與生成的流量數據作為核心DM的輸入。通過DM的反饋,GM能夠逐漸合成接近真實流量數據的合成流量,同時獲取到拓撲向量和流量數據之間的關系。
基于原始GANs模型的目標優化函數進行的模型訓練,在穩定性保持方面能力較差,也容易發生模式崩壞問題。研究結果表明,Wasserstein距離用于改善目標函數,能夠降低模式崩壞問題發生概率[13]。本章提出的缺失值填充算法采用了“W距離”GANs,用于學習缺失時序數據的分布。如式(8)所示,相較于原始版本的GANs,Wasserstein距離的引入主要體現在目標函數以下兩項的修改中:
(1) 將目標函數中的對數函數省去了;
(2) 在GM和DM每次迭代更新的過程中,對模型相關參數進行取模并做出裁剪處理,以達到讓其保持在一定的范圍之中。
式中:WL(G,D)為目標函數;PDSt為原始樣本數據集的數學分布;s為DM的輸入,而DM的構建需要喂入原始數據序列,所以此處的s為原始數據序列D(s),表示喂入s序列的DM的輸出;Z為噪聲分布,PZ為生成模型生成的偽數據分數學分布。
由此DM中引入了輔助DM,如圖3所示,那么需要對基于Wasserstein距離的目標優化函數進行調整,也即引入輔助DM數學模型?;谑?8),TRONTDS的目標優化函數設計如下:

為了對增強后的光網絡流量數據的質量進行評估,本文采用了兩個層面的指標,分別是從數據本身出發的數學統計指標(自相關系數)和基于數據構建的神經網絡模型的準確率應用層面的指標。
(1) 自相關系數(Auto-correlation)
自相關系數用于衡量同一個序列在兩個不同時期的相關程度,也即歷史數值對當前數值的影響。從計算的角度看,自相關系數就是將一個數據列在時間維度上按照一定時間進行平移,去除平移后時間重疊的兩列數據,最后對這兩列數據進行相關系數求解。
自相關系數的計算式子如下所示:

自相關系數可用于衡量流量數據在時間前后的相關性,進而對數據增強模型在時間特性方面的捕獲能力進行評估[14]。
(2) 預測準確率(Accuracy)
準確率指在給定測試數據集的情況下,神經網絡模型進行數據分析和判斷,最終輸出結果為對應樣本種類的次數與總樣本數之比。本文設定光網絡流量預測值的合理偏差范圍為真實流量值的30%,也即預測值與真實值的絕對差值與真實值的百分比小于30%判定預測結果為真,否則為假。
為了驗證TRONTDS在數據增強方面的性能,減弱CNN模型訓練過程對整個算法流程的影響,本文設置9節點、12鏈路的網絡拓撲作為仿真拓撲,如圖4所示。設定該拓撲中節點序號由左到右、由上到下遞增。流量數據采集粒度設定為1 h,跨度為24~48 h,整理出變長流量序列,組合成數據集。流量數據集分為訓練集和測試集,比例設定為4∶1。

圖4 9節點、12鏈路拓撲圖
在統計指標層面,本文采用真實數據和原始GANs合成局作為基準對比。由于原始GANs不具備拓撲識別能力,故本文僅針對指定鏈路pp(node2, node5)(node2, node5分別為圖4中第2個和第5個節點)流量進行仿真對比。在應用指標層面采用原始GANs和LSTM神經網絡作為對比基準。
本文核心DM采用包含4個中間隱藏層的多層感知機(全連接神經網絡)來實現,每個隱藏層的神經元個數設定為200;輔助DM選用CNN,選用ReLU函數作為激活函數,池化層包含3個卷積層和1個全連接層。對應的流量數據GM采用一層LSTM網絡實現,包含100個單元;拓撲向量GM也采用3卷積層的CNN。添加Softmax層用于輸出指定鏈路pp(node2, node5)的合成拓撲向量和合成流量數據。訓練過程中梯度懲罰權重設定為10,采用Adam optimizer作為優化器,學習率為0.001,損失函數為Wasserstein函數。
本文對指定鏈路pp(node2, node5)進行流量數據合成,與真實數據的對比如圖5所示??梢妰闪辛髁繑祿淖邉菀约安▌于厔莼颈3忠恢拢傻牧髁繑祿緮M同真實數據。圖6所示為真實流量數據和生成流量數據的頻次分布直方圖,通過比較可知,合成的流量數據分布與真實數據分布基本上能夠匹配,其中橘黃色曲線為本文增強后流量頻次高于真實流量的部分。

圖5 指定拓撲鏈路增強流量數據與真實流量數據對比圖

圖6 指定拓撲鏈路增強流量數據與真實流量數據直方分布圖對比
為驗證TRONTDS合成數據具有真實流量數據的時間特性,對本文合成流量數據、原始GANs合成數據和原始的流量數據分別進行自相關系數計算,結果如圖7所示。由圖可見,TRONTDS合成的數據從低滯后時間到高滯后時間,幾乎與原始流量數據變化重疊,這說明TRONTDS能夠高效獲取原始流量數據的時間特效,而原始GANs合成數據的自相關系數曲線出現許多抖動且波峰出現更多失真,這說明其容易丟失流量數據中所攜帶的時間特征。

圖7 原始流量數據與兩種算法合成數據自相關系數對比圖
圖8所示為基于3種增強數據訓練的全連接神經網絡的流量預測準確率曲線,其中基于TRONTDS合成流量的預測模型性能最佳,能夠快速將準確率提升到90%以上,這主要是由于TRONTDS在GANs基礎上引入了LSTM網絡,能在半監督機制下生成與真實流量數據相同數學分布的流量數據。同時可見,模型能夠關聯拓撲向量GM合成的拓撲向量和合成的流量數據,使得能夠指定鏈路進行流量數據的合成。

圖8 基于3種增強算法合成數據的流量預測模型準確率對比圖
為了能夠對光網絡指定鏈路中的流量數據進行增強,本文提出了一種TRONTDS算法,在GANs框架下聯合基于光網絡拓撲的條件生成模型和基于光網絡流量的數據合成模型,以自監督的方式合成指定光鏈路的流量數據。仿真結果表明,所提算法在統計指標和應用指標上均表現優異,其中合成的光網絡流量數據在自相關系數指標上與真實數據接近,且使得基于全連接神經網絡的流量預測模型準確率達到95%以上。為了驗證合成流量的質量,本文目前只對9節點拓撲進行了仿真,以減小拓撲識別效率對整體算法的影響。后續工作將著重優化拓撲識別功能,并在現網拓撲上采用真實流量數據進行仿真驗證。