何迎利,胡光宇,張浩,曲志堅(jiān),王子靈
(1.南京南瑞信息通信科技有限公司,南京 211100; 2.國網(wǎng)山東省電力公司,濟(jì)南 250012;3.山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,淄博 255049)
靈活以太網(wǎng)(flexible ethernet,FlexE)是實(shí)現(xiàn)網(wǎng)絡(luò)業(yè)務(wù)隔離和網(wǎng)絡(luò)切片的新技術(shù),通過解耦以太網(wǎng)MAC(media access control)和PHY(physical layer)速率,實(shí)現(xiàn)對資源的靈活和精細(xì)化管理,滿足高速網(wǎng)絡(luò)傳送、靈活帶寬設(shè)置等需求[1]?;贔lexE技術(shù)的大型互聯(lián)網(wǎng)切片智能管控平臺在對網(wǎng)絡(luò)資源進(jìn)行分配和調(diào)度以及業(yè)務(wù)動(dòng)態(tài)編排之前能夠提前預(yù)測FlexE Client設(shè)備的網(wǎng)絡(luò)流量情況將會(huì)顯著提高資源分配和業(yè)務(wù)動(dòng)態(tài)編排算法的性能[2-3]。
對不同設(shè)備的網(wǎng)絡(luò)流量進(jìn)行準(zhǔn)確預(yù)測成為業(yè)界關(guān)注的熱點(diǎn)問題之一。開始,大多采用傳統(tǒng)的統(tǒng)計(jì)模型來預(yù)測網(wǎng)絡(luò)流量,如以時(shí)間點(diǎn)為基礎(chǔ)建立的多元線性自回歸模型(autoregression,AR)、自回歸移動(dòng)平均(autoregressive moving average,ARMA)和自回歸綜合移動(dòng)平均(autoregressive integrated moving average,ARIMA)等線性模型。這些模型通過設(shè)置未知參數(shù)去擬合多項(xiàng)式函數(shù),從而逼近網(wǎng)絡(luò)流量的真實(shí)值以達(dá)到預(yù)測的目的。線性模型的特點(diǎn)是需要人工憑借經(jīng)驗(yàn)設(shè)置多種參數(shù)來擬合數(shù)據(jù),僅適用于短期流量預(yù)測且對于周期性較小和非線性的流量數(shù)據(jù)預(yù)測效果較差[4]。
近年來,隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的不斷發(fā)展,利用機(jī)器學(xué)習(xí)模型預(yù)測網(wǎng)絡(luò)流量成為目前的主流方法。為了充分提取交通流中復(fù)雜的時(shí)空依賴關(guān)系,宋瑞蓉等[5]基于卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種能夠融合多維時(shí)空特征的流量預(yù)測模型,提高了預(yù)測性能。Valkanis等[6]提出了一種基于強(qiáng)化學(xué)習(xí)的新型流量預(yù)測機(jī)制,并利用該預(yù)測機(jī)制設(shè)計(jì)了一種彈性光網(wǎng)絡(luò)內(nèi)的啟發(fā)式路由和頻譜分配算法以高效公平地分配網(wǎng)絡(luò)資源。Nie等[7]提出了一種基于強(qiáng)化學(xué)習(xí)的機(jī)制預(yù)測物聯(lián)網(wǎng)內(nèi)部的網(wǎng)絡(luò)流量,通過將網(wǎng)絡(luò)流量預(yù)測問題建模為馬爾可夫決策過程實(shí)現(xiàn)預(yù)測算法。Yu等[8]針對長期流量預(yù)測的誤差積累問題,通過將5個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)集成到一個(gè)框架中,設(shè)計(jì)了一個(gè)多時(shí)間間隔特征學(xué)習(xí)網(wǎng)絡(luò)來處理長期網(wǎng)絡(luò)流量預(yù)測任務(wù),該網(wǎng)絡(luò)具有在不同時(shí)間間隔提取長期流量特征的強(qiáng)大能力。Zhang等[9]針對網(wǎng)絡(luò)預(yù)測過程中用戶行為的復(fù)雜性以及網(wǎng)絡(luò)應(yīng)用程序的多樣性提出了一個(gè)基于深度學(xué)習(xí)的加密數(shù)據(jù)包分類器來識別網(wǎng)絡(luò)應(yīng)用程序,并以此為基礎(chǔ)提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量預(yù)測方法。Zhang等[10]提出了一種基于長短期記憶的網(wǎng)絡(luò)流量預(yù)測模型,為了避免突發(fā)性對模型的負(fù)面激勵(lì),還提出了一種滑動(dòng)窗口梯度下降的神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化算法以適應(yīng)不同網(wǎng)絡(luò)應(yīng)用程序引起的流量模式的突發(fā)性變化。高志宇等[11]提出一種基于生成對抗網(wǎng)絡(luò)的流量預(yù)測方法,利用生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)的博弈對抗實(shí)現(xiàn)高精度的預(yù)測流量。王菁等[12]提出了一種結(jié)合動(dòng)態(tài)擴(kuò)散卷積模塊和卷積交互模塊的預(yù)測模型,該模型可以同時(shí)捕獲網(wǎng)絡(luò)流量中的空間特征和時(shí)間特征,提高了預(yù)測性能。薛自杰等[13]為了捕獲網(wǎng)絡(luò)流量中復(fù)雜的時(shí)空特征,基于編碼器-解碼器結(jié)構(gòu)提出一種時(shí)空特征融合的神經(jīng)網(wǎng)絡(luò)模型用于網(wǎng)絡(luò)流量預(yù)測。
綜上所述,網(wǎng)絡(luò)測量和管理對于未來的智能網(wǎng)絡(luò)服務(wù)質(zhì)量和提高用戶體驗(yàn)質(zhì)量至關(guān)重要。準(zhǔn)確預(yù)測網(wǎng)絡(luò)狀態(tài)可以支持網(wǎng)絡(luò)測量,并為網(wǎng)絡(luò)資源管理提供額外的時(shí)間。隨著網(wǎng)絡(luò)數(shù)據(jù)規(guī)模越來越大,深度學(xué)習(xí)技術(shù)在網(wǎng)絡(luò)測量和管理中發(fā)揮了關(guān)鍵作用。然而,由于網(wǎng)絡(luò)頻繁更新的流量拓?fù)浣Y(jié)構(gòu),不同網(wǎng)絡(luò)應(yīng)用程序引起的流量模式的動(dòng)態(tài)變化,使得網(wǎng)絡(luò)中的設(shè)備流量具有復(fù)雜的非線性特征和空間依賴關(guān)系,網(wǎng)絡(luò)流量的分布特性也已經(jīng)超出傳統(tǒng)意義上認(rèn)為的泊松分布或者 Markov分布。這些問題導(dǎo)致目前的網(wǎng)絡(luò)流量預(yù)測方法在預(yù)測性能以及預(yù)測方法適應(yīng)性方面仍然有待進(jìn)一步提高。
為了實(shí)現(xiàn)一種局部信息增強(qiáng)的注意力機(jī)制以增強(qiáng)網(wǎng)絡(luò)流量時(shí)序數(shù)據(jù)中局部的上下文信息,同時(shí)將該注意力機(jī)制引入經(jīng)典時(shí)序數(shù)據(jù)預(yù)測模型(long short term memory,LSTM)和門控循環(huán)單元(gate recurrent unit,GRU)模型以提高經(jīng)典模型在網(wǎng)絡(luò)設(shè)備流量預(yù)測方面的性能,現(xiàn)通過兩個(gè)從運(yùn)營商網(wǎng)絡(luò)中采集的網(wǎng)絡(luò)設(shè)備數(shù)據(jù)驗(yàn)證所提出方法的有效性。
LSTM是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的循環(huán)神經(jīng)網(wǎng)絡(luò)存在的長期依賴問題而專門設(shè)計(jì)出來的,其能夠?qū)r(shí)間序列中長短期依賴的信息進(jìn)行學(xué)習(xí),從而對時(shí)間序列中的間隔和延遲事件進(jìn)行處理和預(yù)測。
如圖1所示,LSTM網(wǎng)絡(luò)由輸入門(input gate)、遺忘門(forget gate)和輸出門(output gate)3個(gè)門構(gòu)成。輸入門將新的信息選擇性的記錄到細(xì)胞狀態(tài)中。遺忘門對細(xì)胞狀態(tài)中的信息進(jìn)行選擇性的遺忘,從而保留下來最具有特征的記憶細(xì)胞狀態(tài)。輸出門對結(jié)果進(jìn)行選擇行輸出。

t為時(shí)間片,表示第t個(gè)時(shí)刻;xt為t 時(shí)刻的輸入;h為隱藏狀態(tài),表示的是短期記憶;ht-1為t-1時(shí)刻的隱藏狀態(tài);ht為t時(shí)刻的隱藏狀態(tài);C為細(xì)胞狀態(tài),表示的是長期記憶;Ct-1為t-1時(shí)刻的細(xì)胞狀態(tài);Ct為t時(shí)刻的細(xì)胞狀態(tài); ft為t時(shí)刻遺忘門的輸出;it為t時(shí)刻輸入門的輸出;Ot為t時(shí)刻輸出門的輸出;tanh為單元狀態(tài)更新值的激活函數(shù)
GRU是LSTM的變體,結(jié)構(gòu)如圖2所示,同樣使用門控機(jī)制。GRU與LSTM不同的是它只有重置門和更新門。重置門決定了之前信息的遺忘程度,更新門選擇新的信息。

圖2 GRU單元結(jié)構(gòu)

在機(jī)器學(xué)習(xí)領(lǐng)域注意力機(jī)制的核心操作是從序列中學(xué)習(xí)每一個(gè)元素的重要程度,得到一串權(quán)重參數(shù),然后按重要程度將元素合并。這個(gè)權(quán)重參數(shù)就是注意力分配系數(shù)。具體而言,把元素看作由鍵(Key,K)和值(Value,V)組成的鍵值對,Q表示查詢值。注意力機(jī)制就是通過計(jì)算Q與K的相似度獲得每個(gè)V值的權(quán)重,并對Value值進(jìn)行加權(quán)求和得到最終的Attention值。
注意力機(jī)制的計(jì)算過程可分為3步。首先,如式(1)所示,計(jì)算Q和K的相似度;然后,如式(2)所示,利用softmax函數(shù)對注意力得分進(jìn)行數(shù)值轉(zhuǎn)換;最后,如式(3)所示,根據(jù)權(quán)重系數(shù)對V進(jìn)行加權(quán)求和得出Attention值。
Si=F(Q,ki)
(1)
(2)
(3)
式中:si為第i個(gè)位置序列的注意力得分;F為相似度計(jì)算函數(shù);ki為第i個(gè)位置序列的關(guān)鍵字;注意力得分si用softmax函數(shù)進(jìn)行歸一化后,得到注意力概率分布αi;vi為第i個(gè)位置序列的數(shù)值。
傳統(tǒng)注意力機(jī)制雖然可以學(xué)習(xí)序列中某時(shí)刻信息在序列整體中的相關(guān)性,但是在突出某時(shí)刻對于序列整體感知的同時(shí),局部信息被弱化的缺點(diǎn)也顯露出來。網(wǎng)絡(luò)流量序列的局部信息能夠從微觀角度對時(shí)間序列進(jìn)行解釋,是時(shí)間序列中相鄰元素之間的依賴性、趨勢性、隨機(jī)性以及多種特性變動(dòng)的疊加和組合,這是傳統(tǒng)注意力的整體感知所不能涉及的問題。這里通過對注意力機(jī)制的內(nèi)部進(jìn)行改進(jìn)從而提升注意力機(jī)制的局部感知能力。
傳統(tǒng)的注意力機(jī)制計(jì)算過程中對一個(gè)序列點(diǎn)的Q、K和V進(jìn)行單獨(dú)投影計(jì)算,不能充分利用到序列上下文的信息,導(dǎo)致序列數(shù)據(jù)中的一些局部信息無法被提取到。這一問題體現(xiàn)在對于時(shí)間序列上兩個(gè)差別較大的特征,利用傳統(tǒng)注意力機(jī)制計(jì)算出來的兩個(gè)特征的絕對值可能一樣,也即對這兩個(gè)特征有相同的注意力打分值。
然而,事實(shí)上單獨(dú)局部特征信息得出來的注意力打分值可能是不同的。針對傳統(tǒng)注意力機(jī)制存在的這一問題,這里使用卷積計(jì)算作為注意力機(jī)制的計(jì)算規(guī)則,將輸入轉(zhuǎn)換為Q和K,增加模型的局部感知能力。結(jié)合卷積操作的注意力機(jī)制生成的Q和K可以更好地學(xué)習(xí)局部的上下文信息,充分發(fā)揮時(shí)序序列中某一時(shí)刻承上啟下的作用。通過局部信息來計(jì)算它們的相似度,有助于提高模型預(yù)測的準(zhǔn)確性。局部上下文信息增強(qiáng)的注意力機(jī)制計(jì)算規(guī)則如式(4)~式(6)所示,其結(jié)果框架如圖3所示。

output為輸出
Q=conv(Q′)
(4)
K=conv(K′)
(5)
(6)
式中:conv為卷積計(jì)算函數(shù);Q和K為初始狀態(tài)的Q′和K′經(jīng)過卷積后得到的;KT為K的轉(zhuǎn)置;Q與KT經(jīng)過相乘生成了相似度矩陣;對相似度矩陣每個(gè)元素除以dk,dk為K的維度大小。
LSTM模型和GRU模型都是RNN(recurrent neural network)系列的模型,該類模型雖然在處理時(shí)間序列上有較好的性能,但是這些模型在捕捉序列的長期依賴性方面還存在困難。注意力機(jī)制可以在一定程度上彌補(bǔ)這些模型捕捉序列長期依賴關(guān)系困難的問題。此外,通過對局部上下文信息增強(qiáng)可以進(jìn)一步增強(qiáng)模型捕獲局部信息的能力。因此注意力機(jī)制與該類模型的融合能夠更好地捕獲序列數(shù)據(jù)的全局和局部特征,提高模型的預(yù)測精度。
LSTM模型與局部上下文信息增強(qiáng)注意力機(jī)制集合模型ALSTM(attention long short term memory)框架結(jié)構(gòu)如圖4所示。
如圖4所示,輸入的原始序列Xi通過LSTM處理后可獲得序列中的局部上下文依賴關(guān)系,再經(jīng)由局部上下文信息增強(qiáng)注意力機(jī)制(Attention)促使LSTM的輸出結(jié)果在全局和局部進(jìn)行整合,得到模型的最終輸出結(jié)果。
GRU模型與局部上下文信息增強(qiáng)注意力機(jī)制集合的模型AGRU(attention gate recurrent unit)框架結(jié)構(gòu)如圖5所示。

Vi+T為在第T個(gè)時(shí)刻,第i個(gè)位置的序列值V;input為序列輸入;GRU processing為GRU的過程流程;GRU output為經(jīng)過GRU模型的輸出;Attention為注意力機(jī)制模塊;output為輸出
如圖5所示,AGRU模型的工作過程與ALSTM工作過程類似,輸入的原始序列Xi通過GRU處理,可獲得序列中局部的上下文依賴關(guān)系,再經(jīng)由局部上下文信息增強(qiáng)注意力機(jī)制(Attention)機(jī)制可以使GRU的輸出結(jié)果在全局和局部角度進(jìn)行整合形成AGRU模型。
實(shí)驗(yàn)使用某運(yùn)營商提供的兩個(gè)不同的設(shè)備流量數(shù)據(jù)集Dataset_1和Dataset_2。兩個(gè)數(shù)據(jù)流量數(shù)據(jù)的具體信息如表1所示。
其中,數(shù)據(jù)集Dataset_1規(guī)模較小但是數(shù)據(jù)較為完整,基本沒有缺失值和異常值。實(shí)驗(yàn)過程中將數(shù)據(jù)集Dataset_1中的前4天的數(shù)據(jù)作為訓(xùn)練集,第5天的數(shù)據(jù)作為測試集使用;數(shù)據(jù)集Dataset_2的數(shù)據(jù)量較大,但是數(shù)據(jù)集量具有一定的缺失。并且由于該數(shù)據(jù)集中存在連續(xù)4 d的數(shù)據(jù)缺失,由于數(shù)據(jù)缺失量較大,實(shí)驗(yàn)過程中選擇前20 d的數(shù)據(jù)作為訓(xùn)練集,最后7 d的數(shù)據(jù)作為測試集。
從圖6可以發(fā)現(xiàn),數(shù)據(jù)集Dataset_1的數(shù)據(jù)質(zhì)量較好,基本沒有缺失數(shù)據(jù)。在數(shù)據(jù)集Dataset_2中除了12月26—30日這4 d的數(shù)據(jù)整體缺失以外,該數(shù)據(jù)集在其他時(shí)間上還存在少量缺失,在實(shí)驗(yàn)過程中對缺失數(shù)據(jù)進(jìn)行了簡單的插補(bǔ)處理。需要注意的是數(shù)據(jù)集Dataset_2中的數(shù)據(jù)量較大,在圖6(b)中流量的波動(dòng)性和周期性展示并不明顯。另外,由于兩個(gè)數(shù)據(jù)集中數(shù)據(jù)流量的數(shù)值量級都比較大,在實(shí)驗(yàn)中對流量數(shù)據(jù)進(jìn)行了歸一化處理。流量數(shù)據(jù)歸一化處理公式如式(7)~式(9)所示。
(7)
(8)
(9)
式中:xi為網(wǎng)絡(luò)流量序列中的第i個(gè)元素;n為序列中元素個(gè)數(shù);μ為該序列的平均值;s為該序列的方差;x_nori為歸一化后序列的第i個(gè)元素。
實(shí)驗(yàn)中使用以下4種評價(jià)指標(biāo)評估預(yù)測模型在網(wǎng)絡(luò)流量預(yù)測任務(wù)中的性能。
均方根誤差(root mean square error,RMSE)表示的是預(yù)測值與其真實(shí)值之間的偏差。其值越小說明模型預(yù)測效果越好,如式(10)所示。
(10)
平均絕對誤差(mean absolute error,MAE)表示的是預(yù)測值與其真實(shí)值之間絕對誤差的平均值。其值越小說明模型預(yù)測效果越好,如式(11)所示。
(11)
準(zhǔn)確率(accuracy,ACC)表示的是預(yù)測值與其真實(shí)值之間的準(zhǔn)確度。其值越小則說明模型預(yù)測效果越差,如式(12)所示。
(12)
決定系數(shù)R2的取值范圍是[0,1],衡量了模型對因變量變化的解釋程度,即模型能夠解釋因變量的變異性。其值越大說明模型性能越好,公式為

(13)
解釋回歸模型的方差得分Var其值取值范圍是[0,1],越接近于1說明自變量越能解釋因變量的方差變化,值越小說明模型預(yù)測效果越差,如式(14)所示。
(14)
實(shí)驗(yàn)采用經(jīng)典的(history average,HA)、支持向量回歸(support vector regression,SVR)模型以及傳統(tǒng)的時(shí)序模型LSTM和GRU[11]作為基本對比模型。通過對同一時(shí)間段內(nèi)不同預(yù)測粒度的網(wǎng)絡(luò)流量進(jìn)行預(yù)測分析,分別驗(yàn)證了所提出的AGRU和ALSTM模型的性能。不同模型在數(shù)據(jù)集Dataset_1和Dataset_2的預(yù)測性能如表2和表3所示。

表3 數(shù)據(jù)集Dataset_2在不同模型上的預(yù)測結(jié)果
從實(shí)驗(yàn)結(jié)果可知,改進(jìn)后的ALSTM模型和AGRU模型的預(yù)測性能比傳統(tǒng)的LSTM模型和GRU模型有顯著的提升,證明了所提出的局部上下文信息增強(qiáng)注意力機(jī)制的有效性。主要在于改進(jìn)后的模型不僅能捕捉時(shí)間點(diǎn)對整體序列的依賴關(guān)系,同時(shí)也增強(qiáng)了模型捕捉序列局部信息以及序列內(nèi)在聯(lián)系的能力。
圖7分別給出了在某一臺具體設(shè)備上不同預(yù)測模型在測試集上的流量預(yù)測結(jié)果與該設(shè)備真實(shí)流量值的可視化結(jié)果。

True為正確的結(jié)果;predicted value by GRU為GRU模型的預(yù)測結(jié)果;predicted value by ALSTM為ALSTM模型的預(yù)測結(jié)果;predicted value by LSTM為LSTM模型的預(yù)測結(jié)果;predicted value by AGRU為AGRU模型的預(yù)測結(jié)果
圖8給出了不同預(yù)測模型在數(shù)據(jù)集Dataset_1上所有不同預(yù)測粒度的評價(jià)指標(biāo)可視化結(jié)果。
圖9給出了不同預(yù)測模型在數(shù)據(jù)集Dataset_2上所有不同預(yù)測粒度的評價(jià)指標(biāo)可視化結(jié)果。
從上述實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),改進(jìn)后的預(yù)測模型ALSTM和AGRU較其他基本對比模型都具有較好的預(yù)測性能。需要注意的是,在數(shù)據(jù)集Dataset_1中所提出的ALSTM模型較AGRU模型具有稍好一些的預(yù)測性能,這是因?yàn)閿?shù)據(jù)集Dataset_1中的數(shù)據(jù)量較少導(dǎo)致AGRU模型的訓(xùn)練并不充分,影響了其預(yù)測性能,這也從一個(gè)側(cè)面說明了ALSTM模型較AGRU模型更適合用于數(shù)據(jù)量較少的場景。在數(shù)據(jù)量更充分的數(shù)據(jù)集Dataset_1中AGRU模型的預(yù)測性能顯著高于ALSTM模型,并且所有模型的預(yù)測性能都有一定的提升,充分說明了數(shù)據(jù)量對于模型訓(xùn)練的重要性,此外在數(shù)據(jù)較為充分的條件下AGRU模型較ALSTM模型具有更好的性能。
綜上所述,提出的局部上下文信息增強(qiáng)注意力機(jī)制能夠有效捕獲時(shí)序數(shù)據(jù)中的局部信息,更好地融合全局和局部特征并區(qū)分不同的流量特征值,從而促進(jìn)預(yù)測模型的預(yù)測性能。
在傳統(tǒng)注意力機(jī)制的基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了局部上下文信息增強(qiáng)的注意力機(jī)制,提高了網(wǎng)絡(luò)流量的預(yù)測精度,得到以下結(jié)論。
(1)通過在注意力機(jī)制中借助卷積計(jì)算促使改進(jìn)后的注意力機(jī)制既能夠突出當(dāng)前時(shí)刻對流量序列的整體感知,也能夠捕獲到序列的局部依賴關(guān)系。
(2)在傳統(tǒng)GRU和LSTM時(shí)序預(yù)測模型的基礎(chǔ)上,引入改進(jìn)后的局部上下文信息增強(qiáng)注意力機(jī)制,可以有效提高模型的預(yù)測性能。
(3)引入改進(jìn)注意力機(jī)制后的AGRU和ALSTM模型與傳統(tǒng)的GRU模型和LSTM模型相比,具有更小預(yù)測誤差和更高的預(yù)測準(zhǔn)確度。