尚教凱 張海勇 徐 池 徐 銘
(1.海軍大連艦艇學(xué)院信息系統(tǒng)系 大連 116018)(2.大連長興島經(jīng)濟(jì)區(qū)中小學(xué)素質(zhì)教育實(shí)踐基地 大連 116317)
短波通信在艦船通信保證方面具有重要意義。科學(xué)技術(shù)的不斷進(jìn)步推動(dòng)著短波通信向著建鏈速度更迅捷[1]、數(shù)據(jù)傳輸容量更大的方向發(fā)展,但實(shí)現(xiàn)準(zhǔn)確的短波通信頻率預(yù)測是制約著遠(yuǎn)程短波通信質(zhì)量提升的關(guān)鍵問題。ITS-HF系列短波頻率預(yù)測軟件雖然能夠?qū)崿F(xiàn)復(fù)雜鏈路程序化[2],但該系列預(yù)測軟件的輸入條件過于苛刻,且局限性較強(qiáng),使其應(yīng)用于保障艦船通信質(zhì)量中的效果不好[3]。短波頻率作為典型的非線性時(shí)間序列,有學(xué)者基于模糊小波、神經(jīng)網(wǎng)絡(luò)、混沌理論等算法對時(shí)間序列預(yù)測開展研究,任淑婷采用模糊小波神經(jīng)網(wǎng)絡(luò)方法對短波頻率進(jìn)行預(yù)測,預(yù)測后的相對誤差在9%左右[4~5],但工程實(shí)現(xiàn)的難度較大[6]。
傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)通過人工進(jìn)行特征提取的方式進(jìn)行模型訓(xùn)練,但隨著“大數(shù)據(jù)”的提出,人工建立模型中的效率及容錯(cuò)率低、擴(kuò)展升級慢等問題暴露了出來,傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)方法并不能適用于挖掘大量數(shù)據(jù)的特征。
深度學(xué)習(xí)采用“逆向思維”方式,以大量數(shù)據(jù)為基礎(chǔ),借助神經(jīng)網(wǎng)絡(luò)能夠自主學(xué)習(xí)的特點(diǎn),通過不斷的反復(fù)學(xué)習(xí)歷史數(shù)據(jù)并優(yōu)化,擬合出最優(yōu)的一個(gè)模型。其中LSTM(Long Short-Term Memory)長短期記憶人工神經(jīng)網(wǎng)絡(luò)非常適合于非線性時(shí)間序列上的數(shù)據(jù)特征提取。
本文介紹幾種時(shí)間序列算法,并通過模型仿真對比,得出適用于短波可用預(yù)測的算法。
移動(dòng)平均法是使用最近的實(shí)際數(shù)值來預(yù)測后續(xù)時(shí)間數(shù)值的方法,主要用于即時(shí)短期預(yù)測。它的原理是在時(shí)間序列固定長度的集合中取平均值,并逐項(xiàng)推移,依次計(jì)算,也就是在預(yù)測每個(gè)新的后續(xù)時(shí)間時(shí),會(huì)將集合中最早的數(shù)值刪掉,并將要預(yù)測值得上一個(gè)預(yù)測值或?qū)嶋H值添加到數(shù)值集合中,從而實(shí)現(xiàn)通過移動(dòng)平均來消除時(shí)間序列中的不規(guī)則變動(dòng)和其他變動(dòng),從而預(yù)測出時(shí)間序列的長期趨勢。
ARIMA模型(Autoregressive Integrated Moving Average model)也叫做差分整合移動(dòng)平均回歸模型,是在自回歸模型(AR)、移動(dòng)平均模型(MA)、自回歸移動(dòng)平均模型(ARMA)基礎(chǔ)上的擴(kuò)展[7]。
1)自回歸模型
自回歸模型主要描述當(dāng)前數(shù)值與歷史數(shù)值間的關(guān)系,重點(diǎn)是要確定階數(shù) p,即自回歸項(xiàng)數(shù)。公式如下。

公式中,yt是當(dāng)前數(shù)值,μ是常數(shù),p是階數(shù),ri是自相關(guān)系數(shù),et是誤差。
2)移動(dòng)平均模型
移動(dòng)平均模型主要描述自回歸模型中誤差項(xiàng)的累加,重點(diǎn)是階數(shù)q,即滑動(dòng)平均項(xiàng)數(shù)。公式如下。

3)自回歸移動(dòng)平均模型
自回歸移動(dòng)平均模型為AR和MA兩個(gè)模型相結(jié)合,公式如下。

4)ARIMA模型
將ARMA模型和差分法結(jié)合,就得到了差分自回歸移動(dòng)平均模型ARIMA(p,d,q),其中d是使之平穩(wěn)所做的差分次數(shù)。公式如下。

其中,L是滯后算子(Lag operator),d∈z,d>0。
LSTM(Long Short-Term Memory)長短期記憶人工神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法中RNN(Recurrent Neural Network)遞歸神經(jīng)網(wǎng)絡(luò)的變型。首次由Hochreiter&Schmidhuber[8]提出,隨后由 Alex Grave進(jìn)行改良,實(shí)現(xiàn)時(shí)間序列中能夠記住長期歷史信息,并避免長期依賴問題。
LSTM依靠三個(gè)門來實(shí)現(xiàn)相應(yīng)的功能。
1)忘記門
該門通過查看ht-1和xt(即上一個(gè)輸出以及當(dāng)前輸入),并為Ct-1(上個(gè)細(xì)胞狀態(tài))輸出0或1的數(shù)字。1代表“完全保留”,0代表“完全丟棄”。從而決定在細(xì)胞狀態(tài)里將哪些信息丟棄。計(jì)算公式如下。

2)輸入門
該門分兩步來實(shí)現(xiàn)決定哪些信息會(huì)被存儲(chǔ)。第一步由sigmoid先決定哪些值準(zhǔn)備更新,然后通過tanh層創(chuàng)建向量C?t并將該向量加到細(xì)胞狀態(tài)中。計(jì)算公式如下。

第二步將細(xì)胞狀態(tài)更新,即Ct-1更新為Ct。計(jì)算公式如下。

3)輸出門
運(yùn)行sigmoid函數(shù)確定要輸出細(xì)胞狀態(tài)中的哪部分,再通過tanh函數(shù)與sigmoid函數(shù)的輸出相乘,從而輸出決定輸出的信息。計(jì)算公式如下。

由于無法提供足以支撐建模需求的遠(yuǎn)距離兩點(diǎn)間可用頻率的樣本數(shù)據(jù),本文采用ITS-HF軟件中RE533模型導(dǎo)出的兩點(diǎn)間最高可用頻率(MUF)的數(shù)據(jù)對基于LSTM的遠(yuǎn)程短波可用頻率預(yù)測方法進(jìn)行驗(yàn)證研究,數(shù)據(jù)由兩部分組成,一部分是由2014年8月31日0900至2015年3月1日0800的跨度半年,間隔1h的時(shí)間,另一部分是北京市石景山區(qū)與福建省福州市臺(tái)江區(qū)兩點(diǎn)間通信的最高可用頻率的數(shù)值。以上兩部分組成了4368組該時(shí)刻最高可用頻率的樣本數(shù)據(jù)集合,該數(shù)據(jù)是從ITS-HF系列軟件中的RE533模型中導(dǎo)出來的,以MUF的數(shù)值為研究對象,數(shù)據(jù)如下。

表1 MUF(兩點(diǎn)間最高可用頻率)數(shù)據(jù)情況
運(yùn)用此數(shù)據(jù)樣本進(jìn)行短波最高可用頻率規(guī)律的研究,由于數(shù)據(jù)較多,圖像顯示過于密集不便于觀看,這里以前200組數(shù)據(jù)為例,其變化趨勢如圖1所示。

圖1 前200組MUF變化趨勢
從圖1中可以觀察出來,MUF每天變化受電離層影響是較大的,但相鄰兩天的變化趨勢近似,并且連續(xù)幾天內(nèi)相對穩(wěn)定,這與澳大利亞柯頓(CODAN)公司的NGT自優(yōu)化短波電臺(tái)的CALM系統(tǒng)的核心原理是相符的,即短波的傳輸條件在一天之中變化很快,但是在幾天之內(nèi)是相對穩(wěn)定的,所以,在過去幾天的同一時(shí)刻獲得的鏈路質(zhì)量數(shù)據(jù),比當(dāng)天幾小時(shí)前獲得的數(shù)據(jù)要更加重要[9]。
本文仿真模型均由Python平臺(tái)實(shí)現(xiàn),為滿足Python平臺(tái)讀取輸入數(shù)據(jù)的要求,將樣本數(shù)據(jù)存儲(chǔ)為.csv文件,并在讀取文件后將數(shù)據(jù)進(jìn)行預(yù)處理,即樣本數(shù)據(jù)中的MUF列的數(shù)組轉(zhuǎn)換為數(shù)據(jù)集矩陣,之后將數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,使得數(shù)據(jù)在0~1之間,消除奇異樣本產(chǎn)生的不良影響,提升模型的計(jì)算效率。標(biāo)準(zhǔn)化處理后的數(shù)據(jù)集分成訓(xùn)練集和預(yù)測集兩部分,前4000組數(shù)據(jù)作為訓(xùn)練集,后368組數(shù)據(jù)作為預(yù)測集,先由訓(xùn)練集對模型進(jìn)行訓(xùn)練,再通過訓(xùn)練后的模型針對訓(xùn)練集最后時(shí)刻時(shí)間之后的368h的MUF數(shù)值進(jìn)行預(yù)測,預(yù)測結(jié)果與預(yù)測集中的實(shí)際值做均方根誤差,并將過程可視化為圖表,將均方根誤差和圖表的對比作為分析算法效果的依據(jù)。
各模型運(yùn)行后的結(jié)果如圖2~4所示。

圖2 移動(dòng)平均法模型仿真結(jié)果

圖3 ARIMA模型仿真結(jié)果

圖4 LSTM模型仿真結(jié)果
圖中藍(lán)色部分為訓(xùn)練集部分,黃色部分為預(yù)測集中的實(shí)際值,綠色部分為預(yù)測集中的預(yù)測值。圖4中由于數(shù)據(jù)密集,且擬合效果較好,分不清實(shí)際值與預(yù)測值,截取預(yù)測集片段如圖5所示。

圖5 LSTM模型中預(yù)測集截取片段
各模型的均方根誤差及運(yùn)行時(shí)間如表2所示。

表2 各模型運(yùn)行的均方根誤差及時(shí)間
從圖表中可以觀察出來,移動(dòng)平均法運(yùn)行速度最快,但結(jié)果不理想,只能大概預(yù)測出上升或下降的趨勢,而且存在延遲;ARIMA模型運(yùn)行時(shí)間最長且并沒有較好地預(yù)測出結(jié)果;LSTM模型運(yùn)行時(shí)間較快,預(yù)測結(jié)果最為理想,誤差很小。
可以得出移動(dòng)平均法及ARIMA模型并不適用于時(shí)間半年,間隔一小時(shí)為樣本數(shù)據(jù)的短波可用頻率預(yù)測。
本文根據(jù)電離層變化的非線性特點(diǎn),結(jié)合深度學(xué)習(xí)擅于發(fā)掘非線性關(guān)系的特性,將LSTM模型引入到短波通信頻率預(yù)測中,充分利用歷史的經(jīng)驗(yàn)數(shù)據(jù),用模型算法實(shí)現(xiàn)對未來約20天的每小時(shí)間隔的點(diǎn)對點(diǎn)間遠(yuǎn)程短波通信可用頻率的預(yù)測。通過幾種時(shí)間序列算法的建模對比,結(jié)果表明在時(shí)間跨度半年,間隔一小時(shí)為樣本數(shù)據(jù)的短波通信可用預(yù)測中,深度學(xué)習(xí)的LSTM模型運(yùn)行時(shí)間較快,結(jié)果最為精準(zhǔn),更適用于進(jìn)行兩點(diǎn)間最高可用頻率預(yù)測。