唐絲語 黃智
(江蘇師范大學物理與電子工程學院 徐州 221116)
電離層是地球大氣層的重要組成部分,電離層的擾動會導致無線通信、導航定位、超視距雷達等系統產生工作誤差[1]。電離層總電子含量(Total Electron Content,TEC)是表征電離層形態變化的重要物理量之一,對電波傳播修正和電離層理論研究等諸多方面具有重要的意義[2],因此針對探測和預報電離層TEC 的研究不斷深入[3]。早期,有研究利用大量觀測數據集,建立了許多電離層經驗模型,其中比較著名的是國際參考電離層模型(International Reference Ionosphere,IRI)[4]、Bent 模型、Klobuchar 模型等。電離層經驗模型能夠較好地描述全球變化的平均行為,但對于區域的小尺度變化缺乏準確性[5]。
由于神經網絡能夠描述復雜的非線性輸入/輸出關系,利用神經網絡技術進行電離層參數預報為空間天氣學研究提供了新的方向,越來越多的學者利用神經網絡技術進行電離層參數的預報。Li 等[6]利用BP(Back Propagation)神經網絡構建了提前一天預報電離層TEC 參數的模型,實驗結果表明訓練后的神經網絡模型可以反映出不同季節TEC 周日變化以及地磁暴情況TEC 特征。Huang 等[7]以太陽輻射通量F10.7指數、地磁活動Dst指數和電離層TEC 作為預報因子,利用徑向基網絡模型預報電離層總電子含量,均值誤差在5 TECU 之內。Tang 等[8]首次建立基于貝葉斯正則化(Bayesian Regularization)的Elman 回歸神經網絡(BR-Elman)電離層TEC 預報模型,其預報效果優于傳統BP 網絡模型。近年來,由于人工智能技術的快速發展,深度學習網絡能夠克服傳統神經網絡難以準確表示時間序列動態變化的缺點,研究人員將其應用于電離層參數預報領域,取得了一些有意義的成果。Yuan 等[9]搭建基于遞歸神經網絡(Recurrent Neural Network,RNN)的電離層TEC 預報模型,預測結果相比BP 反向傳播神經網絡,RNN 網絡模型對寧靜電離層和電離層暴的預測更為準確。Wen 等[10]利用長短時記憶網絡模型(Long Short-term Memory,LSTM)構建了武漢站(30.53°N,114.36°E)電離層TEC 預測模型,實驗表明,在磁暴條件下LSTM 模型預測優于BP 模型和IRI-2016 模型預報結果。Sun 等[11]優化了LSTM 網絡結構,利用雙向長短時記憶網絡(Bidirectional Long Short-term Memory,Bi-LSTM)對北京站(40°N,115°E)開展電離層TEC 預報,其誤差約為3.35 TECU。
LSTM 網絡有效解決了RNN 梯度爆炸、消失等缺點[12],能夠較好地捕捉TEC 的時間變化特征,因而被廣泛應用于電離層TEC 預報研究。但TEC 不僅是隨著時間變化的序列,同時具有明顯的空間變化特征,有必要深入探求更適合的神經網絡,進一步提升預報精度。本文致力于開發一種基于因果卷積和LSTM 網絡的電離層TEC 預報模型,自動提取TEC序列的時空變化特點,建立最優化網絡拓撲結構。
本文根據預報模型中因果卷積和長短時記憶網絡的基本原理,提出了一種基于因果卷積和LSTM 網絡的電離層TEC 混合深度學習預報模型,并詳細地描述了預報模型的算法流程。同時利用歐洲定軌中心CODE 提供的2005-2013 年的TEC 數據,深入分析了北京站、武漢站、海口站在不同太陽活動、地磁活動條件下及不同季節混合模型的有效性,進一步給出了與LSTM 網絡預報模型的分析比對結果。對預報結果進行了討論并得出結論。
為了引入時間序列敏感性,搭建的基于因果卷積和長短時記憶網絡模型是在長短時記憶網絡基礎上進行的改進,首先通過因果卷積對電離層TEC 時間維度信息進行聚合,繼而再通過LSTM 進一步學習TEC 時空特征并對其進行預測。
卷積神經網絡(Convolutional Neural Network,CNN)的核心是卷積操作[13],卷積操作是指將數據與一組固定權重的濾波矩陣進行內積,其主要應用于計算機視覺領域。考慮到時間因素,基礎的CNN 并不適用于時序預報領域,通常采用因果卷積預報時間序列并實現不遺漏過去信息的功能[14]。因果卷積通過限制滑動窗口來保證t之后的信息不會用來預報,其計算過程如圖1 所示。
由圖1 可見,因果卷積是使用一維卷積核(One Dimensional Convolution Kernel)在時域上對時序數據進行卷積計算,每一層的輸出都是根據前一層對應未知的輸入及其前一個位置的輸入共同得到的,具有嚴格的時間約束,假設卷積核為F={f1,f2,...,fk},序列X0={x1,x2,x3,...,xn},在xt處的因果卷積為


圖1 因果卷積結構模型Fig.1 Structure model of the causal convolution
式中xt?K+k表 示輸入序列X0={x1,x2,x3,...,xn}中第t?K+k個 值,卷積核的長度為K。
長短時記憶模型LSTM 是一種特殊類型的循環神經網絡RNN。標準RNN 模型是一個擁有重復單元的循環式模型,LSTM 模型主要是在傳統RNN 模型基礎上,對其神經元內部結構進行改進,使網絡模型可以學習長期依賴信息,有效地規避了標準RNN中梯度爆炸和梯度消失的問題[15],LSTM 網絡單元結構如圖2 所示。
圖2 中LSTM 神經網絡單元主要由三個門構成[16],分別為輸入門 i、遺忘門 f、輸出門 o,輸入門i控制著每個隱藏單元的輸入有多少新的信息加入內部狀態Ct里 ;遺忘門 f 決定著先前狀態Ct?1保留和丟棄的信息;輸出門 o 控制著每個單元被保留的激活信息和不相關的信息。LSTM 通過這三個門控單元來選擇性地記憶反饋的誤差函數以及隨梯度下降的修正參數,從而實現時間上記憶或遺忘的功能。設LSTM 層將輸入序列x=(x1,x2,...,xt)映射到隱藏層輸出序列h=(h1,h2,...,ht),則LSTM 神經網絡工作過程中記憶單元的狀態和輸出表達式為

圖2 LSTM 模型神經元結構Fig.2 LSTM model neuron structure

其中,it、ft和ot分別表示t時刻輸入門、遺忘門和輸出門的輸出值,Ct代 表t時刻神經元激活狀態,σ為sigmoid 激活函數,tanh 為雙曲正切激活函數,w為LSTM 不同層之間的權系數矩陣,b為偏置項。
電離層隨緯度、經度呈現復雜的空間變化,為了驗證預報模型在中國區域不同空間位置的有效性,選取東經110°E 附近三個不同緯度的GPS 觀測站,其地理位置列于表1。電離層TEC 數據來源于歐洲定軌中心(CODE)的全球電離層地圖GIM。CODE TEC 采用球諧函數擬合和快速傅里葉變換技術,具有較高的精度,廣泛應用于電離層形態以及地震等空間異常前兆分析,文中采用TEC 數據的時間分辨率為2 h。

表1 GPS 觀測站位置Table 1 Location of GPS stations
由于電離層TEC 不僅隨時間和空間變化,同時也受到太陽活動和地磁活動的影響,因此本實驗中除了歷史TEC 數據,還加入了太陽活動指數F10.7和地磁活動指數Dst作為電離層TEC 預報模型的預報因子。其中,F10.7指數表示波長為10.7 cm 的太陽射電通量,與太陽黑子數密切相關,是表征太陽活動重要參數之一。Dst是指磁暴環電流指數,被用來描述地磁強度,其時間分辨率為1 h。
為了全面評估基于因果卷積和長短時記憶網絡模型的性能,本文采用2005-2013 年連續9 年不同太陽活動期間的數據,其F10.7指數變化如圖3(a)所示。由圖3(a)可見,2008-2009 年為太陽活動低年,F10.7指數的均值約為70 sfu(1 sfu=10?33W·m?2·Hz?1),2012-2013 為太陽活動高年,F10.7指數的均值明顯升高約120 sfu。文中選取2009 年和2013 年數據為網絡模型測試數據集,其余樣本作為訓練集(訓練集數據不包括2009 年和2013 年數據)。同時,為分析磁暴期間模型預測精度,圖3(b)給出了2013 年Dst指數變化的趨勢,由圖3(b)可見,其中第76 天、152 天、180 天Dst指數明顯下降,其下降最大值分別約為–132 nT、–124 nT、–102 nT。

圖3 2005-2013 年F10.7 指數變化和2013 年Dst 指數變化Fig.3 F10.7 index variation during 2005-2013 and Dst index variation in 2013
實驗采用基于因果卷積和LSTM 網絡的電離層TEC 預報模型,模型結構如圖4 所示,輸入序列先通過因果卷積,能夠提取原始較長數據的抽象特征轉換為較短的輸出序列,繼而將其作為LSTM 網絡的輸入進行處理。

圖4 預報模型結構Fig.4 Structure diagram of the forecast model
2.2.1 數據預處理
將連續9 年TEC 時間序列X0={x1,x2,...,xn}按照7∶2 劃分為訓練集Xtr={x1,x2,...,xm}和測試集Xte={x1,x2,...,xl},同理將太陽活動指數F10.7和地磁活動指數Dst也按照7∶2 進行訓練集和測試集劃分。然后對所有數據進行Z-score 標準化處理,標準化公式為

式中,xt表 示原始TEC 數據中的第t個值,μt表示原始TEC 時間序列的均值,σt為原始TEC 時間序列的標準差,表示標準化后的TEC 數據。
2.2.2 模型訓練
確定基于因果卷積和LSTM 神經網絡的拓撲結構,并初始化預報模型網絡的權重,對模型中參數進行調節,其中在因果卷積網絡處理層使用128 個時域卷積核,大小為24,最大池化層算子為3,激活函數為tanh,在LSTM 網絡處理層中,設置學習率為10–4、隱藏層神經元數為20、輸入量長度為30×13、優化器為Adma 算法、目標函數為均方差等,繼而將訓練集批量地輸入電離層TEC 預報模型中,計算有效歷史長度的輸出誤差,并將誤差通過反向傳播來更新預報模型權重參數,最終得到預報模型。
2.2.3 模型預報
模型訓練完成后,載入訓練好的權重和偏置,將訓練好的模型記為 CC-LSTM,繼而將測試集輸入進行測試,詳細過程如圖5 所示,首先利用t時刻和之前的數據集預測(t+1)時刻的TEC,為了實現工程意義上的預報,繼而將預測出的(t+1)時刻的數據加入新的基礎序列中,再對(t+2)時刻的TEC 數據進行預報[17]。以此類推進行測試集預報直至預報結束,得到預報序列Ti={t1,t2,...,ti},繼而將預報序列Ti進行Zscore 反標準化,則可得到最終的預報結果。

圖5 測試集預報過程Fig.5 Forecast process chart of the test set
2.2.4 模型評估
將模型預報的結果與真實測量值進行比較,采用相關系數R和均方根誤差ERMS(Root Mean Square Error,RMSE)這兩個性能指標來評估模型的有效性,即

其中,Ti為第i小時的電離層TEC 預報值,Qi為第i小時電離層TEC 的觀測值,n為時間段的長度,cov為 協方差,var為方差。
為了對所提出的基于因果卷積和LSTM 網絡的電離層TEC 預報模型有效性進行評估,實驗采取2005-2013 年北京站、武漢站和海口站電離層TEC 觀測數據、太陽活動指數F10.7和地磁指數Dst作為特征輸入參數,進行電離層TEC 的預報。預報模型利用30 天電離層TEC 數據,預測下一天TEC 數據。考慮到太陽活動對電離層TEC 的影響,實驗選取了太陽活動高年(2013 年)和太陽活動低年(2009 年)進行模型有效性分析。圖6 給出了2009 年2 月3-9 日(34-40 天)和2013 年8 月12-18 日(224-230 天)不同GPS 站TEC 預報值和TEC 實測值的變化曲線。從圖6 變化曲線可以清楚看出,無論太陽活動低年還是高年實驗模型預報值與實際測量TEC 值的變化趨勢基本一致。但隨著觀測站緯度的降低,預報結果與TEC 測量值出現了一定的偏差,特別在太陽活動高年,低緯地區海口站預測結果明顯偏高。

圖6 2009 年第34-40 天和2013 年第224-230 天模型預報結果與實際值比較Fig.6 Comparison of the model forecast results and the actual values from the 34th to the 40th day in 2009 and from the 224th to the 230th day in 2013
為詳細描述實驗模型預報值與TEC 真實測量值的差異,根據式(9)計算并繪制了2009 年和2013 年全年不同站點的散點圖分布和回歸分析結果(見圖7)。圖7 中k表示擬合函數的斜率,R為相關系數,k和R越接近1,預報結果與真實值越接近,說明預報效果越好。由圖7 可見,太陽活動低年三個觀測站的擬合直線斜率k約為0.8,相關系數都大于0.87;太陽活動高年三個站點的相關系數都在0.96 以上,斜率約為0.93。結果表明,太陽活動低年和高年,模型預報值與真實測量值均呈現較高的正相關,海口站在太陽活動高低年的回歸線斜率和相關性系數值較高,但其散點圖中的離散點相較于北京和武漢站有所增加。

圖7 2009 年和2013 年三個站點模型預報值與真實值回歸分析結果Fig.7 Regression analysis between the prediction and the observations at three stations in 2009 and 2013
為量化分析混合深度學習預報模型的精度,根據式(10)計算2009 年和2013 年不同站預報的均方根誤差(RMSE),其分布直方圖如圖8 所示。從圖8 可以看出,實驗模型預報誤差絕大多數分布在0~1 TECU 范圍內。太陽活動低年(2009 年),北京站約84%、武漢站約88%、海口站約78%的預報誤差集中于0~1 TECU 內;太陽活動高年(2013 年)三個觀測站位于該范圍的預報均方根誤差占比依次降低為70%,68%和43%,尤其2013 年海口站有較大比例的誤差分布在3 TECU 左右。可見太陽活動增強,模型預報誤差明顯增大。

圖8 模型在2009 年和2013 年的預報誤差分布直方圖Fig.8 Forecast error distributions of the hybrid model in 2009 and 2013
為進一步分析地磁擾動期間深度學習TEC 預測模型的性能,選取2013 年Dst指數小于–50 nT 的磁暴數據(第76-83 天,第152-159 天,第180-184天),分別計算不同觀測站TEC 平均預報誤差。結果表明,北京站、武漢站和海口站的預報誤差均值分別約 為 2.14 TECU、2.42 TECU、3.70 TECU,而2013 全年北京站、武漢站和海口站的預報誤差分別為1.80 TECU、1.87 TECU 和3.60 TECU,可見地磁擾動期間預報模型誤差增大。除此之外,不同季節太陽直射地球的位置不同,電離層TEC 分布也不同,因而本實驗探究了預報模型在不同季節時段的TEC 預報結果,以春分、夏至、秋分、冬至前后45 天將全年劃分春、夏、秋、冬四季,其預報結果如表2 所示。由表2 明顯可知,無論太陽活動高年還是低年,模型在三個臺站春秋季預報誤差最小。在中高緯度地區(北京站)夏季預報誤差最大;在低緯地區(武漢和海口),模型在太陽活動低年夏季誤差最大,但在太陽活動高年,模型在冬季誤差最大。且2013 年冬季,海口地區誤差突然增至5 TECU,可能與北緯赤道地區太陽活動和地磁活動等因素有關。

表2 2009 年和2013 年不同站點在不同季節的預報誤差RMSE(TECU)Table 2 Forecast RMSEs at different stations in different seasons in 2009 and 2013
為進一步驗證 CC-LSTM 混合模型預報的性能,在特征參量、模型參數輸入相同的條件下,本文計算了CC-LSTM混合模型與LSTM 網絡模型均方根誤差,其結果列于表3。表3 中LSTM 模型在三個觀測站的RMSE 值都大于 CC-LSTM模型的RMSE 值,根據表3 提供的6 組數據,可計算出實驗模型均方根誤差相對于LSTM 預報模型大概降低了15%。從太陽活動程度來看,太陽高年兩個模型的RMSE 值要高于太陽活動低年;從高低緯度來看,緯度越高預報誤差越小,說明兩者都可以很好地反映電離層TEC 特性,但 CC-LSTM模型效果略優于LSTM 模型,主要由于與單一LSTM 網絡相比,混合模型中的因果卷積能更準確地捕捉TEC 序列的時空變化特征,其輸出中隱含了較大時間跨度的TEC 時序特征,使得LSTM 網絡進行后續計算可以觀察到更早的、分辨率較高的TEC 時序數據,從而有效地提高電離層TEC 預報的準確性。

表3 混合神經網絡模型與LSTM 預報均方根誤差對比結果(TECU)Table 3 Comparison of the RMSE between the mixed neural network model and LSTM network
針對電離層TEC 時空變化特征和LSTM 網絡的不足,提出了一種基于因果卷積和LSTM 混合深度學習預報模型,并利用2005-2013 年不同太陽活動期間的CODE TEC 數據對北京站、武漢站和海口站進行提前24 h 預報。預報結果表明:(1)模型在中高緯地區具有較高的精度,緯度降低特別是赤道附近區域模型預報精度下降;(2)隨著太陽活動和地磁活動的增強,模型預報精度有所降低;(3)模型在春秋季預報誤差最小,夏季或冬季預報誤差較大;(4)混合神經網絡模型預報性能明顯優于LSTM 網絡模型。
與中高緯相比,低緯以及赤道區域的電離層TEC 值和梯度變化明顯增大,特別是在太陽活動高年和磁暴發生期間其行為變化更加復雜,極大增加了預測模型對TEC 時空信息捕捉的難度,導致模型預測精度下降。此外,2009 年是太陽活動極小年,電離層TEC 值較小,位于中高緯的北京站部分觀測值甚至低于2 TECU,背景觀測值過低很可能是導致北京站在太陽低年預測精度相對不高的原因。
CODE 利用全球范圍的雙頻GNSS 觀測站數據,采用球諧函數展開技術,獲取全球電離層描述GIM,具有較高的精度,廣泛應用于電離層形態以及地震等空間異常前兆分析[18]。但與單站GNSS 觀測數據相比,TEC 變化相對平緩,未來將收集不同區域GNSS實測數據,同時考慮更多影響電離層TEC 變化的因素針對異常空間環境開展更為深入細致研究。
致謝歐洲定軌中心CODE(ftp://ftp.unibe.ch/CODE/)、國家空間科學數據中心(http://www.nssdc.ac.cn)、國家地球物理數據中心(ftp://ftp.ngdc.noaa.gov/)和京都世界地磁數據中心(http://wdc.kugi.kyoto-u.ac.jp/index.html)為本文提供了分析數據。