姚志偉 陳 雨
1 四川大學電子信息學院,成都市一環路南一段24號,610065
地球重力場信息可反映地球表面載荷以及內部物體質量的分布變化,是大地測量學、地球物理學等學科研究的重要組成部分[1]。2002-03美國宇航局NASA以及德國航空航天中心DLR聯合研制發射GRACE地球重力場觀測衛星,以前所未有的精度繪制全球靜態重力場[2]。由全球時變重力場模型反演得到的等效水高等數據,已在區域地下水存量、冰川融化、地表載荷變化趨勢等領域取得廣泛應用[3-5]。因此對等效水高以及地表形變量進行精準預測,能夠極大推進地表水存儲量、地表質量變化等各方面預測研究。
由于時間序列特征復雜,基于統計學的傳統方法難以具備較好的預測效果。循環神經網絡(recurrent neural network, RNN)可提供一種全新的預測方法,但RNN網絡在訓練過程中容易出現梯度消失或梯度爆炸的現象,并且無法學習到時間序列之間長時期的依賴特征[6]。Hochreiter等[7]對RNN網絡進行改進,推出LSTM長短時記憶網絡,可克服相關問題,預測效果顯著提升。基于LSTM的時間序列預測在各個領域蓬勃發展,改進的LSTM網絡在地震橫波速度預測方面具有較高的精度和較強的泛化能力[8],在海洋畸形波預測方面比傳統支持向量機算法更加精準[9];在自然災害領域,LSTM可用于預測降水、干旱等氣象災害[10-13]。目前關于GRACE反演產品的研究主要集中在應用方面,在預測方面的研究較少,此外LSTM在地球科學方面的應用大部分采用單層LSTM結合傳統方法或改進網絡內部結構的方法,從而忽視了LSTM能夠拓展成深層網絡的特點。基于以上情況,本文利用GRACE月時變重力場信息,反演等效水高及地表位移量的月序列值;通過拼接多個LSTM網絡構成深度LSTM網絡,使用遺傳算法預訓練優化網絡結構,再對等效水高等數據進行預測;并以長江、三峽和亞馬遜流域作為實驗區域開展實驗,驗證深度網絡的泛化能力。
本文采用德克薩斯大學空間研究中心CSR推出的Level-2-Rlease-06數據集,包含2002-04~2017-06共163個月(部分月份數據缺失)最高階為60的月球諧系數集。GRACE衛星無法確定球諧系數C20項的精確值,需用衛星激光測距SLR(satellite laser ranging)得到的解來代替[14],球諧系數一階項需要替換為由Swenson等[15]的方法得到的計算值,采用半徑300 km的高斯濾波對高階噪聲進行去噪處理[16],同時采用P4M6去條帶方法去除球諧系數的相關性[17],地表等效水高的具體計算公式可參考文獻[18]。
此外,球諧系數的頻譜域截斷相當于空間域的低通濾波,并且去條帶和高斯濾波都可能會使目標區域的信號向外泄露或周圍區域的信號泄露至目標區域,使給定區域的平均估計值出現偏差,因此需要進行校正。本文研究的主要目標是針對給定的等效水高序列,如何更為精準地由該序列的本身規律去推知其未來趨勢,因此對于獲得給定序列的處理方式較為粗糙,并且未考慮氣候變化、地震等因素對地表位移量的影響,而在實際應用中需要更為精準地處理并考慮具體因素的影響。地表垂直、水平方向位移量的計算公式可參考文獻[19]。
簡單RNN結構只能記錄相鄰間隔的時間信息,LSTM在RNN基礎結構上具有較大革新,可克服長期依賴問題,具有長期記憶力。LSTM的核心是記憶細胞狀態以及決定記憶細胞記住或忘記哪些信息的門結構,決定記憶的信息會沿著時間線向后傳播,網絡的內部結構如圖1所示。

圖1 LSTM 結構Fig.1 LSTM structure

ft=σ(Wf·[ht-1,Xt]+bf)
(1)
it=σ(Wi·[ht-1,Xt]+bi)
(2)
(3)
(4)
ot=σ(Wo·[ht-1,Xt]+bo)
(5)
ht=ot?tanh(Ct)
(6)
式中,ht-1為t-1時刻的隱藏層權重,Ct-1為t-1時刻的細胞狀態值,σ為Sigmoid激活函數,W、b分別為不同層的權重、偏置值。
淺度LSTM網絡相比于RNN可克服長期依賴的問題,但由于層數較少,難以直觀地表示時間序列的復雜特征,特別是處理高度非線性和長時間間隔的數據。從理論上來說,深度和分層的神經網絡相比于淺層網絡可學習到更高維度、更復雜的特征。從時間軸上來看,RNN是隨著時間增加而增加的深度網絡,但RNN結構網絡仍然可以從輸入層-隱藏層、隱藏層-隱藏層、隱藏層-輸出層3個方面增加網絡層數[20]。本文提出的深度網絡結構堆疊多個LSTM以增加隱藏層到隱藏層之間的層數,其目的是使模型在每個循環結構中能夠在不同時間尺度上運行并學習不同的特征(圖2)。此外,隱藏層到輸出層之間具有深層結構,有助于確定隱藏狀態中的變化因素,能夠更有效地總結輸入歷史,從而更容易預測輸出。因此,在最后一個LSTM輸出層中添加全連接線性層以加深隱藏層到輸出層的深度。與BP前饋神經網絡類似,RNN結構網絡也得益于非飽和激活和Dropout層的使用[21],本文在每層LSTM結構后均添加Dropout層,并在輸出層中使用更為先進的PReLU非飽和激活函數[22],以減小過擬合概率。此外,還特別添加注意力(attention)機制[23],以幫助深度網絡注意某些重要的長期特征。

圖2 深度LSTM網絡結構Fig.2 Deep LSTM network structure

深度LSTM網絡訓練中的超參數主要為時間間隔步長(預測下一值所用的序列長度)、各LSTM隱藏層神經元數量以及全連接輸出層神經元數量。時間序列的統計特性隨時間推移會以不可預見的方式變化,若每次輸入所有時間序列進行訓練相當于增加各種噪聲,預測精度會下降,可嘗試使用不同的時間步長進行較為準確的預測,因此時間步長也需要作為超參數進行優化。本文采用遺傳算法(genetic algorithm,GA)優化網絡結構與部分超參數,該算法是借鑒自然進化規律而設計的一種尋找全局最優解的模型,通過群體N代間的不斷遺傳、交叉、變異來確定問題的最優解。本文實驗將LSTM層數分為1、2、3層共3種結構,時間步長為1~12,每層神經元為1~30,每種結構混合不同時間步長和神經元,隨機產生40個群體,通過25代遺傳進化尋找最優解,最后綜合每種結構最優解的評價指標(見§4.1)選取最優模型(表1)。

表1 深度LSTM結構及超參數
GRACE觀測數據中部分月份數據缺失,本文采用三次樣條插值法補全缺失的數據。對于明顯呈周期特點的時間序列數據,如果采用原始數據進行訓練并輸出,可能會產生時間平移的現象,這是因為序列存在自相關性,如一階自相關為當前時刻數值與其自身前一時刻數值之間的相關性。一般可使用差分預測的方式消除自相關性,即通過預測差分值間接預測原始數據值。此外,本文通過插值增大訓練數據以減小網絡模型的訓練難度,在預測后進行降采樣得到預測數據。由于LSTM內部采用tanh激活函數,輸入數據需歸一化到[-1,1],以避免輸入值較大時出現梯度更新較慢的問題。在得到總數據集后,將前157個月作為訓練數據,占比85%,其余月份作為測試數據來檢驗模型的精確性。多次預訓練結果表明,當模型初始學習率為10-4、權重優化方法為 Adam 時,訓練效果較好。
4.1.1 均方根誤差RMSE
均方根誤差是一種常用的估計測量方法,可用來表示預測值與實際值之間的差異。當預測值與實際值相同時,該值為0,誤差值越大,該值越大。均方根誤差值的尺度范圍與預測數據一致,因此直接基于該誤差的精度測量無法用于不同尺度數據之間的比較。均方根誤差表達式為:
(7)
式中,xi為預測值,yi為實際值。
標準化的均方根誤差R*,其定義為RMSE與實際值標準差的比值:
(8)
4.1.2 納什系數NSE
NSE系數可以表示模型相對于實際數據平均值的預測能力,可表明實際值與模型預測數據曲線是否符合1∶1的線性關系。NSE被認為是評價預測值與觀測值整體擬合情況的最佳目標函數[24],可用于對比不同模型對同一數據的擬合優度。NSE系數最佳值為1.0,計算公式為:
(9)

本文使用Ahmed等[25]的預測模型的評價標準,將模型性能分為3個主要類別:1)若NSE大于0.75且R*小于0.50,則性能非常好;2)若NSE大于0.65且R*小于0.60,則性能良好;3)若NSE大于0.65且R*小于0.75,則性能較好。
本節將分析深度LSTM網絡模型的定量和可視化結果,所有表格中結果為測試數據所對應模型的性能。模型預測方式有兩種:靜態更新模式與動態更新模式。在靜態模式中,測試數據根據時間步長預測下一數值;在動態模式中,使用預測得到的新值代替測試數據中的實際值來預測下一數值。即得到當前預測值之后,動態模式使用該預測值進行下一序列值預測,而靜態模式使用該值對應的實際值進行預測。表2和表3分別為深度LSTM模型在動態更新模式下和靜態更新模式下各模型評價指標的計算結果,從表中可以看出,靜態更新模式的各項指標均優于動態更新模式。動態模式采用預測值進行更新,當前預測值的極小誤差會在預測下一序列值時被放大,因此會造成誤差積累的現象。

表2 動態模式

表3 靜態模式
在兩種模式中,亞馬遜流域各項序列的評價指標R*、NSE均優于長江流域,三峽地區模型表現最差,這是因為三峽地區各項序列本身的復雜程度較高、模型學習難度更大,但仍優于最佳評價指標。圖3為三峽水庫區域等效水高和地表形變量實際值以及在兩種不同預測模式下的結果對比,從圖中可以看出,靜態模式優于動態模式,即使是在動態預測模式下,深度LSTM模型仍具有良好的預測效果。從表1可以看出,多層LSTM結構為8個,單層LSTM結構為4個,表明深層次的網絡結構相對于淺層次更易從復雜序列中分離出時間特征,即深層LSTM網絡在時間序列預測方面具有良好效果。
本文使用深度LSTM神經網絡預測方法預測GRACE等效水高以及地表垂直方向、水平南北和東西方向位移量。以亞馬遜流域、長江流域以及三峽水庫作為實驗區域,反演2002-04~2017-06 GRACE月時變重力場信息,得到等效水高以及地表位移量月序列值。深度網絡模型通過疊加LSTM以及在輸出層中添加線性層來增加網絡層數,并且在網絡中添加注意力機制增加對某些特征的提取能力,同時還利用遺傳算法對網絡層數、部分超參數進行優化。實驗發現,優化后的網絡結構對不同地區不同月序列值均具有良好的預測效果。此外,多層LSTM結構的數量遠多于單層,表明深層LSTM網絡結構提取復雜特征的能力更強,在時間序列預測上表現優異。
本文對實驗序列的處理較為粗糙,且未考慮氣候、地震等因素的影響,因此在具體區域實際應用時需考慮各項因素的影響,得到精準的時間序列值之后再進行預測。由于GRACE數據中部分月份數據缺失,本文利用三次樣條插值法補全缺失值,插值結果并不能完全替代真實值,這可能會模糊部分時間特征。GRACE衛星的繼任衛星GRACE-FO(gravity recovery and climate experiment follow-on)已于2018-05升空,將繼續執行重力場探測任務,可提供更為豐富的訓練數據,深度LSTM網絡在這方面的預測結果將會更加精準。