卜清軍,侯 敏*,王國松,常春輝,王彩霞
(1. 天津市濱海新區氣象局 天津300457;2. 河海大學 江蘇南京210098;3. 國家海洋信息中心 天津300171)
天津港位于天津市濱海新區,地處渤海灣西端,是吞吐量穩居世界前十的綜合性港口。由于近年來極端天氣頻繁發生,造成較大的經濟損失和人員傷亡,圍繞港口的各大產業對氣象的需求日益增長。災害性大風[1-5]是天津地區最常見、也是各行各業尤其是港口用戶非常關注的災害性天氣之一。比如天津港平臺作業,對風速預報精準程度要求極高,一旦風速大于6級就必須停止作業,同時對于突發性大風更是需要及時快速地預報預警以讓作業人員從平臺安全撤離。在海上航線運輸等網絡信號差、計算資源限制的情況下,快速獲取精準預報預警難度較大,這些都給氣象部門提出更高的要求。
數值預報技術是現有最常用的預報手段。但數值模式進行風場預報時需要采用復雜變分方法來同化實時觀測數據,同時耗費大量計算資源和時間,很難得到快速的預報結果。對于目前的數值預報模型,在預報初期(前12h)模式結果無法很好地描述大氣過程,因此模式前12h的結果通常不能使用[6]。在模擬氣象過程中,由于分辨率不足等原因,對小尺度的物理過程不能給予很好的描述[7]。因此,雖然數值模式越來越精細化,但對于實際需求來說,預報網格尺度還是偏大,比如在天津港口區域,作業地點和陸地區域風也是差異比較大。
隨著科技的不斷發展,人工智能尤其在深度神經網絡領域得到了飛速發展[8-15],而大量的氣象歷史監測數據能為預報研究提供良好的數據基礎[16]。將氣象觀測數據與人工智能相結合是現今氣象預報的一個發展方向和研究切入點。Zameer等[17]利用深度神經網絡預報風功率,效果不錯,而目前針對風速短時預報方面的研究很少,且大部分關于氣象要素預報的研究都是基于少量數據的三層神經網絡或者支持向量機模型(SVM)等完成[18-19]。
預測風速最大的挑戰就是其間歇性和不確定性。經驗模態分解(EMD)已廣泛應用于分析非線性隨機信號。與小波變換和傅立葉變換相比,具有分辨率好,適用范圍廣的優點。但是,EMD最明顯的缺點是模態混疊效應。為了克服這個問題,提出了一種新的噪聲輔助分析方法,稱為集合經驗模態分解(EEMD),并在許多領域進行了測試[20-23]。
本文采用天津濱海新區的國家基本氣象監測站——塘沽站代表天津港區域,結合集合經驗模態分解和深度神經網絡(LSTM)方法,開展在有監督學習情況下的風速快速預報應用研究,建立風速快速預報模型,以此作為現有數值預報模式的補充,為沿海及海上風速預報預警提供新思路,為提高天津港區域海洋氣象防災減災和快速預報預警能力提供技術支撐。
本文采用的數據來源有:
①國家基本氣象監測站(塘沽 54623)歷史氣象資料,包括風速(SPD)、風向(dir)、氣溫(Tem)、露點溫度(DPT)、能見度(Vis),并利用對數風廓線公式把數據訂正到海上10m高度。
②基于歐洲中期天氣預報中心(ECMWF)提供的 6h數據,再分析歐洲氣象中心資料(ERA-interim),空間分辨率 0.125°×0.125°,包括 10m 徑向風(10V)、10m 緯向風(10U)、海溫(SST)、2m 氣溫(T2m)。時間范圍2005—2017年,6h間隔。
對數據集進行質量控制,檢查數據一致性,刪除重復信息和缺省值,并統計數據連續性和數據質量。
構造訓練集(2005—2015年)、測試集(2016年)和驗證集(2017年),并對訓練集進行資料預處理操作,將數據均一化。圖 1為預處理歸一化之后各相關要素序列。

圖1 預處理后測試集主要變量序列Fig.1 Main variable sequence of test set after preprocessing
模態混疊效應是EMD最顯著的缺點。這意味著單個基本模式分量(IMF)包含截然不同的信號,或者相同的信號出現在不同的 IMF中。使用 EMD分析信號時,這通常會導致信號中斷。為解決 EMD中的模態混疊問題,提出了一種新的噪聲輔助分析方法EEMD,在EEMD中,IMF的真正組成部分定義為總體軌跡的均值,每條跡線都包含信號的分解結果以及有限幅度的白噪聲[24]。EEMD受益于最近對白噪聲的研究,該研究表明,當將EMD應用于白噪聲時,它是一種有效的自適應二元濾波器組[25-26]。其結果表明,噪聲可以幫助采用EMD方法進行數據分析。
EEMD算法步驟如下:
①在原始風速信號上添加白噪聲系列;
②使用EMD將添加白噪聲的信號分解為IMF;
③用不同的白噪聲重復步驟①和②,并獲得相應的IMF分量,重復過程的數目稱為集成數;
④將所有 IMF成分的平均值和殘基成分的平均值作為最終結果。
時間序列模型最常用的就是遞歸神經網絡(recurrent neural network,RNN),一般用來進行長期記憶計算。而LSTM(長短期記憶網絡long short-term memory)[27]模型是 RNN的變型,LSTM 的特點就是在 RNN結構之外添加了遺忘和強化學習[28-31],可廣泛應用于氣象短時序列預報。本文構建的 LSTM 深度神經網絡預報模型中包含 4個 LSTM 層、4個Dropout層和 3個 Dense層,其中輸入層是 00時(t-3),06時(t-2),12時(t-1)和 18時(t)4個時刻的結果,輸出層是未來6小時(t+1)風速結果,見圖2。

圖2 LSTM預報模型結構圖Fig.2 LSTM prediction model structure diagram
模型建立后,為獲得更好的模型性能,再針對塘沽氣象站的風速預報模型特點,分別進行調參。同時選擇不同的驗證集方案和交叉驗證方法,利用臺站觀測資料對預報結果進行對比檢驗,修正目標函數和外部參數,確定最優的深度神經網絡構建方案。表 1給出了 LSTM 神經網絡訓練的各參數設置。通過引進Dropout正則化技術,遏制過擬合訓練數據,努力提高模型的泛化能力和魯棒性,增強模型的可移植性,方便共享擴展到新的任務和設置上。基于訓練好的預訓練權重,可以用來進行預測、特征提取和finetune,用于快速預報。圖3為訓練損失和驗證損失值隨訓練次數的變化曲線,模型總共訓練了1400次,可以看到模型誤差隨訓練次數逐漸下降,到400次之后誤差值逼近于0線且非常穩定,說明模型有很好的泛化能力和魯棒性。

表1 LSTM神經網絡訓練參數Tab.1 LSTM neural network training parameters

圖3 訓練損失和驗證損失序列圖Fig.3 Sequence diagram of training loss and verification loss
EEMD-LSTM 風速預測模型主要包括以下 3個步驟:
①原始風速數據被 EEMD分解為具有不同頻率的某些更平穩的信號;
②使用LSTM神經網絡預測每個IMF和殘差r;
③將每個 IMF和殘差 r的預測結果合計,以獲得最終的風速預測結果。
模型構建完成后,采用相關系數(correlation coefficients,CC)、絕對誤差(root-mean-square error,MAE)以及均方根誤差(root-mean-square error,RMSE)3種誤差統計因子來評估模型預報性能。驗證數據采用2017年塘沽站點逐6h實測風速。
圖 4對比了歐洲中心數據集(ERA)模式和EEMD-LSTM 模型的風速預測曲線,其中黑色線為實際觀測風速值,綠色線為 ERA模式值,紅色線為LSTM 模型預測結果。從圖中可以看到,基于集合經驗模態分解EEMD的LSTM深度學習模型預測結果與實測風速曲線相近,對于天津港區域風速的波動、低風速、大風等特征都預測較好,顯著優于 ERA模式。

圖4 ERA和EEMD-LSTM模型風速預測曲線Fig.4 Wind speed prediction curve of ERA and EEMDLSTM models
表2給出了ERA和EEMD-LSTM模型各評估因子值,EEMD-LSTM 預測的風速序列與實測值的相關系數(CC)為 0.97,遠高于 ERA 模式相關系數0.15。絕對誤差和均方根誤差也較 ERA模式結果有很大提升,絕對誤差(MAE)減小了 1.13m/s,均方根誤差(RMSE)降低了 1.68m/s。這說明 EEMD-LSTM模型適用于天津港區域的短期風速預測。

表2 ERA和EEMD-LSTM模型評估因子Tab.2 Evaluation factors of ERA and EEMD-LSTM models
本文提出了一種基于混合EEMD和LSTM深度神經網絡的天津港風速預測方法。通過 EEMD,風速數據被分解為不同的IMF和殘差r,LSTM神經網絡用于預測單個 IMF和殘差 r,通過將單個 IMF和 r的預測結果相加可以獲得最終結果。采用 2017年天津港區域風速實測數據對 EEMD-LSTM 模型進行驗證,該方法的MAE和RMSE分別為0.87和1.04,相關系數高達 0.97,均比 ERA模式預報結果好得多。這表明,本文提出的基于混合EEMD和LSTM神經網絡的方法在風速預測中表現良好,適用于天津港區域的短期風速預測。