林小剛,王兆毅,李競時,龐運禧,羅榮真,閆桐
(1.國家海洋局汕尾海洋環境監測中心站,廣東 汕尾 516600;2.國家海洋環境預報中心,北京 100081;3.熱帶海洋環境國家重點實驗室(中國科學院南海海洋研究所),廣東 廣州 510301)
海溫預報是海洋研究應用中的一個重要方面。開闊大洋的海溫變化與全球氣候、海-氣相互作用、海洋環流以及海洋生態等都有著密切的關系,近岸海溫的時空變化對天然漁場分布、人工水產養殖、赤潮爆發和海洋工程建設等影響顯著。另外,三維海溫場變化是海洋水聲工程建設和海洋軍事活動的關鍵要素,直接影響潛艇和其他水下兵器的應用。由此可見,海溫預報對于全球氣候變化、近岸人類活動、海洋開發和國防建設都具有重要意義[1-2]。我國最早開展近岸海溫業務化預報的機構是國家海洋環境預報中心,其在2007年建立了基于普林斯頓海洋模式(Princeton Ocean Model,POM)的中國近海三維溫鹽流數值預報系統[3],2013 年又基于區域海洋模式(Regional Ocean Modeling System,ROMS)對該預報系統進行升級,并與全球數值預報系統整合形成全球-大洋-區域全覆蓋的全球業務化海洋學數值預報系統。另外,海軍海洋水文氣象中心、國家海洋局北海預報中心和南海預報中心等機構也分別建立了中國近海的三維溫鹽流預報系統[4-6]。但是在近岸和淺水海域,受海岸線、水深和人類活動的影響,海水物理過程時空尺度小,數值模式的海溫預報精度往往達不到實際應用的需求,因此,研究人員也采用經驗預報、動力釋用和動力統計等方法對近岸海溫預報及訂正進行了研究[6-11]。
人工神經網絡是一種統計方法,它通過模擬人腦神經元網絡,計算各個信息節點間的權重值,從而達到逼近真實系統的效果。近年來,該方法在潮汐、海浪、海溫以及海洋動力過程等海洋研究中得到了廣泛應用[10,12-18]。與數值模擬相比,人工神經網絡的優勢在于不依賴明確的物理過程,不必考慮時空分辨率,因此對近岸海洋要素預報具有很好的適用性。長短期記憶網絡(Long Short-Term Memory,LSTM)是一種時間循環神經網絡,能夠考慮未來數據和歷史數據的相關性,可以很好地解決普通遞歸神經網絡(Recurrent Neural Networks,RNNs)的長時間依賴問題,在連續性較好的長時間序列訓練中的效果優于傳統的逆向神經算法(Back Propagation,BP)網絡[19]。本文采用LSTM 神經網絡方法,利用粵東沿岸各海洋站點的海溫觀測數據和區域大氣模式(Weather Research and Forecasting,WRF)的24 h氣象預報數據,通過分析數據的相關性,優化訓練數據集,建立了一套高效預報粵東近岸24 h 海溫的方法。
本文采用2017—2018 年粵東6 個海洋站點的表層(海面下0.5 m)海溫觀測數據作為研究對象。為了驗證預報方法的適用性,我們增加了深圳站(赤灣站)作為對比站點。各站點的位置如圖1 所示。為便于區分,粵東海洋站點從西至東的編號分別為YD01—YD06,深圳站編號為SZ。從圖1 可以看出,粵東近岸海域位于南海北部,受臺灣海峽和巴士海峽水交換影響顯著。該海域近岸各站點均勻分布在廣東省汕尾市、揭陽市、汕頭市和潮州市沿海,可以很好地捕捉粵東沿岸的海溫變化情況。深圳站位于珠江口內,其海溫變化規律與粵東海域差異較大,可以用來檢驗LSTM 神經網絡方法的適用性。海洋站點海溫觀測采樣時間間隔為3 s,取整點前1 min 的平均值作為該整點的觀測值。剔除異常數據后,本文取每日0—23 時的整點海溫進行平均并作為當日平均海溫,共得到730個樣本。
氣象預報數據來自業務化運行的區域WRF 模式結果。模式網格水平分辨率為10 km,垂向分為34層,時間步長為90 s,開邊界采用美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA)全 球 預 報 系 統(Global Forecast System,GFS)的預報結果。模式每日預報時效為120 h,逐3 h 一次。通過與YD01 海洋站點的觀測數據進行對比,WRF模式結果中氣壓、氣溫、降雨量和風速的日平均誤差分別為0.016 hPa、0.8 ℃、3.5 mm 和0.3 m/s,相關系數(其中降雨為預報成功率)分別為0.997、0.968、41.1%和0.749。本文選取2017—2018 年每日24 h 預報的比濕(Q2)、氣壓(PSFC)、凈熱通量(SWDOWN)、海面2 m 氣溫(T2)、降雨量(RAINNC)、緯向10 m 風速(U10)、經向10 m 風速(V10)7 個要素進行研究,計算各要素的日平均值,每個要素包括730個樣本。
2.3.1 神經網絡配置
LSTM 最早是由 HOCHREITER 等[19]提出的一種時間遞歸神經網絡,其記憶單元中包含3 類門(gate)用以控制信息的收集和傳遞,分別是輸入門(input gate)、輸出門(output gate)和遺忘門(forget gate)。3 類門中最重要的是遺忘門,當網絡在這里產生的值近似于零時,它將把區塊里記憶的值拋棄掉。LSTM的標準公式如下:

式中:σin和σ為激活函數,本文分別采用 tan h 和sigmoid;W為權重矩陣;x為輸入函數;U為隱藏狀態矩陣;h為目標函數;b為偏置量;c為記憶單元;⊙代表點乘[20]。
本文構建的深度學習網絡包含一個擁有100個隱含層單元的LSTM 層,一個大小為50 的全連接層,以及一個丟棄概率為0.5 的丟棄層,其中,全連接層大小和丟棄概率對網絡性能影響不大,隱含層單元越多則網絡效果越好,但是耗時顯著增加。本文分別選取 10 個、20 個、50 個、100 個和 200 個隱含層單元對學習網絡模型進行測試,結果顯示隱含層單元為100 個與200 個時模型效果相近,皆顯著優于隱含層單元較少的網絡,但單元為200 個時網絡訓練用時是100 個的3 倍多,因此,本文將隱含層單元設定為100 個。另外,網絡的初始學習率取0.01,每訓練100 次降為原來的0.8 倍。設定梯度閾值為1,以防止梯度爆炸。較大的學習率可以加快網絡的學習速度,但是容易導致震蕩,而較小的學習率可以穩定學習曲線,但是學習速度較慢。本文采用較大的初始學習率,而后逐步減小,既減少了學習曲線的震蕩又保證了學習效率。兩組神經網絡針對每個海洋站點分別訓練500 次,訓練和測試的樣本數據都分別經過歸一化處理后再輸入模型。采用主頻3.0 GHz的四核處理器和8 G內存的通用辦公計算機進行訓練,每個站點的訓練時間約為3 min。
2.3.2 訓練要素篩選
相較于大氣,海洋的比熱容大,且物理過程較緩慢,因此海溫的變化較氣溫小得多,且連續性更好。粵東沿岸各海洋站測得的海溫年變化在16~30 ℃之間,日變化值基本小于1℃。在早期海洋數值預報技術尚未成熟時,粵東區域的海洋預報員常依據這一性質將慣性預報(即初始狀態在預報時效內保持不變的預報)作為海溫預報的重要參考。本文計算了粵東沿岸各海洋站和深圳站日均海溫的標準差(STandard Deviation, STD)以及24 h 和48 h慣性預報的均方根誤差(Root Mean Square Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE),結果見表1。從表中可以看出,各站日均海溫STD 與RMSE 和MAE 的變化基本一致,說明海溫變化越小的站點慣性預報的準確度越高。除了YD03 站外,各海洋站24 h 日均海溫慣性預報的RMSE 均小于 0.7 ℃,MAE 均小于 0.5 ℃,SZ 站日均海溫STD 和慣性預報的誤差明顯小于粵東各站,其MAE 僅為0.21 ℃。目前,國內業務化海洋模式預報水溫的24 h誤差為0.7~1.0 ℃[2,5-6,10],粵東近岸海域數值預報效果比慣性預報略差。因此,本文選擇24 h 慣性預報的結果,即前1 d 的日均海溫,作為神經網絡的訓練要素之一。

表1 各海洋站日均海溫標準差及24 h和48 h慣性預報的均方根誤差和平均絕對誤差(單位:℃)Tab.1 STD of daily mean sea surface temperature and the RMSE and MAE of 24 h and 48 h persistence forecasts at each marine station(unit:℃)
另外,我們計算了各氣象預報要素與日均海溫的相關系數,結果如表2所示。從表中可以看出,日均海溫與比濕、氣溫和氣壓的相關性較高,而與降雨量不存在相關,這似乎有悖于我們通常認為的降雨會對海溫產生直接影響這一認識。我們從各氣象預報要素與日均海溫的點聚圖可以看出(見圖2),比濕、氣溫和氣壓與日均海溫的高相關性主要體現在年變化上(見圖2a—c),而風速、凈熱通量和降雨量與日均海溫的點聚圖離散程度太高,不能直觀反映兩者間的相關性(見圖2d—g)。由于本文研究的是短期預報,為了剔除年變化的影響,我們進一步計算了各氣象預報要素與經過7 d 高通濾波后的日均海溫,以及與24 h 日均海溫變化值的相關系數,結果見表2。從表中可以看到,除了降雨量外,各氣象要素與經過高通濾波后的日均海溫的相關性大大減小,而與24 h 日均海溫變化值的相關性相對較高,特別是同降雨量的相關系數變為-0.14,說明降雨確實在一定程度上降低了海溫。另外,24 h日均海溫變化值與各氣象預報要素點聚圖的離散程度較小(見圖3),這對神經網絡的訓練更加有利。

圖2 2017年海洋站點的氣象預報要素與日均海溫的點聚圖Fig.2 Plots of meteorological factors correlated with daily mean sea surface temperature of marine stations in 2017

圖3 2017年海洋站點的氣象預報要素與24 h日均海溫變化的點聚圖Fig.3 Plots of meteorological factors correlated with 24 h variation of sea surface temperature of marine stations in 2017

表2 各氣象預報要素與日均海溫的原始值、7 d高通濾波值和24 h變化值的相關系數Tab.2 Correlation coefficients of each meteorological factor with daily mean sea surface temperature and its 7-day high pass filtered value and 24 h variation
根據訓練要素的篩選分析,我們針對日均海溫及其24 h 變化分別設置兩組神經網絡訓練,分別記為SST 組和deltSST 組。為了保證輸入的時間序列足夠長,本文采用前100 d 的數據去預測第101 d 的海溫,即SST 組的訓練輸入為(T-98:T+1)d 的氣象預報要素以及(T-99:T)d 的實測日均海溫,訓練輸出為T+1 d 的日均海溫;deltSST 組的訓練輸入為(T-98:T+1)d 的氣象預報要素,訓練輸出為T+1 d的日均海溫24 h 變化,而后將輸出結果與T d 的實測日均海溫相加得到T+1 d的日均海溫。兩組神經網絡的訓練數據集為2017 年的265 個樣本,預報數據集為2018 年的265 個樣本。最后,將兩組預報結果與實測進行對比檢驗。
本文利用深圳站和粵東各海洋站點2018 年1月1 日—12 月31 日的實測日均海溫對兩組神經網絡的預報結果進行檢驗,結果如圖4 所示。從圖中可以看出,SST組和deltSST組的訓練結果都十分理想,預測結果較為穩定,10 次模型訓練所得到的預測結果的MAE 變化不超過0.05 ℃。為了更好地分析兩組神經網絡的效果,我們分別計算了各站點日均海溫預報結果的RMSE和MAE(見表3)。結果顯示,兩組神經網絡的預報效果均優于慣性預報,其中,粵東各站點日均海溫預報的RMSE 平均值分別為 0.50 ℃和 0.45 ℃,MAE 平均值分別為 0.36 ℃和0.32 ℃,deltSST 組的結果整體上略優于SST組。另外,我們計算了各站點日均海溫預報結果與實測值的相關系數,均大于0.98,進一步驗證了預報結果的可靠性。從表3 還可以看到,SZ 站兩組神經網絡預報的日均海溫誤差非常小,deltSST 組結果的MAE只有0.15 ℃,這說明兩組神經網絡預報方法在粵東以外海域同樣具有很強的適用性。

圖4 兩組神經網絡預報結果與各站點實測日均海溫的對比Fig.4 Comparison of forecast results from two sets of neural networks and daily mean sea surface temperature of marine stations

表3 兩組神經網絡預報結果的RMSE和MAE(單位:℃)Tab.3 RMSE and MAE of forecast results from two sets of neural networks(unit:℃)
為了更細致地檢驗預報的效果,本文對各站點7 d 內日均海溫變化均較為顯著的樣本進行了深入分析,發現SST 組的預報結果在這部分樣本中經常出現滯后現象,滯后的時間約為1 d,而這在deltSST組的預報結果中較少出現(見圖5),原因很可能是SST 組神經網絡輸入的數據中包含了慣性預報數據。遺憾的是,經過試驗,如果將慣性預報數據從SST 組中剔除,預報結果的 RMSE 和 MAE 都超過1℃,相較兩組神經網絡的誤差顯著增大。于是,我們繪制了粵東各站點SST組、deltSST組和慣性預報3 組結果的MAE 與日均海溫變化的關系曲線(見圖6)。從圖中可以發現,SST 組與deltSST 組的MAE在日均海溫變化值小于2.5 ℃時十分接近,兩者的差距小于0.05 ℃;當日均海溫變化達到2.5 ℃以上時,兩組的MAE 均顯著增大,SST 組的MAE 比deltSST組高出0.3 ℃,幾乎接近慣性預報的誤差水平。

圖5 海洋站部分樣本的預報與實測(7 d)對比Fig.5 Comparison between prediction and measurement of some samples of marine stations

圖6 3組預報結果平均絕對誤差與日均海溫變化的關系曲線Fig.6 The relationship between MAE of the three sets of forecast results and daily mean sea surface temperature variation
基于以上分析,我們推斷當日均海溫變化顯著時,SST組預報結果受到模型輸入數據中前1 d日均海溫值的影響比重增大,預報結果可能更傾向于在慣性預報結果的基礎上進行訂正,輸入數據中的氣象要素主要起到修正作用。氣象要素在日周期上與海溫本身的對應關系有限,這一點可以從物理機制方面來理解。例如,在其他變量不變的情況下,絕對高的凈熱通量并不一定代表絕對高的海溫,它還取決于海溫本身的初始值,凈熱通量僅對應了一段時間內海溫的變化值。deltSST 組神經網絡則避開了慣性預報的影響,單純利用氣象要素與海溫變化值的關系,通過準確預報海溫增量后再疊加海溫初始值,從而達到更好的預報效果。
本文基于粵東沿岸各海洋站點的海溫觀測數據以及WRF 模式的24 h 氣象預報數據,利用LSTM神經網絡構建了兩組深度學習方法,對粵東近岸的海溫進行24 h 預報并與實測數據進行對比分析。結論如下:
(1)本文構建的深度學習方法在粵東近岸海溫預報中的效果較好,24 h預報的RMSE和MAE分別為0.45 ℃和0.32 ℃,且該方法在粵東以外海域也具有較強的適用性。
(2)在本文構建的神經網絡中,當日均海溫變化較小時,直接對日均海溫進行預報和對其變化值進行預報的效果相近;當日均海溫變化較大時,對其變化值進行預報后疊加海溫初始值,可得到更準確的結果。這主要是因為該方法不會受到慣性預報結果的影響,而且在日周期上,神經網絡輸入的氣象要素與日均海溫變化值的相關性要好于日均海溫本身。
從兩組神經網絡方法的對比可以看出,將深度學習應用于海洋預報不能僅依靠傳統的參數調試,結合關鍵物理過程的機制對輸入和輸出要素進行處理有可能事半功倍。雖然深度學習方法可以挖掘多維數據中的復雜關系并加以表達,但這往往需要利用較為理想的數據集合才能實現。實際工作中我們能搜集到的訓練數據千差萬別,不加區別全部交由深度學習去處理的方式更適合作為某個預報產品的訂正手段。深度學習的訓練結果會在一定程度上依賴于輸入的預報產品的準確度,其會影響結果的穩定性。
在本文的研究中,由于SST 組的訓練數據中加入了前1 d 的海溫數據,因此模型預報結果的誤差便是以慣性預報作為底線。這在一定程度上確保了預報結果的可靠性,但是卻掩蓋了模型中輸入與輸出要素相關性有限的問題,這可能會阻礙模型在業務化工作中發現問題以及不斷優化。實際上,為了保證模型輸入的時間序列足夠長,本文在研究中采用前100 d 的數據去做24 h 的海溫預報,這在日常業務工作中較為不便。若只采用前5 d 的數據去做粵東各站點的海溫預報,那么SST組結果的MAE將增大到1.02 ℃,而deltSST 組結果的MAE 僅增大到0.35 ℃,這說明deltSST 組神經網絡模型具有較強的適用性。
受限于技術水平以及可用資料,我們沒有構建更復雜的深度學習網絡對更長時間序列以及更廣區域的海溫進行預報。但是,通過SZ站與粵東各站的海溫預報效果對比,我們能夠看出同一預報方法的海溫預報誤差量值與預報區域海溫變化的幅度直接相關,即海溫變化越小的站點或區域,其預報誤差也相對較小。這就使得不同區域海溫預報的準確度差異較大[2,10,17],也導致不同預報方法的對比參考較困難。針對這一問題,我們認為將相同時效內海溫慣性預報的誤差或者較長時間海溫數據的標準差作為對比,可以讓相關研究成果更加直觀,并有益于海溫預報技術和水平的提升。