高 涵,白照廣,范東棟
(航天東方紅衛星有限公司,北京 100094)
海面風場是海洋上層運動的主要動力來源,也是研究大氣和海洋之間熱量交換和物質交換的重要因素,是研究海洋動力過程的重要要素[1],全球導航衛星反射信號技術(Global navigation satellite system reflections,GNSS-R)是近年來興起的新型遙感手段,該技術利用導航衛星L波段信號的反射信號作為遙感源,信號來源豐富[2],具有全天時、全天候遙感的能力,尤其是星載GNSS-R系統,在海面風場探測、海冰探測、海洋溢油探測等方面有著突出的應用效果[3-5]。
海面風場反演主要分為海面風向反演和海面風速反演,其中海面風向反演是風場反演中的難點。文獻[6]中提出利用海面坡度進行風向反演,利用特征向量法,在接收機高度為3~5 km情況下,篩選數據后進行反演,獲取風向反演精度最高為5°,未經篩選的數據風向反演精度降低為40°。文獻[7]中提出時延曲線后沿斜率與風向存在一定相關關系,通過延長積分時的方式擴大這種相關關系,反演結果存在180°模糊。文獻[8-10]默認海面均方坡度概率密度函數(Probability density function of the surface slopes, PDF)為各項同性,用兩顆不同方位角的衛星進行風向反演。文獻[11]建立了基于NOAA G-IV jet aircraft機載風向反演模型,利用時延多普勒相關功率圖(Delay doppler map, DDM)上多普勒維的偏移角作為反演觀測量,在固定模型下獲取風向反演平均精度為20°,但其基于機載數據數據量較小且模型為特定模型非通用模型,存在180°模糊。通過以上可以看出傳統的GNSS-R海面風場反演中,風向反演方法較為匱乏,缺乏大面積海面風場反演方法?;谏窠浘W絡的反演技術近年在海面風場反演中得到應用,馮倩等[12]提出基于混合密度網絡的海面風場反演方法,利用神經網絡的自適應和自學習能力,從散射計數據中提取反演風場所需信息,以NSCAT散射計數據為例證明了該方法的有效性。陳坤堂等[13]提出基于BP網絡的HY-2微波散射計數據反演方法,獲取的反演數據可以滿足風向反演一般精度要求。文獻[14]利用神經網絡反演了海面風速,但采用單層神經網絡,未能提取更深層的風向關系,無法反演海面風向信息。
本文提出了一種基于GNSS-R數據的海面風向反演方法。首先根據反演目標特征確定了反演觀測量,然后建立了神經網絡模型并優化網絡結構。模型的訓練學習采用CYGNSS衛星數據和ECMWF融合風場數據。最后通過試驗校驗了反演方法的有效性和魯棒性。
利用神經網絡反演海面風向,需要提供輸入數據和與之對應的輸出風向,通過神經網絡自學習過程建立反演模型,首先選擇星載GNSS-R風向相關觀測要素作為反演觀測量輸入,本文選擇的4個觀測量分別為海面均方坡度概率密度函數(Probability density function,PDF),海面風速,時延相關曲線后沿斜率(Trailing edge slope,TES)和衛星高度角。
海面風場引起海表面高低起伏變化,在風場作用下,海洋表面各點的均方斜率呈現不同的分布狀態,該狀態可以由海面均方坡度的概率密度函數描述[15]。其表達形式為
(1)


(2)
式中:k為波數,由海面風速決定,θ為海面風向,ψ(k,θ)為二維海浪譜函數[16]。由式(1~2)可以得知,FPDF是海面風速與主風向的調和函數,在確定風速的情況下,風向可以由FPDF反演得到。
根據衛星獲取的GNSS-R觀測量,可以由KA-GO方法[17]計算海面均方坡度概率密度函數
(3)
式中:σ0(τ,f)為歸一化散射截面系數[17],是GNSS-R直接觀測量,R為菲涅爾反射系數,用于校正海面均方坡度。
R(θ)=
(4)
式中:ε為海水介電常數,θ為衛星高度角。
(5)
式中:φ為散射區域內任意點P相對鏡面點的方位角,θ1和θ2為P點處的入射角和散射角。如圖1所示。

圖1 準鏡面散射幾何關系圖
時延相關曲線后沿斜率描述了散射信號在時延維上的強度分布情況,其分布值受風向和衛星高度角影響,在順風向時比側風向時相關功率拖尾更長,斜率更大。在衛星高度角60°,風速8 m/s時不同風向下散射信號功率波形如圖2所示,k1,k2,k3分別表示分別表示順風向夾角30°、60°和90°時,時延相關曲線后沿斜率的變化情況,風向偏離順風向越多,斜率越小,即k1>k2>k3。根據這一特征,可以由時延相關曲線后沿斜率反演海面風向。

圖2 不同風向下時延相關曲線TES
衛星高度角影響GNSS-R散射區域分布情況,高度角變化,影響時延相關曲線后沿斜率[18],影響風向反演結果。如圖3所示,衛星高度角增加,時延功率曲線拖尾變長,后沿斜率變小,這種現象在高度角越低時越為明顯。如圖3是在風速10 m/s,風向為0°時衛星時延相關曲線。

圖3 不同衛星高度角下一維時延功率曲線
深度神經網絡是多隱藏層的神經網絡,由于隱藏層數較深,后面層網絡可以在前面層網絡學習到的初步特征基礎上形成更高級別的特征[19],由于風向反演中觀測量與風向之間的特征關系復雜,采用深度網絡可以更好的建立對應關系,反演風向信息。建立如圖4的深度網絡模型,圖4中X1,X2,X3,X4為網絡的輸入觀測量,f1,f2,…,fn+t+1均為激活函數,輸出量為風向。

圖4 深度神經網絡拓撲
激活函數是在神經元中,輸入量經過加權,求和后進入下級前輸入的函數,在深度神經網絡模型,如卷積神經網絡(Convolutional neural network,CNN)中,與反演量相關的數據特征有限,但深度模型中網絡連接數量巨大,造成反演參數特征挖掘的效率和精度下降,因此需要選擇合適的激活函數,增強模型稀疏性。
修正線性單元(Rectified linear unit,ReLU)函數形式為

(6)
ReLU函數具有單側抑制特性,把所有的負值都變為0,而正值不變,當模型增加N層之后,理論上ReLU函數神經元的激活率將降低2的N次方倍[20]本文采用深度網絡反演風向信息,采用ReLU函數實現稀疏后的深度網絡模型能夠更好地挖掘風向相關特征,擬合訓練數據。

采用深度網絡建立反演模型時,網絡初始權值會影響反演結果,傳統BP網絡學習過程中隱含層節點數與權值難以選取,引起網絡收斂緩慢,易陷入局部最優。遺傳算法(Genetic algorithm, GA)是一種通過模擬自然進化過程搜索最優解的方法,具有很強的宏觀搜索能力和良好的全局優化性能。利用遺傳算法的全局搜索能力優化神經網絡的權值和閾值,可以獲取最優的網絡結構,提高反演精度[21-22]。
2.2.1確定網絡隱含層節點數
神經網絡隱含層節點數的選擇目前沒有確定的理論和方法,本文采用了4層深度網絡,隱層節點數采用三分法確定[23],首先確定隱層節點數范圍
(7)

本刊已加入《國家哲學社會科學學術期刊數據庫》《中國學術期刊(光盤版)》《中國期刊網》《萬方數據——數字化期刊群》《中文科技期刊》全文數據庫,以及超星數字期刊。若作者不同意將文章入編上述數據庫,請在投稿時加以說明,本刊將作適當處理。本刊作者文章著作權使用費、稿酬與版面費相抵,編輯部不額外收費,不另付酬。
(8)
式中:n為輸入層節點數;m為輸出層節點數;a為整數,且1≤a≤10。


圖5 隱含層節點數計算流程圖
2.2.2優化網絡權值與閾值
采用遺傳算法優化網絡權值和閾值主要分為神經網絡訓練擬合與遺傳算法極值尋優兩部分。算法流程如圖6所示。

圖6 GA優化深度網絡流程圖
將訓練后的神經網絡預測結果作為個體適應度值,并通過選擇、交叉和變異操作尋取函數全局最優值作為神經網絡的初始權值和閾值。
利用深度網絡反演需要從大量不同的待訓練數據中提取特征數據。為避免由于輸入數據質量特性影響網絡泛化能力或引起反演誤差。需要對反演輸入數據進行預處理。數據的預處理主要分為數據的時空匹配、數據預選及數據歸一化三部分。
本文使用的訓練數據源是CYGNSS衛星L1級數據。真值數據是歐洲中尺度天氣中心(ECMWF)的海面風場融合數據。
ECMWF提供空間分辨率0.25°×0.25°[24]風場數據,CYGNSS單星每秒生成4組反演特征數據,單星平均空間分辨率0.082°×0.082°,CYGNSS數據中存在大量共反演點的數據,會形成數據冗余,為保證數據單一性同時又可以滿足星下點盡可能多的覆蓋率,需要對CYGNSS數據和ECMWF數據篩選和時空匹配,選擇反演區域中信噪比最強的反演點觀測量P作為輸入數據。
P=max{10lg(Smax/Navg)}SSP
(9)
為保證在各個風速段下風向反演的泛化能力,需要對匹配后的數據進行預選,對輸入數據集共864 000組觀測量及與之對應的風速數據按風速段分類,如表1所示。

表1 數據預選列表
以數據比例最低的風速高于20 m/s的數據作為采樣標準,對該段風速進行全采樣,對其余2個區間風速隨機采樣,使3個風速段的數據量相同。預選后風向數據分布如圖7所示。

圖7 風向數據分布
數據歸一化能提高神經網絡梯度下降的求解速度,并消除量綱影響。本文采用離差標準化方法對海面均方坡度概率密度函數、海面風速、DDM后沿斜率、GNSS-R衛星高度角等4個輸入變量進行歸一化處理,設第i個輸入變量Pi=[pi1,pi2,pi3,pi4](i=1,2,3,4),對第j個變量的離差標準化公式為
(10)
式中:max(Pi)表示第i個輸入變量的最大值,min(Pi)表示第i個輸入變量的最小值。
建立如圖4所示神經網絡模型,文中采用數據集來源于CYGNSS-01星和ECMWF的融合風速數據,數據集信息見表2。

表2 數據集信息
數據集中包括海面均方坡度概率密度函數、后沿斜率、衛星高度角、海面風速、海面風向等共5維數據,樣本規模為864000個。風向反演步驟如下:
步驟1提取星載GNSS-R接收數據中與海面風向相關的觀測量,以ECMWF的風向數據作為真實值,經過數據時空匹配和預選,建立反演數據集。
步驟2采用2.2.1中和2.2.2中的方法確定網絡隱含層節點數,得到GA算法優化后的權值和閾值。訓練網絡,將網絡輸出風向與真值對比,計算反演精度,當精度或循環次數達到預設要求結束訓練,得到風向反演的網絡模型。
步驟3將驗證集中的數據輸入到訓練好的網絡中,計算反演精度,若精度達到模型預設要求,進入下一步驟,否則返回步驟2。
步驟4將測試集中目標觀測值輸入到訓練好的網絡模型中,計算風向反演精度,評價反演效果。
步驟5輸入未知風向區域GNSS-R觀測量,利用訓練好的模型反演該區域海面風向,檢驗算法魯棒性。
經2.2.1確定神經網絡隱含層節點數為隱含層1和隱含層2均為9個節點。采用GA算法優化網絡權值和閾值,網絡適應度在32代后趨于穩定,適應度曲線如圖8所示。

圖8 GA算法適應度曲線
將訓練數據輸入深度網絡,網絡的訓練次數設置為200次。誤差在訓練過程中逐漸減少,迭代46次后收斂。在輸入數據集中隨機選取驗證集400個數據,試驗結果如圖9所示。本文方法反演的風向和ECMWF風向的相關系數為0.9588,風向反演的均方根誤差εRMSE=18.14°。

圖9 風向反演試驗結果
為驗證反演方法的魯棒性,選取CYGNSS-01星在2018年5月15日00:00:00至2018年5月16日23:59:59與2018年5月27日00:00:00至2018年5月28日23:59:59兩段時間內的L1級數據和對應真值數據兩組各2000個進行驗證。如圖10(a)所示第1組數據使用本文方法反演的風向和ECMWF風向的相關系數為0.9441,均方根誤差εRMSE=18.22°;如圖10(b)所示,第2組數據使用本文方法反演的風向和ECMWF風向的相關系數為0.9386,均方根誤差εRMSE=18.51°。滿足海面風向測量均方誤差小于20°的一般測量要求。

圖10 深度網絡風向反演驗證試驗結果
1)本文通過對星載GNSS-R觀測量的分析與試驗得到了多個觀測量與風向間相關關系,提出了利用深度網絡模型反演海面風向的方法。為海面風向反演提供了新思路。
2)設計了反演網絡模型,確定網絡節點數,并基于GA算法優化了網絡結構,采用ReLU函數作為網絡激活函數優化網絡學習速度,使得網絡模型可以高效準確的反演海面風向。
3)對數據進行預處理優化了網絡輸入條件,提高了網絡的泛化能力,通過驗證試驗證明了該反演方法的有效性和魯棒性。