趙艷敏,南洪濤,董 超*,孫 波,
(1.山東農業大學 信息科學與工程學院,山東 泰安 271018;2.中國空間技術研究院 載人航天總體部,北京 100094)
內陸水資源在人類的生活和生產活動中扮演著重要角色,對內陸水體進行動態監測有利于研究水資源循環和預警洪澇災害。衛星遙感是水體監測的一種方法,主要分為光學遙感[1-2]和微波遙感[3-4]兩種。然而,光學遙感易受云層和地表植被遮蔽,而微波遙感則具有波長較長(相對于可見光和紅外)、空間分辨率低和載荷昂貴等缺點[5]。因此,尋找一種既能以較低成本長時間精準識別水體,同時又能避免云層等遮蓋影響的方法具有十分重要的實踐價值。
全球導航衛星系統反射(GNSS-R)技術是利用導航衛星的反射信號進行遙感探測的一種新型微波遙感技術。與傳統微波遙感手段相比,GNSS-R技術擁有大量免費的L波段信號源,具有不需要單獨發射機,接收機體積、質量和成本都較低,搭載平臺靈活等優點[6-7]。學者們[8-10]利用TechDemoSat-1數據表明了星載GNSS-R觀測數據進行水體監測的可行性,但因TechDemoSat-1衛星本身是一顆技術驗證衛星,其有限的數據量限制了對利用星載GNSS-R技術進行水體監測的進一步研究。在此基礎上,文獻[11]利用CYGNSS信噪比(Signal to Noise Ratio, SNR)的方法對濕地動態進行了監測。文獻[12-15]利用CYGNSS地表反射率數據進行了水體分布探測,識別內陸水體的位置及其變化。文獻[13,16-17]利用延遲多普勒圖(DDM)的功率比數據進行了水體探測,水體識別準確率達到93.16%,展現了進行動態內陸水體測繪的潛力。
由此可見,目前國內外對星載GNSS-R水體探測進行了大量研究,但是水體識別的準確率仍然存在可以進步的空間。隨著人工智能技術的不斷發展,機器學習方法在提高觀測精度方面有很大的潛力。支持向量機(Support Vector Machine, SVM)在非線性分類問題上表現優秀,因此本文提出一種基于SVM的星載GNSS-R內陸水體識別方法,以剛果河流域為例,驗證了方法的有效性并分析了其精度。
剛果河長4 374 km,年平均流量為每秒4.1萬m3,流域面積約370萬km2,流量和流域面積都居于非洲前列[18]。剛果河流域有世界第二大熱帶雨林,地表植被茂密。本文研究范圍為3°0′N~ 1°0′S,17°0′E~21°0′E。該流域河流主干水流量大,有密集的支流、副支流,有利于做水體研究。
CYGNSS是美國宇航局(NASA)為監測熱帶氣旋演變過程而發射并運行的LEO GNSS-R星座。該星座由8顆微型衛星組成,可以覆蓋地球南北緯38°之間的區域。本文使用的是3.0版CYGNSS L1級別2020年整年的數據產品(https:∥podaac.jpl.nasa.gov/dataset/CYGNSS_L1_V3.1)。其標準DDM產品由17個延遲點和11個多普勒點組成,延遲維度分辨率為0.25 GPS C/A碼碼片,多普勒維度分辨率為500 Hz,每個DDM通過0.5 ms相干積分和1 000次非相干累加得到。陸地、平靜內陸水體相對光滑,反射信號主要為相干散射部分,其分辨率理論最高可達0.6 km×3 km。
MOD44W第6版數據產品提供了250 m空間分辨率的全球地表水體數據(https:∥lpdaac.usgs.gov/products/mod44wv006/),其中包含了水體掩膜和質量保證2個圖層。水體掩膜數據中0代表陸地,1代表水體;質量保證圖層中包含10個等級指標。本文采用2015年整年的掩膜數據。
1.3.1 數據處理
1.3.1.1 星載GNSS-R特征觀測量分析
GNSS-R的SNR是水體和陸地最敏感的特征之一。由于地表粗糙,GNSS-R接收到的反射信號功率由相干散射分量和非相干散射分量構成。其中,相干散射分量的功率表達式為[19]:
(1)
式中:Г為表面的反射率,Pt為GNSS衛星發射功率,Gt為GNSS衛星發射天線增益,Gr為GNSS-R信號接收天線增益,λ為GNSS信號的載波波長,Rt、Rr分別為發射機到地面和地面到接收機的距離。求解Г,得到:
Γ=20lg 4π-10lgPtGt-10lgGr+
20lg(Rt+Rr)-20lgλ+10lgPcoh。
(2)
相干散射分量的功率還受到其他變量的影響,如天線增益等。通過計算SNR來減輕這些因素。SNR計算如下:
(3)
式中:Navg為每個頻段的平均原始噪聲計數。SNR和Г之間關系的函數如下所示:
SNR∝10lgΓ。
(4)
根據GNSS衛星發射功率、GNSS衛星發射天線增益、GNSS-R信號接收天線增益等主要參數對SNR進行校正,得到SNRC的公式如下所示:
SNRC=20lg 4π-10lgPtGt-10lgGr+
20lg(Rt+Rr)-20lgλ+SNR。
(5)
CYGNSS衛星數據處理基本過程主要包括特征值的選擇、數據預處理等。特征值的選擇是根據GNSS-R模型來從基礎觀測變量中提取可能影響內陸水的參數,本文使用由CYGNSS衛星獲取的SNRC進行內陸水提取。
1.3.1.2 數據質量控制
CYGNSS數據中存在天線增益的影響,需要對 SNR進行修正,得到合適的SNR值進行數據處理。故本文將SNR大于1.5 dB和接收機天線增益大于0 dB的觀測數據進行刪除。
1.3.2 內陸水體識別
為探索CYGNSS衛星數據在水體識別領域的能力,本文提出一種基于SVM模型并結合SMOTE算法的數據處理方法。該方法分為數據預處理、SMOTE算法數據處理、SVM模型3個步驟,最終得到修正數據SNRC的SVM模型結果及準確率,具體數據處理總流程如圖1所示。

圖1 數據處理總流程Fig.1 General flowchart of data processing
1.3.2.1 CYGNSS和MODIS水體掩膜數據處理和空間匹配
本文使用SNRC數據,將數據按照0.02°×0.02°的空間分辨率劃分網格,利用區域均值算法重新計算各個格網單元的數據,并將結果作為研究對象,形成地表SNR圖像。
因為中分辨率成像光譜儀(MODIS)數據投影系統不同,先進行預處理。預處理過程包括:數據合并、轉換為TIFF數據、掩膜處理。TIFF數據中包含經緯度信息,將TIFF數據的經緯度與SNR數據的經緯度一一對應,同樣將格網單元中的數據進行區域均值算法處理,將大于0的元素標記為水體,得到MODIS水體掩膜網格數據。
1.3.2.2 SMOTE算法
在機器學習領域,處理數據時會出現某一類的樣本數量遠遠低于另一類的情況——類不均衡問題。解決類不均衡問題的方法有隨機增大少數類的樣本數量、隨機減少多數類的樣本數量以及修改代價函數等。本文采用SMOTE算法來解決數據不均衡問題。
SMOTE算法是一種隨機增大少數類數量的方法。SMOTE算法過程[20]如下:① 對于少數類中每一個樣本x,以歐氏距離為標準計算它到少數類樣本集中所有樣本的距離,得到其k近鄰。② 根據樣本不平衡比例設置一個采樣比例以確定采樣倍率N,對于每一個少數類樣本x,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為xn。③ 對于每一個隨機選出的近鄰xn,分別與原樣本構建新的樣本。
1.3.2.3 SVM模型
機器學習模型在地表探測[21-22]、云檢測[23]等方面有諸多應用。機器學習模型可以不斷提高檢測精度,所以本文選用機器學習SVM進行數據處理。
SVM是一種結合了統計學習理論的VC維理論以及結構風險最小化原則的模式識別方法,在有限的訓練樣本中尋求學習能力與模型復雜度融合后的最佳折中結果,從而得到最小誤差分類器[24]。也是一類按監督學習方式對數據進行二分類的廣義線性分類器。
給定數據集{(x1,y1),(x2,y2),…,(xm,ym)},m為樣本數量,ym∈{0,1}。SVM定義的模型為:
(6)
式中:ω=(ω1,ω2,…,ωd)為法向量,b為位移項,ξi為松弛因子,C為常數。
根據1.3節的討論,選擇x=(SNRC)作為SVM的輸入變量。將使用MODIS水體掩膜作為SVM的輸出變量y。
輸入變量x與y的關系是非線性關系。引入核函數解決SVM模型非線性問題[25]。有3種核函數可以訓練SVM模型[26],核函數公式如表1所示,線性核函數是徑向基核函數的一種形式。多項式核函數需要確定的參數多,從而導致函數復雜化,造成程序計算困難。綜合考慮本文選擇徑向基核函數,無論是小樣本還是大樣本,高維還是低維等情況,徑向基核函數均適用。

表1 SVM核函數
1.3.2.4 SVM模型構建
SVM模型的訓練一般步驟包括:準備數據集、統一數據格式、選用徑向基核函數、采用交叉驗證獲取參數C與g、采用參數C與g對整個訓練集進行訓練獲取SVM模型、利用獲取的模型進行測試與預測[27]。
本文研究模型所使用的特征較少、參數空間小,網格搜索算法數據處理簡單且易于實現。本文采用網格搜索算法獲取徑向基核函數需要的參數C與g。網格搜索算法的原理是將待搜索的內容在一定的空間范圍內劃分成網格,網格中的每個點代表一種參數組合方案,遍歷網格內所有點,可找出性能最優的參數組合。
經過數據處理,將SNRC的隨機訓練集樣本輸入到SVM算法中以建立二分類模型,然后利用二分類模型完成對內陸水提取準確率估計,綜合分析內陸水的準確率和混淆矩陣。
1.3.3 數據驗證
評估SVM模型最簡單、最直接的標準就是分類準確率(Accuracy),但單純用準確率來評估SVM模型的性能不夠嚴謹,還需要借助由混淆矩陣形成的查全率、查準率來更為細致地評估性能。
根據真實類別和預測類別的不同組合,將樣本劃分為如下4類:真正類(TP)、假正類(FP)、真負類(TN)、假負類(FN),如表2所示。本文以MODIS水體為真實值正類,MODIS陸地為真實值負類,SNRC水體為預測值正類,SNRC陸地為預測值負類。MODIS影像產品是光學遙感數據,其觀測會被云層或植被阻擋,造成一定的數據錯誤。

表2 SVM混淆矩陣
準確率的具體數學表達為:
Accuracy=(TN+TP)/(TN+TP+FN+FP)。
(7)
查全率(Recall)又稱召回率,表示分類準確的正類樣本數占全部正類樣本總數的比例。具體數學表達為:
Recall=TP/(TP+FN)。
(8)
查全率是指檢索出來的相關數據占總數據中全部相關數據的比例,反映的是檢索的全面性。
查準率(Precision)表示被預測正確的正類樣本數占分類器判定為正類樣本總數的比例。具體數學表達為:
Precision=TP/(TP+FP)。
(9)
查準率反映的是檢索的準確性,即真正相關頁面數占全部檢索出的相關頁面數的比例。
對2020年7月的CYGNSS的網格化SNRC數據進行直方圖統計,如圖2所示。可以明顯看出,陸地與水體在159~160附近有明顯的分界線,表明SNRC可以進行水體提取。

圖2 陸地與水體SNRC強度直方圖Fig.2 Intensity histogram of SNRC of land and water body
CYGNSS和MODIS 水體掩膜數據匹配過程中產生了4幅圖像,圖3(a)是通過MODIS數據獲得的研究區域水體掩膜圖;圖(b)是圖3(a)網格化獲得的數據;圖3(c)是圖3(b)經過1.3.2.1節判斷原則得到的二值化MODIS數據;圖(d)是CYGNSS SNRC網格化數據。對比剛果河SNRC數據和剛果河MODIS水體掩膜數據,如圖3所示。MODIS水體掩膜數據捕捉到的河流有更為清晰,而SNRC數據結果則相對比較粗糙,分辨率不高,但能夠識別出更多的河流支流。大部分的河流主干都可以互相對應,MODIS數據可以作為輔助數據來驗證SVM模型的準確度。

(a)研究區域GeoTIFF數據

(d)剛果河MODIS 水體掩膜圖像
獲得的C、g組合的交叉驗證過程如下:把總的訓練集分成3個子集,每次選出一個作為測試集,其余的作為訓練集進行訓練,然后用測試集測試得到的訓練模型,得出一個正確率。當3個子集都做過測試集后,即執行過3次這樣的訓練與測試后,取3次正確率的平均值作為最終正確率。通過交叉驗證來評估該訓練模型的預測正確率,以取得最高正確率的參數組合作為最終結果。結果C為11.313 7,g為16,準確率為94.40%,如圖4所示。

圖4 SVM參數選擇等高線圖Fig.4 Contour map of SVM parameter selection
經過訓練集和測試集訓練出的SVM模型對剛果河SNRC數據進行測試,剛果河二值化SNRC數據表明河流主干及其部分河流支流識別正確,如圖5所示。淺藍色部分是MODIS數據中未存在河流,如圖6所示,其部分原因是剛果河處于熱帶雨林區,茂密的植被對實驗數據造成了遮擋和誤判,但是通過SVM模型正確識別出細小支流,提高了水體提取的準確度。

圖5 SVM預測二值結果Fig.5 Binary result diagram of SVM prediction
剛果河未均衡化SNRC的SVM模型結果,如圖7、圖8所示,訓練集混淆矩陣的結果:水體正類查準率為21.78%;陸地負類查準率為97.88%。測試集混淆矩陣的結果:水體正類查準率為5.39%;陸地負類查準率為97.76%。水體與陸地的準確率相差非常大,未均衡化數據模型訓練集查全率為72.59%;測試集查全率為56.83%,說明檢索數據非常不全面。

圖7 剛果河未均衡化訓練集混淆矩陣Fig.7 Confusion matrix of Congo River unbalanced training set

圖8 剛果河未均衡化測試集混淆矩陣Fig.8 Confusion matrix of Congo River unbalanced test set
剛果河均衡化SNRC的SVM模型結果,如圖9和圖10所示。訓練集混淆矩陣的結果:水體正類查準率為96.42%;陸地負類查準率為96.99%。測試集混淆矩陣的結果:水體正類查準率為96.32%;陸地負類查準率為99.80%。均衡化訓練集查全率為99.56%;測試集查全率為100.00%,檢索數據的全面性都高達99%以上。對比2種數據發現,準確率與水體查全率都得到很高的提升,表明:① 數據的不均衡會導致模型的準確率降低;② SMOTE算法可以有效地提高水體查準率。

圖9 剛果河均衡化訓練集混淆矩陣Fig.9 Confusion matrix of Congo River equalization training set

圖10 剛果河均衡化測試集混淆矩陣Fig.10 Confusion matrix of Congo River equalization test set
剛果河2種數據SVM模型的準確率對比如表3所示,表明了SMOTE算法數據均衡化后進一步提高了內陸水提取的準確率。

表3 剛果河均衡化 SVM模型的準確率
現有的水體提取準確率如表4所示。水體提取準確率最高為95.4%,最低為92%,與表格中水體提取準確率相比,使用SVM模型提取數據的準確率有了進一步的提高。

表4 水體提取準確率
本文通過使用SVM模型結合SMOTE算法提出了一種有效的內陸水體提取方法。利用CYGNSS校正后的SNRC數據,經過SMOTE算法處理,數據得到了均衡化。通過將數據輸入SVM模型進行訓練與測試,最后獲得準確率為96.49%、水體查準率為96.32%的結果。因此,本文研究成果表明: ① CYNGNSSSNRC數據可以用于內陸水體的提取;② SVM模型可以進一步提高內陸水體提取準確率;③ SMOTE算法可以用于處理數據不均衡問題,提高了內陸水體識別的準確率,為未來的研究提供了可行的方法。