尹 飛 戚甲偉 滕東東
(山東科技大學 測繪與空間信息學院, 山東 青島 266590)
水深是海底地形測繪和海洋環境調查的基本要素之一。作為海洋與陸地或島嶼和珊瑚礁周圍環境的相互作用區,淺水為海洋和沿海生態系統的可持續性和生物多樣性提供了基本的物理環境[1]。傳統的水深測量費時費力,且海上天氣多變,淺海地形復雜,測量工作會受到影響。隨著遙感技術的發展,越來越多的學者利用多光譜遙感圖像的方法進行淺海水深測量。遙感方法可以進行大范圍的同步測量,具有效率高、成本低的優點。對偏遠水域以及海域爭端地區,遙感技術可以作為傳統測深技術的有效補充[2]。
使用遙感圖像進行水深測繪的關鍵是建立圖像像元值和實測水深值之間的數值關系[3]。Lyzenga等在不考慮水體內部反射效應的條件下,研究底質分類對水深反演的影響,建立水深與水體反射率之間的理論解析模型,是最早提出的理論解析模型[4]。由于模型中多種水體光學參數難以獲取,限制了其實際應用。因此,Stumpf等提出了對數比值模型,可以在一定程度上消除復雜底質的影響[5]。但由于水體懸浮物質、海底底質等因素存在,使得水深和水體表面輻射亮度之間的線性關系并不總是成立。因此,水深反演的半經驗半理論算法具有一定的局限性。
隨著計算機領域的快速發展,機器學習算法在解決多變量、非線性復雜問題等方面具有出色的模擬能力。許多學者開始利用機器學習方法進行水深測量研究。溫開祥等使用XGBoost、隨機森林以及支持向量機的方法,利用Sentinel-2衛星數據,對梅州水庫進行水深反演[6]。閆峰等對懸浮泥沙光譜特性進行分析,將“泥沙因子”作為BP(back propagation)神經網絡的輸入參數,構建的水深反演模型在一定程度上削弱了懸浮泥沙對遙感測深的影響,反演性能明顯優于線性回歸模型[7]。可見,選擇適當的反演因子可以有效提高水深反演模型的精度。
海洋生態環境復雜,在生物活動和自然環境的影響下,海底底質類型往往是復雜多樣的,與假設的均一理想條件差距很大,研究區域的底質帶來的空間異質性會影響水深反演的精度。空間特征可以提高水深之間的空間自相關,結合光譜特征有助于提高水深反演的精度[3]。本文考慮到復雜底質帶來的空間異質性問題,在光譜信息的基礎上引入空間特征因子,用地理坐標表征空間特征,采用XGBoost算法與BP神經網絡算法構建水深反演模型,降低了水深殘差的空間聚集性,提高了模型的空間一致性,水深反演精度顯著提高。
甘泉島(Robert Island)位于中國西沙群島,北緯16°30′28″,東經111°35′10″,面積約為0.3 km2。由于遠離大陸,受人為影響較小,大氣條件良好,水質清澈透明,適合開展水深反演研究。研究區域的多光譜圖像如圖1所示。

圖1 研究區域的多光譜圖像
本文使用的GeoEye-1衛星數據于2013年2月18日拍攝,其成像時的太陽天頂角為134.5°,衛星方位角為113.8°。屬于L2A標準產品。影像基于WGS-84坐標系,通用橫軸墨卡托投影(universal transverse Mercator,UTM)。有4個標準波段(藍、綠、紅、近紅外)以及一個全色波段。衛星具體的參數如表1所示。

表1 GeoEye-1遙感影像參數
計算地物的光譜反射率時,要將圖像無量綱的像元亮度值(digital number,DN)轉化為具有實際意義的輻射亮度值。本文采用的是絕對輻射定標方法。精確的大氣糾正對精確的測深至關重要,本文使用6S大氣校正模型(second simulation of a satellite signal in the solar spectrum)來消除大氣粒子、氣溶膠以及分子的散射和吸收對水體信息提取的干擾,獲得高度真實的地面輻射或反射[8]。
實測水深數據為2013年1月通過機載Optech Aquarius測深系統采集得到的激光雷達測深數據。其坐標系為2000國家大地坐標系(China Geodetic Coordinate System 2000,CGCS2000)坐標系,高斯-克呂格3°帶投影,中央經線為111°E。通過解析激光雷達波形獲得的水深對應于瞬時水深,需要利用潮汐數據對測深數據進行校正,以獲得光學遙感圖像采集時間的水深值[8]。通過查找潮汐表可以得到遙感影像成像時刻對應的瞬時潮高為0.91 m,則測量水深與潮高之和就是遙感影像的瞬時水深。
極限梯度提升算法, 即XGBoost(eXtreme Gradient Boosting)算法,是由陳天奇提出的基于Boosting思想的集成學習算法,其核心是基于梯度提升樹實現的集成算法[9]。XGBoost采用多顆分類回歸樹(classification and regression tree,CART)進行預測,不斷進行特征分裂生長成樹。每次迭代過程中都會增加一棵樹。把每次生成的樹當作新函數,用來擬合上一次殘差。各個葉節點的權重之和,即所需的預測值[10]。模型的目標函數Obj可以表示為
(1)

(2)
式中,γ為節點切分的難度;T表示葉子節點的個數;λ為L2正則化系數;ω為葉子節點向量的模。
通過多次實驗對模型進行優化調參,參數取值如表2所示,其他參數缺省。

表2 XGBoost模型參數
BP神經網絡是應用最廣泛的一種神經網絡模型之一,它是一類基于誤差逆向傳播算法的多層前饋神經網絡。BP神經網絡理論上可以在結構合理、權值適當的情況下逼近任意非線性連續函數。它利用誤差梯度下降算法使網絡輸出值與實際輸出值之間的均方誤差最小,因而在模擬水深反演這種非線性變化系統上,相比傳統的統計方法具有更好的能力[11]。
本文采用3層BP神經網絡結構,如圖2所示,分別是輸入層、隱含層、輸出層。輸入層中的神經元負責接收信息后傳入到中間的神經元,神經元通過調整內部節點關系的連接,進而達到處理信息的目的。隱含層把處理完成后的信息再傳入到輸出層中。進一步處理數據后,輸出水深值。通過反復訓練,由表3可知,當隱含層節點數為6時,均方根誤差最小。其他參數默認為缺省值。模型的參數設置具體如表4所示。

圖2 BP神經網絡結構圖

表3 BP神經網絡結構

表4 BP神經網絡模型參數
圖3為波段反射率與水深相關性圖,即使有相同的光譜輻射,圖3(a)與3(b)藍綠波段與水深相關性較好,而紅波段在水深超過5 m,近紅外波段超過2 m時,由于紅光與近紅外光不再以輻射傳輸方程指數衰減,他們與水深之間的相關性會變差。僅靠光譜特征不足以進行水深測量,因此有必要從遙感圖像中提取其他特征。
由于海底底質分布上的不均勻性及其復雜性,會導致空間的異質性問題,影響模型反演水深的精度。空間特征在遙感影像上也是一個不可忽視的特征。引入空間特征可以有效地解決空間異質性問題[12]。地理坐標信息是最容易獲得的空間特征信息,可以作為模型反演的因子來反演水深。

(a)藍波段的水深
本文共計提取了6 119個的水深樣本點,每個水深樣本點包含4個波段的反射率信息、實測水深值以及地理坐標信息。將提取的實測水深樣本點按照7∶3比例隨機劃分為訓練樣本數據集和驗證樣本數據集。其中,訓練集用于擬合模型參數來構建水深反演模型,驗證集用于衡量模型的性能和反演精度。以決定系數(the coefficient of determination,R2),均方根誤差(root mean squard error,RMSE)和平均絕對誤差(mean absolute error,MAE)作為評價指標。

為驗證空間特征信息對水深反演模型精度的影響,將空間特征與GeoEye-1遙感影像的藍、綠、紅、近紅外4個波段反射率信息結合,共同作為水深反演因子,輸入到建立的XGBoost與BP神經網絡水深反演模型中,來對比分析模型水深值與實測水深之間的線性關系。圖4為甘泉島附近反演水深和實測深度的誤差散點圖,圖中通過坐標原點且斜率為1的紅色輔助線稱為“1∶1”線,“1∶1”線上表示模型水深值等于實測水深值。空間特征模型相比波段反射率模型的驗證點更均勻地分布在“1∶1”的兩側,表示其實測值與水深值基本吻合。
表5中,XGBoost和BP神經網絡水深反演模型的決定系數為0.97時,說明模型水深與實際水深之間存在強相關性。以無空間特征的波段反射率模型為參考,空間特征模型RMSE明顯優于波段反射率模型。其中,結合空間特征的XGboost水深反演模型的精度最高,其RMSE為0.90 m,較波段反射率模型減少了0.49 m。結合空間特征的BP神經網絡模型RMSE從1.37 m降低到0.94 m。

表5 XGBoost與BP神經網絡的反演精度對比表

(a)XGBoost波段反射率
為了更好地評估模型的性能,根據XGBoost與BP神經網絡水深反演模型,繪制了甘泉島淺海海域的全局水深圖,如圖5所示。其中,圖5(d)是實測水深反演圖。XGBoost與BP神經網絡模型得到的水深反演結與實測水深的整體變化趨勢大致保持一致。說明兩個機器學習的模型反演水深的性能較好。
XGBoost模型在甘泉島北側的淺水區域,引入空間特征模型的水深反演結果相比以無空間特征的波段反射率為因子的模型,明顯與實測水深更相近。而引入空間特征的BP神經網絡模型,其在陸地周圍區域比無空間特征的模型表現更佳。

(a)GeoEye-1遙感影像
根據反演水深點的殘差分布來體現空間特征因子對模型精度的影響。如圖6所示,由于甘泉島周圍分布珊瑚與砂分布不均勻,導致預測的殘差分布不均勻。僅使用波段反射率因子的模型大于4 m或小于-4 m的殘差表現為聚集狀態,可能是由于底質的差異導致。引入空間特征的兩個模型,如圖6(b)與6(d)所示,甘泉島北側淺水區域,XGBoost模型與BP神經網絡模型精度提高顯著,大于4 m或小于-4 m的(較大的紅色和黃色圓點)殘差和在區間-4~-2 m和2~4 m(較小的紅色和黃色圓點)的殘差點明顯減少。引入空間特征因子反演得到的水深殘差在-2~2 m的點(白色圓點)相比僅使用光譜信息的水深明顯增多,正負的殘差點均勻分布,表明引入空間特征因子可以提高水深反演的精度。

(a)XGBoost波段反射率殘差圖
本研究的主要目的是探究結合光譜信息的空間特征因子對XGBoost與BP神經網絡模型的影響,探索其在水深反演中的潛力。考慮由于海底底質和水質變化導致的空間異質性問題,提出了將空間特征作為模型的輸入量,與無空間特征的模型相比較。XGBoost與BP神經網絡模型的R2從0.94提高到0.97, RMSE分別從1.39與1.37 m降低到0.90與0.94 m,降幅分別為25.3%與31.4%。引入空間特征的兩個機器學習模型被賦予更高的空間一致性,降低了模型殘差的空間聚集性,避免由于空間異質性導致的誤差分布不均勻帶來的問題,水深反演精度提升顯著,為后續機器學習反演水深研究提供了有效的參考方向。盡管本研究區域僅限于甘泉島,但這些方法被認為能夠推廣到世界其他珊瑚礁區域的有效參考。