孟 黎,孟 靜
(1.山東城市建設職業學院,山東 濟南 250103;2.山東省國土測繪院,山東 濟南 250102)
在內陸水域中,湖泊富營養化是影響其自身及周邊生態環境最嚴重的問題之一,葉綠素a(Chla)作為浮游植物攜帶的重要色素[1],其濃度含量會影響浮游植物生物量,也可能改變水庫、湖泊、河流等水體的初級生產力與富營養化程度,因此定量評價內陸水體中Chla 濃度含量,描述水體光學性質與水質參數之間的關系具有重要意義[2]。相較于傳統手段,遙感技術可以在宏觀尺度上實時對目標進行監測,節省了大量人力物力財力[3]。對于Chla 濃度反演,國內外學者目前已作出重要突破,如朱廣偉等[4]基于站點數據反演了太湖長時序Chla 濃度變化,并對其驅動因素作出分析。馬榮華等[5]所提出的OCx算法,目前已經成為NASA 水色估算中的默認算法。徐京萍等[6]使用Modis 數據,對太湖藍藻水華情況進行監測,為相關部門提供決策支持。此類研究中,數據源往往集中于Modis、Landsat、HJ1 等中低分辨率衛星影像,這些數據在Chla 反演過程中時空分辨率過低,導致在中小型湖泊上不適用。而于2015 年發射的哨兵二號衛星具有高時空分辨率[7],在中小型湖泊Chla 反演中的應用前景探討相對較少[8]。隨著計算機技術的發展,機器學習通過算法本身改善自變量與因變量的關系從而可以解決非線性問題,為水質參數反演提供了新思路。對于一些常見的機器學習算法,如決策樹、支持向量機、多層感知機等,國內外眾多學者已作出相應研究[9],而鮮有研究考慮集成學習算法在內陸水體Chla 反演中的適用性。鑒于此,本文使用哨兵二號多光譜數據聯合2 種集成學習算法,開展內陸水體Chla反演算法研究。
南四湖是淮河流域第二大淡水湖,位于中國山東省南部微山縣,全湖面積1 266 km2,由微山湖、昭陽湖、獨山湖及南陽湖串聯而成,是山東省第一大湖,也是中國南水北調東線工程中的重要調水區。南四湖水環境健康運營對其周邊濕地系統生態穩定至關重要,因此本文以對南四湖水體進行精準大范圍遙感水質監測為手段,開展南四湖水體Chla 濃度反演算法研究。研究區概況,如圖1所示。

圖1 南四湖研究區概況
哨兵二號A 星于2015 年發射,B 星于2017 年發射,實現衛星雙星組網,重訪周期為5 d,搭載MSI傳感器共有13個波段,空間分辨率分10、20、60 m。本文采用哨兵二號A 星L2A 級產品,該產品于歐空局哥白尼數據中心下載(https://scihub.copernicus.eu),已經過了嚴格的幾何校正與Sen2Res 大氣校正,可直接用于一些遙感定量反演研究。
2021 年9 月10—12 日 和9 月21 日在南 四 湖布設126 個采樣點,其中9 月10—12 日僅測定Chla 濃度,9 月21 日測量Chla 濃度與水面光譜信息。采樣期間,天氣狀況良好,天空無云、無風,野外光譜測定條件達標。實測點位,如圖1 所示。水面光譜信息通過美國ASD 公司生產的FieldSpec 4 Hi-Res 便攜式地物光譜儀測定,每個采樣點分別測量5 次光譜曲線求平均值以減小誤差。將實測數據帶入以下公式計算,獲取湖面遙感反射率光譜曲線[10]。
式中:Rrs為湖面遙感反射率;Lw為純水遙感反射率;r為水與天空光的反射比常數,一般取0.025;Lsky為天空光遙感反射率,取0.99;π取3.14;ES為灰板輻射信號;ρp為灰板反射率。
Chla 濃度采用美國安諾ChloroTech 121A 型手持式葉綠素測定儀測定。126 個采樣點Chla 濃度分布,如圖2所示。微山湖采樣點較多,濃度與獨山湖相比較低,總體數據均值為32.86 μg/L,標準差為17.65 μg/L,無異常值出現。

圖2 采樣點Chla濃度分布
下載2021 年9 月11—21 日 哨 兵二號L2A 級產品,影像無云,質量良好。首先,在SNAP 軟件中對所有波段進行重采樣處理,將其空間分辨率采樣至10 m;然后,輸出為ENVI 格式,在ENVI 軟件中對所有波段進行合成,使用中國山東省微山縣矢量數據對影像進行裁剪,并作反射率歸一化處理;最后,進行影像拼接,以NDWI 法提取水體邊界[11],并基于實測點位提取影像光譜信息。由于9月10—12日實測點位較多,因此使用9月11日影像反演,9月21日光譜信息僅用于增加樣本點數量。
由于哨兵二號L2A級反射率產品本質上屬于地表反射率產品,對于水色遙感而言,嚴格意義上應當使用遙感反射率進行計算。因此,參考劉瑤等[12]的方法進行遙感反射率校正,由于認為內陸水體在短波紅外(SWIR)的信號很小,所以從可見光和近紅外波段減去短波紅外波段的最小值,然后除以π,實現地表反射率到遙感反射率的轉換。
式中:Rrs為影像地表反射率;Rsr為轉換后的遙感反射率;Rswir為所有短波紅外波段;π取3.14。
GBDT(Gradient Boosting Decision Tree)是Boosting中的代表性算法,它既是當代強力算法XGBoost、LGBM 等算法的基石[13],也是實際應用場景中最穩定的算法之一。GBDT 中上一個弱評估器的輸出結果會影響下一個弱評估器的計算過程,其基本核心思想為:依據上一個弱評估器的結果,計算損失函數,并使用損失函數自適應地影響下一個弱評估器的構建。集成模型輸出的結果,受到整體所有弱評估器的影響。
XGBoost(EXtreme Gradient Boosting)是2014 年由中國學者陳天奇[14]提出的,是基于GBDT 升級的新一代算法。XGBoost 使用估計貪婪算法、平行學習算法、分位數草圖算法創造了全新的建樹流程;使用感知緩存訪問技術與核外計算技術提升算法在硬件上的計算性能;引入Dropout 技術,為整體建樹流程增加隨機性,其基層樹模型可以很好地擬合非線性數據。
選取校正后的哨兵二號L2A數據的可見光及近紅外共9個波段作為集成學習算法的輸入變量。此外,加入4 種波段反射率比值,分別為藍/綠、紅/綠、近紅/綠、近紅/紅,其中藍、綠、紅、近紅分別對應哨兵二號的第2、3、4、8 波段。共計13 個輸入變量,輸出為Chla濃度。
選取決定系數(R2)與均方根誤差(RMSE)評估所有模型在全部波段選擇策略上的泛化能力。2 個評價指標計算公式如下:
式中:n為樣本數量;yi為實測數據;yj為模型預測值為實測數據平均值為模型預測值平均值。R2越大,RMSE越小,模型精度越高。
采用式(1)計算各實測點位遙感反射率,取400~900 nm 形成光譜曲線。按上文提到的方法,對哨兵二號實測點位提取光譜進行遙感反射率校正。由于水質反演是使用可見光及近紅外波段,提取400~900 nm 范圍內的實測光譜、哨兵二號原始光譜及校正后的前9個波段對比,如圖3所示。

圖3 實測光譜與遙感反射率校正光譜對比
從圖3 可以看出,在藍光波段及670 nm 處均有吸收峰,570 nm 附近的反射峰是由于葉綠素和胡蘿卜素的弱吸收以及細胞散射形成的,該反射峰值與色素組成有關,可以作為葉綠素定量的標志。685~715 nm 處反射峰的出現是含藻類水體最明顯的光譜特征,該反射峰的位置和數值是Chla 濃度的指示,其出現原因是由于水體和Chla 在此處的吸收系數達到最小。所以,經校正后的反射率不僅保留了原始的Chla 濃度反射特征,而且更加貼合于實測光譜。因此,可以認為所選擇的遙感反射率校正方法是有效的。
本文模型的構建、訓練、調參、測試均在Python與Anaconda的集成開發環境中完成,GBDT模型已在Scikit-learn庫中提供方法,而XGBoost模型使用其原生代碼所提供的Scikit-learn API接口實現,主要調試參數包括n_estimators、max_depth、learning_rate、subsample等。使用KFold五折交叉驗證的平均得分,評估模型理論泛化能力。2種模型反演結果,如圖4所示。

圖4 基于實測點位的模型反演結果
從圖4 可以看出,當13 個特征輸入2 種模型時,2 種模型均具有較強的魯棒性。五折交叉驗證的決定系數R2在XGBoost 模型達到最高(0.723 5);均方根誤差出現類似情況,在XGBoost 模型達到最低(9.168 1 μg/L)。經觀察發現,Chla 濃度值為20~40 μg/L 時,2 種模型均產生了高估,結合圖2,認為這是由于處于這個濃度的訓練數據較少,模型學習不充分,從而產生了Chla 濃度值的高估。總體而言,XGBoost 模型的精度在基于實測數據建模中達到最高,后文將把2種模型應用于遙感影像,進一步探討二者在遙感影像上的泛化能力。
遙感影像上的反演結果,如圖5 所示。Chla 濃度高低分布狀況大體一致,獨山湖明顯高于微山湖。通過實地考察得知,在實地測量前,微山湖經過了大量放水,流向為自南向北,所以獨山湖高于微山湖。我們的結果與Zhang 等[15]的研究結果一致,因此可以認為本文結果是準確的。在GBDT 模型反演結果中,獨山湖Chla 濃度反演值幾乎全處于40 μg/L 以上,這不符合實測數據的情況,所以GBDT 模型存在明顯的Chla 濃度高估情況。此外,結合圖2 與圖1,就下級湖微山湖而言,GBDT 模型也高估了Chla 濃度,因此可以認為XGBoost 模型在哨兵二號數據上更具魯棒性,反演結果更加符合實際情況。

圖5 哨兵二號遙感影像反演結果
本文以山東省微山縣南四湖為研究背景,使用歐空局提供的Sentinel-2A 影像數據及實測數據,選取影像前9 個波段及4 種波段比值構建了Chla 濃度反演的13 個特征波段,在此基礎上使用NDWI 法進行水體提取、光譜提取及反演模型構建,得到以下結論:經過遙感反射率校正的哨兵二號影像與實測光譜更具一致性,更適合用于水質參數反演。XGBoost、GBDT 模型可以用于南四湖水質參數反演,XGBoost 模型在實測數據及影像反演上均具有較強的魯棒性,反演結果與實際情況更加一致。后期研究將會嘗試將該模型應用于長時序水質參數反演。