何 歡,陳文惠*,張忠婷
(福建師范大學 地理科學學院,福建 福州)
“十四五”重點流域水環境綜合治理規劃提出以飲用水水源地為重點,加大污染防治和富營養化防控力度,因此要對水源地水質進行實時監測,促進水資源規劃、管理和保護。傳統水質監測通過布設采樣點實測,準確性高,但時空上不連續,無法對斷面進行實時監測[1]。而遙感數據時空分辨率高、易獲取、數據全面,可以反映空間分布和動態變化,彌補了傳統方法的不足。
國內外學者針對海洋、湖泊等不同水域、利用不同數據、算法構建模型反演水質參數[2]。水質參數是監測水質的重要指標。其中,Chl-a 可以表征藻類生物的生物量[3];濁度反映泥沙含量,也是富營養化指標[4];COD 可以反映有機污染程度。目前,統計回歸模型應用廣泛,但精度較低,隨著機器學習的發展,該類模型被廣泛應用于水質參數反演[5,6]。近年來,莆田市高度重視東圳水庫水環境綜合治理工作,需要對水庫水質進行常規監測。Landsat 8 遙感影像易獲得,重訪周期短,可以對水質進行實時監測,所以本文以東圳水庫為研究區,根據Landsat 8 波段反射率與實測的Chla、濁度、COD 的相關性,構建傳統回歸模型、BP 神經網絡模型和XGBoost 模型,選擇最優模型反演并分析。
東圳水庫位于福建省莆田市區延壽溪中游,庫心坐標為118.954°E,25.485°N。集防洪、灌溉、供水等效益于一體,是當地的“大水缸”和生命線工程。水庫面積約10 平方公里、庫容量達4.35 億立方米,年平均供水量3 億多立方米。目前,該水庫還存在污染和富營養化情況,需要進行水質監測。
選擇與采樣時間同步或準同步的4 景Landsat 8衛星影像數據,完整覆蓋東圳水庫。對數據進行輻射定標和大氣校正,經校正的影像去除了大氣衰減的影響,綠地、水體等地物的波譜曲線趨于正常,并利用水體指數MNDWI 提取水庫邊界。根據野外手持GPS 記錄坐標,采樣點如圖1 所示,提取每個采樣點對應影像前7 個波段的反射率,結合實驗室理化分析得出水質參數濃度。其中,Chl-a 濃度范圍為1.81~27.82μg/L,濁度濃度范圍為1.86~16.1NTU,COD 濃度范圍為2~5.9 mg/L。本實驗選取83 組數據訓練模型,另外41 組用于檢驗模型精度,為保證模型的穩定性,每月按比例隨機選取一定數量的樣本,避免樣本過度集中在一兩個月的情況。

圖1 采樣點位分布圖
模型構建的前提是篩選出與水質參數濃度相關性較高的波段或波段組合。當水體中水質參數發生變化時,水體的反射光譜也會隨之改變。由于水體信息較弱,所以通過波段組合增強信息。本研究采用皮爾遜相關系數法,來描述水樣水質參數濃度與各因子之間的相關性,值越大說明相關性越強。為了篩選適合本研究區的因子,通過文獻總結,將b1 ~ b7 各個波段反射率以加、減、乘積、比值等不同方式進行組合,對3 種水質參數分別統計了1 266 個因子。其中,相關系數大于0.5 或小于-0.5 的,Chl-a 共有783 個,濁度共有592 個,COD 共有289 個。
在篩選出的波段組合中,選取4 個相關性最高的因子作為自變量,實測數據作為因變量分別構建線性、二次多項式、冪指數等統計回歸模型,對比各個模型的擬合效果,篩選最優模型。構建的統計回歸模型,如表1 所示,因為篩選了潛在特征因子,且采樣點相對較多,統計回歸模型R2均大于0.8。

表1 Chl-a、COD、濁度的統計回歸模型
BP 神經網絡由Rumelhart 等[7]提出,按誤差反向傳播算法訓練的多層前饋式網絡,在自適應、自學習、容錯性等方面有很大優勢,可以更好地處理非線性關系,目前被廣泛應用于水質參數反演。
XGBoost 算法是一種梯度提升樹算法,通過迭代構建多個決策樹模型,不斷校正預測誤差,以提升模型的性能,并引入正則化項和高效的分裂策略,以防止過擬合并提高模型的泛化能力,同時通過梯度提升和二階導數信息來加速模型訓練,最終通過多棵樹模型集成來提高預測模型準確性。其目標函數如下:
其中,第一項為損失函數,用于描述模型的擬合程度;第二項是正則項,用于控制模型的復雜度,以防止模型過擬合。其公式如下:
式中:γ 、λ 為正則系數;T、ω 分別為末端葉子節點的個數、權重。損失函數泰勒展開為:
因此,目標函數簡化為:
其中,yi為 樣本i 的真實值;為前t-1 棵決策樹對樣本i 的預測值;gi、hi分別為損失函數l 關于x 的一階導數、二階導數。
通過調參尋優的過程,使得目標函數的值最小,即模型訓練完成。本文以遙感影像7 個波段的反射率作為輸入因子,水質參數濃度作為輸出因子,分別構建BP 神經網絡模型和XGBoost 模型。
為獲取最優水質參數反演模型,使用平均絕對誤差(MAE)、均方根誤差(RMSE)對模型進行精度檢驗,計算方法如下:
統計回歸模型在先篩選潛在特征再建模的情況下,擬合度和精度都有了較大提高,其中,COD 的模型效果最好,R2均大于0.9,MAE 均小于1,說明模型能較好地解釋數據的變異性且平均誤差較??;Chl-a 和濁度的R2均在0.8~0.9 之間,個別實測值與預測值相差較多;通過調節BP 神經網絡模型隱含層的神經元個數、迭代次數、誤差閾值、學習率等,使效果最好并趨于穩定,實測值與預測值之間的誤差都較小,相比于統計回歸模型,BP 神經網絡模型擬合度更高,精度也明顯提高,說明反演效果相對更好。但是,該模型也存在一定的局限性,包括容易陷入局部極小值、過擬合等。所以,考慮到過擬合的情況,本實驗構建了XGBoost 模型,使用貝葉斯優化算法尋找模型的最佳超參數組合。從表2 可以看出,模型的R2有所下降,但MAE 在0.05~0.09 之間、RMSE 在0.07~0.13 之間,說明模型的誤差更小,為了保證水質參數反演的準確性,R2在合理范圍時,較低MAE 和RMSE 的模型可能更好。

表2 BP 神經網絡模型和XGBoost 模型結果對比
基于2023 年9 月17 日獲取的遙感影像,選擇最優模型分別對東圳水庫3 個水質參數進行反演,反演結果如圖2 所示。從圖中可以看出,庫心的Chl-a、濁度、COD 濃度都偏低,但是出入水口、岸邊、正下方(嶺下村附近),人口密度相對較大,易受人為活動影響且庫區岸線曲折較窄導致水質參數濃度整體偏高。根據Carlson 和Simpson 的分類標準[8],水體Chl-a 濃度在2.6~20g/L 、20~56g/L分別屬于中、富營養水體,可以看出2023 年9 月東圳水庫西部相較于東部Chl-a 濃度更高,整體存在一定程度的富營養化。濁度濃度整體小于10NTU,沿岸濃度稍微高一點,個別異常值出現在邊界處。COD 濃度總體較低,根據地表水環境質量標準,東圳水庫的COD 含量處于Ⅰ類水質標準。研究區水質良好且整體濃度趨于一致,空間差異性較小,說明通過遙感影像對水質參數進行反演,可以較好地反映其空間分布情況。

圖2 Chl-a、濁度、COD 的XGBoost 模型反演結果
基于Landsat 8 遙感影像,構建了東圳水庫3 種水質參數的統計回歸模型、BP 神經網絡模型、XGBoost 模型,并選擇最優模型進行反演,主要結論如下:
(1) 本文通過波段組合變換后,3 種水質參數分別以相關性最高的因子進行構建統計回歸模型,模型擬合度和精度均有所提高。
(2) BP 神經網絡模型效果優于統計回歸模型,但存在過擬合現象。XGBoost 模型能有效避免模型過擬合,擬合能力較強,且誤差較小,精度更高,適合用于本研究區的水質參數反演。
(3) 東圳水庫水質參數濃度值整體上分布較為均勻且波動較小,部分區域出現高值,與沿岸和上游的人類活動有關。
雖然遙感反演水質參數,可以動態監測水質情況,但是水域環境復雜以及影像的誤差,各種因素相互影響,建模需要考慮更多的因素。同時,機器學習算法眾多,還需考慮如何選擇出適合研究區的算法、對算法進行優化以及避免出現過擬合等問題。
在下一步研究中,可以將高光譜的波譜分析與水質參數的機理結合起來,深入分析不同季節適合的反演模型,為大型水庫構建更準確的模型,也為水質監管提供技術支持。