蔡建楠,劉海龍,姜 波,何甜輝,陳文杰,馮志偉,黎倬琳,邢前國*
(1.中山市環境監測站,廣東 中山 528403;2.中山市生態環境局,廣東 中山 528403; 3.中國科學院 煙臺海岸帶研究所/中國科學院海岸帶環境過程與生態修復重點實驗室,山東 煙臺 264003)
【研究意義】水質監測是河流水污染防治工作的重要組成部分。傳統的水質監測方法存在成本高昂、采樣及分析過程需時長、時空代表性差等缺點,難以滿足當前形勢下水環境管理的需要[1-2]。近年來,高光譜水質遙感以其檢測速度快、無二次污染、精確度高、可與航空技術結合、可實現大面積覆蓋等優點,在水質參數定量化監測中具有較大的應用潛力[3-4]。高光譜水質監測主要基于水體實測光譜豐富的譜域信息,通過建立光譜特征和水質指標的關系模型,實現對水質指標的反演[3];但高光譜數據也存在數據冗余、易受環境噪聲影響、不同波段間數據存在共線性等問題,影響水質反演精度及穩定性[5-6]。采取合適的數學建模方法進行數據優化和波段篩選,實現冗余變量的剔除和模型的優化,是水質反演模型建立的關鍵環節[7-8]。
【研究進展】高光譜環境遙感數據的波段篩選方法主要有遺傳算法(GA)、無信息變量消除法(UVE)、競爭性自適應重加權算法(CARS)、連續投影算法(SPA)等[9]。其中GA 是一種模擬自然進化搜索最優解方法,GA 與偏最小二乘法(Partial Least Squares, PLS)結合而成的GA-PLS 算法,綜合了GA 全局優化搜索能力和PLS 可有效解決變量間多重共線性問題的能力,成為光譜反演模型建立的研究熱點,被廣泛應用于化工、食品、農業等領域[8,10-12]。
【切入點】在水質遙感監測領域,GA-PLS 主要應用于湖泊水庫中透明度、葉綠素a、懸浮物和濁度等光學活性參數的反演研究[13-14],而針對河網水體水質綜合指標的高光譜反演研究報道較少。本研究以廣東省中山市有代表性的河流、水渠為監測對象,以化學需氧量(COD)為水質綜合評價指標,通過現場同步監測獲得水體高光譜數據和COD 質量濃度,建立河網水體化學需氧量(COD)質量濃度高光譜反演模型。
【擬解決的關鍵問題】通過本研究驗證GA-PLS算法對高光譜水質反演模型預測效果的改善作用,從而為河網水體水質高光譜監測提供參考。
中山市地處粵港澳大灣區幾何中心,珠江口西岸,北連廣州,毗鄰港澳;屬珠三角感潮河網區,轄區內河流密布,除主要外江河道外,有各種規模的內河涌、排灌渠等超過1 000 條。中山市經濟發達,產業集群密集,近年來隨著城市快速發展和人口不斷增加,河網水體多數受到一定程度的污染,水質復雜多變。
光譜測量和水質監測于2019 年7—9 月實施,監測對象盡可能覆蓋中山市不同規模的河流和渠道。剔除個別離群值后,共獲得146 個點位的現場實測光譜數據和水質樣品。使用的光譜測量設備為美國Ocean Optics 公司USB4000 光譜儀,光譜分辨率<0.2 nm。測量時選擇晴天無云或少云天氣狀況下,距12:00 約3 h 的時段內進行,以最大限度地降低太陽耀光影響。在每個點位離河流水面0.5 m 處,測量河流水體上行輻射亮度(Lu)、天空輻射亮度(Ls)和太陽下行輻照度(Ed)。測量前使用標準白板進行儀器定標,后進行3 次測量后取平均值作為光譜測定結果。計算測點光譜反射率Rrs計算式為[15]:

去除高光譜數據中噪聲較大、信噪比低的兩端波段,最終每個測點保留400~900 nm 光譜范圍共2 534個波長的反射率數據。
監測點的水樣采集與光譜測量同步進行,采集河流表層0~20 cm 處混合樣,加入固定劑保存并送至實驗室分析,監測項目為反映河流水質的綜合性指標COD,分析方法依據《水質化學需氧量的測定重鉻酸鉀法》(HJ 828—2017)。
1.3.1 GA-PLS 算法原理及實現
GA 是一種非導數的隨機優化方法,借鑒生物界自然選擇和進化機制,利用選擇、交換和突變等算子的操作,隨著不斷的遺傳迭代,使目標函數值較優的變量被保留,較差的變量被淘汰,最終達到最優結果[8,11]。PLS 是一種基于高維投影思想的非參數回歸方法,綜合了多元線性回歸分析、典型相關分析和主成分分析的基本功能,特別是當各自變量集合內部存在較高程度相關性時,通過提取主成分能對系統中的數據信息進行分解和篩選,提取對因變量解釋性最強的綜合變量,辨識系統中的信息和噪聲,有助于建立最優模型[16-17]。將GA 和PLS 結合可融合2 種算法的優勢,建立更加穩定、簡便、預測能力更強的模型。GA-PLS 算法的基本思想是將PLS 算法對因變量預測效果的評價指標作為GA 的適應度函數,用GA 進行波段篩選,再用偏最小二乘法方法對篩選后的自變量建立反演模型。GA-PLS 算法實現流程見圖1。

圖1 GA-PLS 算法實現流程圖 Fig.1 GA-PLS algorithm implementation flowchart
1.3.2 GA-PLS 算法參數設定及結果處理
GA 算法采用 PLS 交叉校驗均方根誤差(RMSECV)作為適應度函數,控制參數設定為:群體規模為30,最大迭代次數為100,交叉概率為50%,變異概率為1%,以遺傳迭代次數為收斂終止條件。PLS 算法采用舍一交叉驗證方法(PRESS)確定主成分的選取個數。由于GA 算法單次計算結果具有隨機性,為確保得到穩定的篩選結果,對數據執行10 次GA-PLS 重復運算并累積記錄每次運算得到的入選波段和入選頻率。
將146 個樣本按照COD 質量濃度升序排列,按照1∶4 的間隔依序選擇驗證數據和建模數據,可將數據劃分為建模集(116 個樣本)和驗證集(30 個樣本)。其中建模集用于GA-PLS 運算以篩選特征波段并建立PLS 回歸模型;驗證集用于驗證篩選得到的特征波段及回歸模型對水體COD 質量濃度的反演效果。同時將全譜段范圍的反射率數據建立PLS 回歸模型,以比較GA-PLS 算法和常規PLS 算法的效果差異。模型建立和驗證效果分別采用模型決定系數R2、建模集方根誤差RMSEC 和驗證集方根誤差RMSEP 進行評價。各評價指標計算式為:

式中:yi為建模集(驗證集)第i 個樣本COD 質量濃度實測值;yi′為建模集(驗證集)第i 個樣本COD質量濃度反演值為建模集COD 質量濃度實測值平均值;n 為樣本數。
根據水質監測結果,146 個水質樣品測得的COD質量濃度范圍為5~32 mg/L,平均值為13.7 mg/L,標準差為6.3 mg/L,偏度和峰度分別為0.799 和-0.004。按照《地表水環境質量標準》(GB 3838—2002)Ⅱ~Ⅲ類水的限值作為區間劃分標準,將各測點的高光譜反射率數據分別按照不同的COD 質量濃度分類,以分析不同COD 質量濃度水平下水體高光譜特征差異,(圖2)。
在400~700 nm 波段范圍內水體光譜反射率對低COD 質量濃度水體有較好的區分度,Ⅱ類水質水體光譜反射率在此波段范圍內均顯著高于其他水質類別的水體;而在波長大于720 nm 的波段范圍內,則出現Ⅳ類水質水體的光譜分辨率高于Ⅲ類水質水體的現象。表明水體光譜反射率與COD 質量濃度存在一定的相關性,但在不同波段范圍內相關關系特征規律不同;總體上表明基于光譜分辨率的水體COD 質量濃度反演具有較好的可行性。

圖2 不同COD 質量濃度水平對應的水體高光譜反射率 Fig.2 Hyperspectral reflectance of water body with different COD concentration levels
樣本集數據經過10 次GA-PLS 重復運算,得到的入選波段及累積入選頻率見圖3。圖3 顯示在610~660、680~730、840~870 nm 等波段范圍內均有連續的波段入選;入選頻率最高為650、720、763、818、842、873 nm 附近波長的波段,上述波段入選頻率均超過 20%;入選頻率較低的波段范圍為400~430、530~560、780~800 nm,表明該上述波段范圍內的水體光譜反射率可能與COD 質量濃度相關性較低。

圖3 GA-PLS運算得出的入選波段及頻率 Fig.3 Selected bands and frequencies from GA-PLS calculation
為探索不同入選波段數量對模型建立及驗證效果的差異,分別選取累積入選頻率大于15%(共74個波段)、大于10%(共140 個波段)、大于5%(共471 個波段)和大于2%(共1 235 個波段)的波段作為輸入變量進行PLS 算法建模,并和基于全譜段PLS模型的預測效果相比較,評價結果見表1。由表1 可知,與全譜段PLS 模型相比,經過GA-PLS 算法篩選后得到的不同波段組合作為PLS 模型的輸入變量,模型穩定性基本保持不變或有所提高。在各種波段組合中,以471 個波段作為輸入變量可得到最佳的驗證效果,驗證集RMSEP 為4.887 mg/L,較全譜段PLS模型降低11.4%;而以74 個波段(占全波段數的2.9%)作為輸入變量時,模型仍然保持良好的穩定性和驗證精度,模型建立和驗證效果評價指標均優于全譜段PLS 模型,實現了對輸入參數的有效縮減。
水質類別判定是水環境管理和評價的重要工作,故本研究按照《地表水環境質量標準》(GB3838—2002)所劃分的水質類別,將全部146 個樣的模型反演值予以分類,并與實測值對應水質類別進行比較,結果(圖4)顯示,模型對全部水質樣品的水體類別分類準確率為72.0%,其中對Ⅱ、Ⅲ類水質水體分類準確性可達83.9%,但對Ⅳ、Ⅴ類水質水體的分類準確性較差,為21.4%。從全體樣本COD 實測值與模型反演值對比結果看(圖5),該模型對COD 質量濃度小于20 mg/L 的水體樣本有較好的反演精度,但對于較高COD 質量濃度樣本的反演結果偏低。由于本研究中樣本COD 質量濃度主要處于Ⅱ~Ⅲ類水質范圍內,說明在樣本COD 質量濃度主要分布范圍內,基于GA-PLS 的高光譜水質反演模型具有較高的驗證精度。

表1 模型建立和預測效果評價 Table 1 Evaluation of model establishment and prediction effect

圖4 GA-PLS 模型水質分類結果與實測分類結果比較Fig.4 Comparison of water quality clasification results by GA-PLS model with measured value

圖5 GA-PLS 模型反演值與實測值比較 Fig.5 Comparison of GA-PLS model retrieval and measured values
本研究采用GA-PLS 算法對高光譜數據進行波段篩選,實現了高光譜數據的降維,當采用數量僅為全譜段3.4%的優選波段作為自變量進行PLS建模時,模型建立及驗證效果仍然優于全譜段PLS 建模,說明GA-PLS 算法可有效去除與水體COD 質量濃度相關性小的波段數據,從而提高水體COD 質量濃度高光譜反演模型的穩定性和預測能力。
對GA-PLS 算法篩選得到的部分特征波段(圖3中箭頭標示處)做進一步分析可見,篩選得到的部分特征波段與水中藻類、懸浮顆粒物的光譜吸收、反射特征波段一致:如650~680 nm 波長范圍內的反射低谷由藻類吸收所致[18];710~720 nm 波長范圍內反射率下降與水分子吸收過程密切相關,反映水體潔凈程度;約820 nm 波長處的反射峰則是水體懸浮顆粒物散射程度加強而形成[19]。上述結果表明受測水體中懸浮顆粒物、藻類對COD 質量濃度影響較大,是水體COD 的主要來源;也反映GA-PLS 算法選取的特征波段具有較好的合理性和指示意義。此種特性使得GA-PLS 算法在水質高光譜監測中具有廣闊的應用前景,可為同類型水體光譜監測的波段選擇或多光譜傳感器的波段設計提供重要參考,也有助于深入開展水體COD 光譜吸收特征及機理研究。
由于GA-PLS 算法結果具有隨機性,多次運算后可能得到不同的波段篩選結果,選擇何種方法確定最終輸入變量對模型效果有一定的影響。本研究以各波段累積入選頻率為標準篩選特征波段,可綜合多次運算的結果,方法簡便易行。但最優變量組合的確定仍然有必要結合目標污染物的光譜吸收特征、不同波段間反射率的相關性和預測精度的要求等,開展進一步研究。
1)基于GA-PLS 算法的河網水體COD 質量濃度高光譜反演模型效果優于全譜段PLS 模型。采用不同數量的篩選波段作為輸入變量,驗證集RMSEP 最小為4.887 mg/L,較全譜段PLS 模型降低11.4%;以篩選后的74 個波段(占全波段數的2.9%)作為輸入變量時,模型仍可保持良好的穩定性和反演精度,表明GA-PLS 算法可以實現對模型輸入參數的有效縮減。
2)模型對全部水質樣品的水體類別分類準確率為72.0%,對Ⅱ、Ⅲ類水質水體分類準確性達83.9%,表明在樣本COD 質量濃度主要分布范圍內,GA-PLS算法模型有良好水質類別分類準確性。
3)通過GA-PLS 算法可對高光譜數據進行特征波段篩選,實現數據的降維優化,并進一步簡化模型;GA-PLS 算法篩選得出的部分特征波段具有較好的合理性,有助于揭示COD 的主要來源構成,可為水質高光譜監測傳感器設計和水質反演機理研究提供參考,在河流COD 快速監測中具有廣闊的應用前景。