陳俊英 邢 正 張智韜 勞聰聰 栗現(xiàn)文 王海峰
(1.西北農(nóng)林科技大學水利與建筑工程學院, 陜西楊凌 712100;2.西北農(nóng)林科技大學中國旱區(qū)節(jié)水農(nóng)業(yè)研究院, 陜西楊凌 712100)
近年來,利用高光譜遙感技術(shù)評價和監(jiān)測水資源水質(zhì)信息狀況方面的研究愈發(fā)深入[1]。而應用高光譜技術(shù)檢測水體水質(zhì)的關鍵在于水質(zhì)的綜合評價和光譜數(shù)據(jù)與水質(zhì)參數(shù)間數(shù)學模型的建立。對于光譜數(shù)據(jù)和水質(zhì)參數(shù)間數(shù)學模型的建立,國內(nèi)外學者對影響水體質(zhì)量的幾個主要參數(shù)指標的遙感估算進行了大量的研究,如化學需氧量(Chemical oxygen demand, COD)、濁度、總磷、生物耗氧量(Biological oxygen demand, BOD)、總氮等。YE等[2]應用UVE-SPA-LS-SVM的方法實現(xiàn)了對COD的建模預測;呂航等[3]利用 HJ-1A衛(wèi)星HSI高光譜遙感數(shù)據(jù),建立了9個水質(zhì)參數(shù)與水體光譜反射率之間的估算模型;曹引等[4]建立了水體濁度的高光譜定量反演模型,為水體濁度大面積遙感監(jiān)測的業(yè)務化管理提供了技術(shù)支持;BANSOD等[5]通過高光譜的圖像數(shù)據(jù),對恒河的水質(zhì)參數(shù)進行了反演評價。在對于水質(zhì)單一參數(shù)的高光譜數(shù)據(jù)反演模型建立上,目前已經(jīng)達到可以定量的效果[6-9]。但影響水體質(zhì)量的水質(zhì)因子數(shù)目眾多,利用單獨的某項水質(zhì)參數(shù)來描述水質(zhì)的信息狀況不夠全面,因此往往會對水質(zhì)進行綜合評價。對于水質(zhì)的綜合評價,目前的研究也較為成熟。馬小雪等[10]利用主成分分析法對溫瑞塘河流域多項水質(zhì)參數(shù)進行時空分異特征分析和潛在污染源的識別;徐國賓等[11]利用模糊標識指數(shù)對水質(zhì)達標狀況、水質(zhì)類別和主要污染因子進行綜合評價。這些水質(zhì)綜合評價方法通過已有的水質(zhì)參數(shù)資料能夠很好地表征水質(zhì)的信息狀況,但在實時性方面存在不足。因此,需建立高光譜結(jié)合水質(zhì)綜合評價方法反演水質(zhì)模型,充分發(fā)揮高光譜遙感的實時性、大范圍性與水質(zhì)綜合評價方法的全面性、準確性的優(yōu)勢。目前對于高光譜結(jié)合水質(zhì)綜合評價方法反演水質(zhì)模型的研究較少。
本文將一組來自污水處理廠各處理工藝處的水體樣品分成兩份,一份經(jīng)由室內(nèi)理化試驗,檢測各項水質(zhì)參數(shù),并利用主成分分析對水體水質(zhì)進行綜合評價,得到水質(zhì)綜合評價因子;同時對另一份水體樣品進行高光譜數(shù)據(jù)的采集,將采集到的光譜數(shù)據(jù)進行不同的預處理,采用偏最小二乘法、逐步回歸法和極限學習機法對光譜數(shù)據(jù)和水質(zhì)綜合評價因子進行建模預測以及驗證。比較各預處理方法及對應的建模方法的驗證結(jié)果,選出更適合用于水質(zhì)綜合評價高光譜反演的數(shù)據(jù)預處理及對應建模方法,為建立高光譜結(jié)合水質(zhì)綜合評價方法反演水質(zhì)模型,實現(xiàn)對水質(zhì)信息狀況的大范圍實時監(jiān)測提供可行的路徑。
試驗用水水樣取自某生活污水處理廠,取水位置分別為生活污水處理的不同工藝處,即進水口、厭氧池、好氧池、沉淀池、出水口,對照的水樣為純凈水。各水樣的各項水質(zhì)參數(shù)經(jīng)由室內(nèi)理化試驗測定,結(jié)果見表1(部分)。
污水樣品采用ASD Field Spec 3型地物光譜儀測量高光譜數(shù)據(jù)。光譜儀波長范圍為350~2 500 nm,采樣間隔為1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm),重采樣間隔為1 nm。光譜測量在暗室中進行,光源為DH-2000型氘鹵鎢燈光源[12]。
本試驗中87個樣品獲得的光譜波段為350~2 500 nm。由于試驗條件以及其他因素的影響,測量的光譜中可能包含了一些冗余信息以及噪聲,因此需要對獲得的光譜波段進行選擇以提高建模的準確度。
由圖1可看到,在350~400 nm、2 300~2 500 nm波段范圍由于處于邊緣噪聲較大,不適用于建模。而大于2 000 nm波段,反射率很小,可利用的信息很少,難以找出不同樣本光譜圖的差別。故本研究選用400~2 000 nm的光譜波段。在建模前需要對光譜數(shù)據(jù)進行一定的預處理以削弱由測試環(huán)境及其他干擾因素導致的影響,提高數(shù)據(jù)信噪比。本文采用預處理方法有Savitzky-Golay(SG)平滑、標準正態(tài)化(SNV)、去包絡線(CR)和倒數(shù)之對數(shù)(LR)預處理等。
1.3.1Savitzky-Golay平滑處理
平滑濾波是光譜分析中常用的預處理方法之

表1 主要水質(zhì)參數(shù)Tab.1 Main water quality parameters

圖1 全波段原始光譜反射率曲線Fig.1 Full-band original spectral reflectance curves
一,通常利用Savitzky-Golay方法進行平滑濾波。Savitzky-Golay方法是一種在時域內(nèi)基于局域多項式最小二乘法擬合的濾波方法。其最大的特點在于在濾除噪聲的同時可以確保信號的形狀、寬度不變,可以提高光譜的平滑性,并降低噪聲的干擾[13]。本次處理中移動窗口寬度為5及多項式次數(shù)為3。
利用Savitzky-Golay濾波法對所有光譜數(shù)據(jù)(400~2 000 nm)進行平滑、去噪,取去噪聲后的部分光譜數(shù)據(jù)曲線如圖2a所示。
1.3.2標準正態(tài)化處理
標準正態(tài)變量變換(SNV)預處理針對一條光譜進行處理,主要是消除光程變化、散射和顆粒大小之間的干擾[13]。計算公式為
(1)
式中Xi——i個樣品光譜的平均值(標量)
m——波長點數(shù)
n——校正集樣品數(shù)
采用標準正態(tài)變量變換(SNV)對所有光譜數(shù)據(jù)(400~2 000 nm)進行處理,取處理后的部分光譜數(shù)據(jù)曲線如圖2b所示。
1.3.3去包絡線處理
去包絡線(CR)處理將光譜曲線歸一化到0~1之間,能夠突出光譜曲線的吸收和反射特征,增強光譜曲線各波段之間的對比性[14]。
采用去包絡線(CR)對所有光譜數(shù)據(jù)(400~2 000 nm)進行處理,取處理后的部分光譜數(shù)據(jù)曲線如圖2c所示。
1.3.4倒數(shù)之對數(shù)處理
在高光譜研究中,常將反射率進行倒數(shù)之對數(shù)變換,該變換形式有利于處理非線性問題,增強相似光譜之間的差異,并適當減少隨機誤差[15]。
采用倒數(shù)之對數(shù)處理方法對所有光譜數(shù)據(jù)(400~2 000 nm)進行處理,取處理后的部分光譜數(shù)據(jù)曲線如圖2d所示。
平滑光譜反射率SG、LR在ViewSpec Pro V6.0.11軟件中處理獲得,指標CR利用ENVI 5.1的Continuum Removed模塊處理得到。其他數(shù)據(jù)預處理通過The Unscrambler X 10.4實現(xiàn)。
1.4.1樣品集的劃分
樣品集的劃分采用Kennard-Stone算法(簡稱K-S)。K-S算法是根據(jù)已經(jīng)被選擇的樣品計算未被選擇的樣品的最小歐氏距離,然后通過選擇經(jīng)由計算的歐氏距離最大的樣品進入校正集,以此反復,直至選出的樣品數(shù)達到指定要求[16]。K-S算法在選擇具有代表性的樣品方面已經(jīng)被證明有著較好的效果[17]。本研究選取58個水質(zhì)樣本作為建模集,29個水質(zhì)樣本作為驗證集,分別用于模型的建立以及精度驗證。

圖2 不同預處理后的光譜反射率曲線Fig.2 Spectral reflectance curves after different pretreatments
1.4.2模型方法和評價指標
采用偏最小二乘回歸法(PLSR)、逐步回歸法(SR)和極限學習機(ELM)這3種回歸方法建立高光譜遙感對水質(zhì)綜合評價的反演模型。其中PLSR在建模過程中具有降維、信息集成和波段優(yōu)選等方法極大地提高了系統(tǒng)提取主成分的能力,得到了廣泛地應用,可較好地解決自變量之間存在的共線性問題[18-20]。而SR是一種便捷高效的模型優(yōu)化方法,對高光譜數(shù)據(jù)的“降維”具有較好的作用[21-22]。ELM是一類基于前饋神經(jīng)網(wǎng)絡的機器學習算法,與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡相比較,ELM 有著學習效率高、精度高且參數(shù)調(diào)整簡單等優(yōu)點[23-25]。

(2)
(3)
(4)
式中yi、i——驗證樣本的觀測值和預測值

n——驗證樣本數(shù)
SD——樣本觀測值方差
RMSE——均方根誤差
選12條較為典型的污水樣本經(jīng)過平滑(SG)、倒數(shù)之對數(shù)(LR)、去包絡線(CR)、標準正態(tài)化(SNV)4種預處理后的光譜曲線,見圖2。
由圖2a可以發(fā)現(xiàn),12條光譜曲線波形基本相似。圖2b、2c、2d分別是水體原始光譜經(jīng)標準正態(tài)化(SNV)、去包絡線(CR)、倒數(shù)之對數(shù)(LR)3種預處理后的反射率。從圖2a、2b可以看出,在410、480 nm波段處有明顯的反射峰值,在440、760、900、1 000 nm處有明顯的吸收峰值。這與呂航等[3]的研究較為符合,是由于在410、470 nm波段處有較多的水質(zhì)參數(shù)對反射更為敏感,而在440、760、900、1 000 nm處有較多的水質(zhì)參數(shù)對光譜的吸收更為敏感。從圖2c、2d可以看到,經(jīng)由去包絡線CR和倒數(shù)之對數(shù)LR處理后,放大了1 000~2 000 nm處的光譜波段,使得光譜吸收帶變得更加明顯,可以看到在1 400 nm附近處和1 900 nm附近處也有著光譜的吸收敏感波段區(qū),也驗證了CR預處理能夠突出光譜曲線的吸收和反射特征,增強光譜曲線各波段之間的對比性,以及 LR預處理在增強相似光譜之間差異的優(yōu)越性。
水質(zhì)系統(tǒng)是一個由各種水質(zhì)污染指標變量組成的復雜系統(tǒng),其內(nèi)里蘊含眾多能夠影響水體質(zhì)量的水質(zhì)因子,每一種水質(zhì)因子都只從某一方面表征了水體質(zhì)量,而這些水質(zhì)因子之間又往往有著不同程度的相關性,因此在對水質(zhì)進行評價時,將這些水質(zhì)因子都利用起來有一定的難度[27]。
主成分分析(Principal component analysis,PCA)是一種多元統(tǒng)計分析方法,其主要是利用降維的思想,把最初錯綜復雜的多個變量歸納總結(jié)成為少數(shù)幾個綜合變量,其中每一個綜合變量都是原始變量的線性組合,各綜合變量之間不存在相關性,從而實現(xiàn)利用少數(shù)幾個綜合變量來反映原始變量的絕大部分信息,且所含的信息互不重疊[28]。
主成分分析法(PCA)分析水質(zhì)參數(shù)的基本思想是將n個水體樣本的P個污染指標變量Xj(j=1,2,…,P),通過對這P個污染指標變量相關性的研究,重新組合構(gòu)造出m(m

偏最小二乘回歸PLSR具有主成分分析、典型相關分析和多元線性回歸等的優(yōu)點。運用The Unscrambler X 10.4軟件將全波段(400~2 000 nm)4種光譜指標(SG、LR、SNV、CR)作為自變量,以水質(zhì)綜合評價因子作為因變量,通過將均方根誤差(RMSE)和決定系數(shù)R2對主因子數(shù)作圖的方法確定最佳主因子數(shù),建立PLSR回歸模型。建模以及驗證結(jié)果見表4。

表2 特征值貢獻率Tab.2 Eigenvalue contribution rate

表3 水質(zhì)分級標準Tab.3 Water quality classification standards

表4 水質(zhì)指標的偏最小二乘模型Tab.4 PLSR model of water quality indicators

逐步回歸是一種線性回歸模型自變量選擇方法,其基本思想是將自變量逐個引入,根據(jù)自變量對因變量的解釋程度或顯著性,將對因變量解釋程度小或者顯著性低的自變量進行剔除,保留顯著的解釋變量,如此反復,直到既沒有顯著的解釋變量選入回歸方程,也沒有不顯著的解釋變量從回歸方程中剔除為止,完成對數(shù)據(jù)的大幅降維,得到了最優(yōu)的解釋變量集。本文運用全波段4種光譜指標(SG、LR、SNV、CR)作為自變量,水質(zhì)綜合評價因子為因變量。變量入選和剔除的顯著水平分別設為0.15和0.25,由“最優(yōu)”解釋變量集所建立模型的結(jié)果見表5。

表5 水質(zhì)指標的SR模型Tab.5 SR model of water quality indicators
由表5可以看出,逐步回歸方法通過對波段的“篩選”,剔除了大量對水質(zhì)綜合評價因子不顯著的波段數(shù)據(jù),僅保留了原數(shù)據(jù)約1%的顯著波段數(shù)據(jù),其降維效果非常顯著。在SR建模對數(shù)據(jù)的“降維”過程中,原始光譜SG保留的波段數(shù)目最多,表明在“降維”過程中,原始光譜的波段和水質(zhì)綜合評價因子間具有較好相關性;而LR處理后的光譜數(shù)據(jù)保留的波段數(shù)目最少,表明在“降維”過程中,原始光譜的波段數(shù)值和水質(zhì)綜合評價因子間具有較差的相關性。
極限學習機(ELM)是由HUANG等[32]提出來的求解單隱層神經(jīng)網(wǎng)絡的算法。ELM的網(wǎng)絡訓練模型由輸入層、隱含層和輸出層組成。其中,模型的訓練效果受隱含層的神經(jīng)元數(shù)量影響較大,且隱含層的神經(jīng)元數(shù)量需人為確定。輸入層和輸出層的神經(jīng)元數(shù)量取決于所分析問題的自變量和因變量數(shù)量。具體推導過程及訓練步驟詳見文獻[33]。ELM最大的特點是可以在保證學習精度的前提下相對于傳統(tǒng)的神經(jīng)網(wǎng)絡的學習算法速度更快。
以經(jīng)過逐步回歸SR降維后的4種光譜指標(SG、LR、SNV、CR)的光譜數(shù)據(jù)作為自變量,水質(zhì)綜合評價因子為因變量建立SR-ELM模型。建模以及驗證結(jié)果見表6。

表6 水質(zhì)指標的極限學習機模型Tab.6 ELM model of water quality indicators

作為機器學習的一種算法,ELM在本組數(shù)據(jù)建模中,隱含層的神經(jīng)元數(shù)量對訓練效果的影響較大。從表6可以看出,建模預測效果較好的SG-SR-ELM模型和SNV-SR-ELM模型的相對最佳隱含層單元數(shù)高于建模預測效果較差的LR-SR-ELM模型和CR-SR-ELM模型,反映了SG和SNV數(shù)據(jù)和水質(zhì)綜合評價因子間更具有相關性。總體來說,ELM模型在本組數(shù)據(jù)中對于光譜的擬合和預測具有很好的效果。
運用3種不同的回歸方法對4種光譜指標進行建模,各個模型對污水水質(zhì)的預測效果見圖3。

圖3 水質(zhì)綜合評價反演模型Fig.3 Inversion model for comprehensive evaluation of water quality

高光譜遙感在定量反演水質(zhì)參數(shù)時,由于具有光譜分辨率高和波段連續(xù)性強等特點,可以獲得更為全面廣泛的光譜波段數(shù)據(jù),而由于光譜測量中的某些人為和自然因素的干擾,光譜數(shù)據(jù)需要進行不同的數(shù)學變換以增強信噪比,從而提高光譜數(shù)據(jù)與水質(zhì)參數(shù)的相關性,進而提高模型的預測精度[22]。
雖然高光譜遙感在實際應用中,可以獲得更為精細的光譜信息,但因此也造成了數(shù)據(jù)和計算量的冗雜,為實現(xiàn)數(shù)據(jù)的篩選和模型的簡化,本文通過逐步回歸方法對光譜數(shù)據(jù)進行分析篩選建模。結(jié)果表明,逐步回歸方法能夠有效地對數(shù)據(jù)進行大幅度的降維(可達到99%),使得篩選后留下的數(shù)據(jù)既是重要的,又沒有嚴重的多重共線性。同時SR模型也有著很好的精度和預測效果,而以經(jīng)過逐步回歸篩選后的波段所建立的SR-ELM模型的精度和預測效果明顯比PLSR模型和SR模型更優(yōu)越,這為下一步的對高光譜數(shù)據(jù)通過波段篩選和數(shù)據(jù)降維以實現(xiàn)模型的簡化提供了可行性。由水質(zhì)綜合評價因子和光譜數(shù)據(jù)建立的水質(zhì)綜合反演模型較由單項水質(zhì)參數(shù)建立的反演模型精度有所下降,沒有能夠很好地表征各不同的單項水質(zhì)參數(shù)對于光譜數(shù)據(jù)各波段的影響和作用,有待進一步探索各水質(zhì)參數(shù)對于光譜不同波段數(shù)據(jù)的單獨影響和作用以及綜合的交互影響和作用。另外,由于內(nèi)陸水體光學特征的復雜性、水質(zhì)影響因子的多樣性,如何更好地將水質(zhì)信息狀況的綜合評價與高光譜技術(shù)相結(jié)合,以達到通過高光譜遙感技術(shù)實時全面地反映水體的污染程度,主要污染物的類別、來源、成因、時空分布規(guī)律以及變化趨勢,值得去進一步深入地研究和探索,是下一步研究的方向和目標。
(1)PLSR模型、SR模型、SR-ELM模型均能得到具有很好精度和預測效果的模型,其中SR-ELM模型的精度高于其他兩個模型,更適用于處理本組的水質(zhì)綜合評價因子。

(3) ELM模型預測水質(zhì)綜合評價因子時具有很好的效果,為機器學習在水質(zhì)參數(shù)反演預測方面的應用驗證了可行性,其中SNV-SR-ELM模型為水質(zhì)的綜合評價方法和高光譜反演模型的結(jié)合提供了參考。
(4)基于標準正態(tài)化變換指標建立的偏最小二乘模型、逐步回歸模型與極限學習機模型,其決定系數(shù)和RPD均最高,反演精度最優(yōu),SNV為本組光譜數(shù)據(jù)的最佳預處理方法。其中SNV-SR-ELM模型決定系數(shù)為0.954,RPD為4.651,為本組數(shù)據(jù)的最佳模型。
(5)水質(zhì)綜合評價方法和高光譜技術(shù)反演水質(zhì)參數(shù)的結(jié)合具有可行性,其模型的建立可以為水體的快速監(jiān)測和綜合評價提供參考。