競 霞 閆菊梅 鄒 琴 李冰玉 杜凱奇
(西安科技大學測繪科學與技術學院, 西安 710054)
小麥條銹病是一種發生范圍廣、危害程度大的病害,嚴重影響小麥的產量和質量[1]。高光譜遙感數據維數高、信息量豐富,能夠更好地反映植物受脅迫信息,被廣泛應用于小麥條銹病的遙感監測[1-3],但也存在數據冗余、波段間相關性高的問題[4]。從豐富的光譜數據中提取敏感光譜特征能夠減少數據間的冗余,抑制噪聲干擾,提高作物病害的監測精度,然而不同的特征選擇算法對作物病害遙感監測模型構建的精度和效率具有重要影響[5]。目前常用的遺傳算法(Generalized algorithm,GA)[6-7]、粒子群優化算法(Particle swarm optimization,PSO)[8]和離散粒子群(Discrete binary particle swarm optimization,DBPSO)算法[9]等智能優化特征選擇算法雖然能夠較好地保留變量之間的組合優勢,但是這類算法結構較復雜,輸入參數多,耗時長,影響了模型的實用性[10];無信息變量消除法(Uninformative variables elimination,UVE)[5-6]和連續投影算法(Successive projection algorithm,SPA)[11-13]能夠降低變量之間的共線性,然而該類方法穩定性較差,提取的波長可能存在干擾變量,影響模型的預測精度[13]。除了這些基于波長點的特征變量選擇算法外,還有基于波長區間的CC法[7,9]、間隔偏最小二乘(Interval partial least square,iPLS)[14]和后向區間間隔偏最小二乘(Backward interval partial least square,BIPLS)[15]等特征選擇算法,這類算法選出的波長為連續分布的波段,具有較好的解釋性[16],但相鄰波長變量之間往往具有較強的共線性特征,存在冗余變量,建模時難以達到最佳結果[17]。上述光譜特征選擇方法主要以一次建模為基礎,數據處理易受樣本個數的影響[18]。針對這個問題,文獻[19-21]提出了基于MPA思想的特征選擇方法,該方法能夠最大限度地利用已有樣本集的信息,在眾多變量中鑒定有信息變量、無信息變量和干擾變量,通過分析變量之間的相互作用選出最優變量組合。基于MPA思想的特征選擇算法彌補了一次性建模分析的缺點,能夠增強模型預測結果的準確性和可解釋性。
波長區間算法和波長點算法在特征選擇中各有優點,波長區間選擇算法是一種粗略選擇特征變量的方法,能夠在去除無信息變量的同時不遺漏關鍵變量,波長點選擇算法能夠精準選擇重要變量,在保留較少變量的同時,取得較好的建模效果[22]。基于此,本文提出聯合CC與MPA的特征變量優選算法。首先使用CC方法進行波長區間的粗略選擇,去除無信息變量確定最優特征波長譜區。然后利用基于MPA思想的CARS法和VCPA法精準選擇對小麥條銹病嚴重度敏感的特征變量,并在此基礎上采用PLSR算法建立小麥條銹病遙感監測模型。最后將該方法與僅利用CC、CARS、VCPA特征選擇結果和建模精度進行對比分析,評價聯合CC與MPA的特征變量優選算法在小麥條銹病遙感監測中的有效性,以期為高光譜數據選取特征變量進行病蟲害遙感監測提供參考。
試驗區位于河北省廊坊市中國農業科學院試驗站(39°30′40″N,116°36′20″E),小麥品種為對條銹病敏感的銘賢169號,平均種植密度為113棵/m2。2018年4月9日采用質量濃度為90 mg/L的孢子溶液對小麥進行條銹病接種。試驗區域小麥分為健康組(編號為A、D)和染病組(編號為B、C),每個試驗組面積為220 m2,分為8個樣方,即健康組和染病組各16個樣方。
1.2.1冠層光譜測量
本次試驗于2018年5月18日測定小麥條銹病不同病情嚴重度下的冠層光譜數據。冠層光譜測量所使用儀器為ASD Field Spec 4型地物光譜儀,其光譜分辨率為3 nm,采樣間隔1.4 nm,采樣波長范圍350~2 500 nm,測量時間為11:00—12:30,測量高度距離地面1.3 m,探頭視場角25°,共設有62個采樣點,每個采樣點觀測10次并對觀測結果取平均作為該采樣點的光譜數據,每次測量前后均用標準BaSO4參考板對冠層輻亮度數據進行校正。
1.2.2病情指數調查
冠層病情指數調查采用5點取樣法,在每個樣方內選取對稱的5點,每點約1 m2,隨機選取30株小麥,分別調查其發病情況。病情嚴重度參照國家標準[23]進行量化。單葉嚴重度分為9個梯度,即0、1%、10%、20%、30%、45%、60%、80%和100%的葉片病斑覆蓋,分別記錄各病情嚴重度的小麥葉片數,計算不同梯度測試群體的病情指數
(1)
式中DI——病情指數,%
i——梯度
x(i)——各梯度級值
t——最高梯度,取9
f(i)——各梯度葉片數
MPA的主要思路是通過隨機采樣對樣本集中的特征變量信息進行采樣并建立子模型,然后利用子模型構建新的樣本空間,通過模型的回歸系數等參數對新的樣本空間進行進一步統計分析,以此獲得有用信息[19]。基于該思想,本文選擇了CARS和VCPA 2種特征選擇算法進行比較。
CARS是一種綜合蒙特卡洛采樣法(Monte Carlo sampling,MCS)和PLSR算法的特征波長變量選擇方法[24]。該方法通過指數衰減函數(Exponentially decreasing function,EDF)和自適應加權重采樣技術(Adaptive reweighted sampling,ARS)選取回歸系數較大的波長和建模時均方根誤差(RMSE)最小的變量組合[25]。VCPA是考慮變量之間相互作用的一種特征波長選擇算法,該方法采用二進制矩陣采樣法(Binary matrix sampling,BMS),每個變量被選中的機會是相等的[26],通過EDF確定保留波長的數量,縮小變量空間,運用PLSR計算剩余變量子集之間所有組合的RMSE并進行排序優選[27]。兩種特征選擇算法流程見圖1。

圖1 基于MPA的特征選擇算法流程圖Fig.1 Flowchart of feature selection algorithms based on MPA
1.4.1光譜數據集的劃分
為了評價所建模型的可靠性和穩定性,本文分別選用隨機劃分(Random sampling,RS)法、Kennard-Stone(KS)法和光譜-理化值共生距離(Sample set partitioning based on joint x-y distance,SPXY)法對62個樣本集按照3∶1的比例劃分訓練集和驗證集。各劃分方法的原理如下:
(1)RS法
RS法是隨機選取一定數量的樣本構成訓練集和驗證集,每個樣本被選中的概率相同,無規律可循,能保證樣本數據集的隨機性[28]。
(2)KS法
KS法是按照樣本光譜空間中的歐氏距離進行樣本劃分的方法。首先選擇歐氏距離最大的2個樣本構建數據集A,然后在剩余樣本中選出與A樣本中歐氏距離最大的樣品加入到建模樣品集,循環進行計算,直至挑選出足夠樣本數量的建模集,此時將剩余樣本作為預測集樣本[29]。該方法優點是能保證訓練庫中樣本按照空間距離分布均勻,缺點是需要進行數據轉換和計算樣本兩兩空間距離,計算量大。
(3)SPXY法
SPXY法是一種同時考慮樣本光譜信息以及生化參量歐氏距離的樣本集選擇方法,所選樣本集更具有代表性[30]。SPXY法與KS法的原理和步驟相似,主要區別是歐氏距離的計算公式不同。
(2)
其中

(3)
dy(a,b)=|ya-yb|
(4)
式中dxy(a,b)——樣本光譜信息與被測指標參量的樣本a和b之間的距離
dx(a,b)——樣本a和樣本b間x變量的歐氏距離
dy(a,b)——樣本a和樣本b間y變量的歐氏距離
xa(j)——樣本a在第j個波長處的光譜信息值
xb(j)——樣本b在第j個波長處的光譜信息值
ya——樣本a的被測指標參量
yb——樣本b的被測指標參量
m——樣本光譜波長總數
n——樣本總數
1.4.2模型構建與評價
在對冠層光譜反射率矩陣與病情指數矩陣進行主成分分解的基礎上利用PLSR算法構建小麥條銹病遙感監測模型。該算法是由多元線性回歸分析、主成分分析和典型相關分析組合而成的算法,能夠在自變量存在嚴重多重相關性的條件下進行有效回歸建模,增加了預測準確性[31]。
選擇DI預測值和實測值之間的決定系數R2、均方根誤差(RMSE)和相對分析誤差(RPD)對模型性能進行評價。對于同一樣本集,R2越大,RMSE越小,RPD越大,說明所建模型的預測能力和穩健性越高。其中,當RPD大于等于2時,表明模型可對樣本進行有效估測;當RPD在1.4~2之間時,表明模型可對樣本進行粗略估測;當RPD小于1.4時,表明模型不能對樣本進行估測[32]。
2.1.1CARS算法優選的特征變量
利用CARS算法優選特征變量過程如圖2所示。由圖2a看出,隨著采樣次數的增加,被選擇的特征變量數逐漸減少,結合圖2b、2c可知,RMSE在采樣次數為309時最小,表示此處冗余信息量最小,之后隨采樣次數的增加開始緩慢增大,這是因為此時光譜數據中的關鍵信息被剔除,模型的性能變差,因此選擇RMSE最小值對應的圖3中22個特征子集作為遙感監測小麥條銹病的最優特征變量。CARS算法篩選出來的特征波長變量分別為767、837、842、907、923、926、940、941、1 271、1 274、1 284、1 295、1 296、1 300、1 301、1 305、1 306、1 317、1 321、1 323、1 338、1 340 nm,占總變量數的2.191%。

圖2 CARS選擇特征變量過程Fig.2 Process of CARS selecting feature variables

圖3 CARS算法優選的特征變量Fig.3 Feature variables selected by CARS algorithm
2.1.2VCPA算法優選的特征變量
采用VCPA算法優選特征變量時,需要設置采樣和迭代次數等參數,各參數初始值設置如表1所示。首先利用BMS對光譜數據進行1 000次采樣得到1 000組變量子集,對這些變量子集建立PLSR模型,從中選出RMSE最小的100組變量子集進行EDF運算,最后建立模型計算保留下來的14個變量之間所有可能組合的RMSE值,其中最小值對應的變量即為最終選擇的最優特征變量組合[33]。采用VCPA優選的對小麥條銹病敏感的特征變量如圖4所示,分別為415、508、513、528、533、647、648、803、1 022、1 288、1 295 nm,共11個特征波長變量,占總變量數的1.099%。

表1 VCPA算法運行參數設置Tab.1 VCPA algorithm operation parameters setting

圖4 VCPA算法優選的特征變量Fig.4 Feature variables selected by VCPA algorithm
2.1.3CARS和VCPA算法比較
為了評價CARS和VCPA 2種算法的穩定性,以運行次數50為例,對比分析了不同波長光譜被選為特征變量的頻次(圖5)。從圖5可以看出,CARS選擇的變量較多,涉及297個波長變量,主要集中在近紅外波段750~1 350 nm,其中在波段1 280~1 320 nm范圍內選擇頻次最高,該波段是冠層葉片結構變化特征反映區[34]。VCPA選擇的變量在全譜區域均有分布,包含的信息更全面,主要分布在400~420 nm葉綠素吸收帶,500~550 nm反映類胡蘿卜素的黃綠光反射區,640~670 nm葉綠素b吸收峰范圍,還有800~870 nm、1 000~1 030 nm和1 270~1 330 nm受葉片含水量影響的近紅外波段,該算法選擇的變量比CARS少,共涉及到177個波長變量,穩定性更好。產生這種現象的原因是2種算法的采樣策略不同,CARS采用的MCS采樣策略隨機選擇變量,傾向于選擇較多的變量,每個變量被選擇的機會是不確定的[35]。而VCPA采用的BMS采樣策略,為每個變量提供相同的采樣概率,通過EDF壓縮變量空間,消除無關變量,采用MPA思想保留了前10%最優的變量子集,重要變量被最終選擇的幾率相對較大,所以最終保留的變量較少[36]。

圖5 不同波長光譜被選為特征變量的頻次Fig.5 Frequency of different wavelength spectra selected as feature variables
CC是反映變量之間線性相關程度的統計指標,數值越高表明該變量對于待測目標屬性越重要。本文利用Pearson相關系數分析法計算小麥條銹病DI與冠層光譜反射率的相關性(圖6)。由圖6可以看出,可見光577~703 nm和近紅外735~962 nm、1 001~1 099 nm波段內的光譜反射率與小麥條銹病嚴重度的相關性分別達到了極顯著正相關和極顯著負相關,這是因為色素吸收決定著可見光波段的光譜反射率,細胞結構決定近紅外波段的光譜反射率。隨著條銹病菌侵染程度的加重,小麥葉片褪綠變黃,葉綠素被大量破壞,葉片細胞尺寸、形態、結構組織均發生變化,水分蒸騰量顯著增加[37]。選擇出與小麥條銹病DI達到極顯著相關的波段區間作為小麥冠層條銹病病情監測模型的輸入變量,共454個波長特征變量,占總變量數的45.355%。

圖6 DI與冠層光譜反射率的相關系數Fig.6 Correlation coefficient between DI and canopy spectral reflectance
在進行小麥條銹病嚴重度模型構建和精度評價時,為了使評價結果更客觀,本文分別采用RS法、KS法和SPXY法將62個樣本集按3∶1的比例進行3次分組,每組中45個數據作為訓練樣本用于模型構建,剩余的17個數據作為驗證樣本用于模型評價。
2.3.1CARS和VCPA模型


表2 不同特征選擇方法PLSR建模精度Tab.2 PLSR modeling accuracy of different feature selection methods



2.3.2CC-CARS和CC-VCPA模型
將基于波長區間粗選的CC方法和基于波長點精選的CARS和VCPA方法聯用,能夠充分利用它們的優勢,精準選擇重要變量,達到更好的建模效果。首先對全波段光譜進行CC優選,去除相關性較小的變量,將基于CC法選擇的變量作為新變量利用CARS和VCPA進一步進行篩選,并利用PLSR算法分別建立了小麥條銹病遙感監測的CC-CARS和CC-VCPA模型,各模型預測DI和實測DI之間的R2、RMSE和RPD如表3所示。

表3 聯合CC的不同特征選擇方法PLSR建模精度Tab.3 PLSR modeling accuracy of different feature selection methods combined with CC

為了更直觀地顯示CC-MPA方法選擇的特征變量在小麥條銹病遙感監測中的有效性,RS、KS和SPXY 3組樣本集中RMSEV和選擇特征變量數(Number of variables,nVAR)從全波段到最優特征變量選擇的變化趨勢如圖7所示。由圖7可以看出,本文所提出的CC-MPA特征選擇方法不斷地將全波段變量空間從CC粗選收縮到最優選擇CC-CARS與CC-VCPA,整體上RMSEV和nVAR都呈現下降的趨勢,在由CC粗選到CC-CARS與CC-VCPA精選的過程中,RMSEV下降的速度變快,nVAR降低到最少,最后獲得一個變量更少且精度更高的特征子集。同時CC-CARS和 CC-VCPA分別與單次CARS和VCPA建模結果相比,nVAR和RMSEV均進一步減少,說明聯合CC與MPA的特征優選方法能夠有效收縮特征變量空間并提高預測結果精度。

圖7 不同方法選擇的特征變量數(nVAR)和RMSEV的變化曲線Fig.7 Variation trend of nVAR and RMSEV selected by different methods
與CC特征選擇方法相比,基于MPA思想的CARS和VCPA算法能夠更加有效地提取對小麥條銹病敏感的特征變量,提高小麥條銹病遙感監測精度和建模效率。這是因為基于MPA思想的特征選擇方法能最大限度地利用已有樣本集信息,更好地分析光譜變量間的組合效應,進而得到最優特征變量[38]。利用CC法提取的特征波段建立模型的預測精度較低,主要原因是CC方法雖然在一定程度上可以剔除包含冗余信息的變量,但仍然存在保留變量多和篩選結果中存在較低信噪比變量等不足,導致模型容易出現過擬合現象[39]。
利用CC-MPA算法優選的特征變量構建的小麥條銹病遙感監測模型精度優于單一的CARS和VCPA算法。這是因為聯合CC與MPA的特征選擇方法能夠綜合波長區間算法和波長點算法的優點,在利用CC算法對全波段進行粗選去除無信息變量的基礎上,進一步利用MPA方法精選重要變量,保留較少變量的同時建立更穩健的模型,取得更好的建模效果。此外,利用CC-VCPA算法選擇的特征變量數最少,構建的模型精度最高,這是因為CARS和VCPA 2種算法的采樣策略不同。CARS算法基于MCS策略隨機選擇變量,每個變量被選擇的概率不同,不能充分評價每個變量的重要性,導致該算法選擇的特征波長較多且相對比較集中,缺失了部分有用信息,多樣性不足[35],進而影響模型的預測準確性。而VCPA算法采用BMS采樣策略,每個變量都有相同的被選擇概率[36],提取的變量在全譜區域均有分布,信息量豐富,提高了特征波長的多樣性,因此模型的精度較CARS算法有了明顯提高。
本研究只選擇基于MPA思想的2種特征選擇算法進行分析,由于不同類型特征選擇算法對變量篩選的原理不同,如果使用更多的特征選擇算法進行試驗,CC-VCPA方法是否仍為遙感探測小麥條銹病的最優特征選擇算法尚需進一步探討。此外,為了充分發揮特征選擇算法之間的互補性,在后續研究中可以將智能優化算法、SPA算法等特征選擇方法與本文方法聯合進行特征變量的三重優選,以進一步探討更優的光譜特征優選方法。
在分析CC-MPA方法提取小麥條銹病遙感監測的敏感因子時,本研究僅利用了原始反射率光譜數據,若增加能夠敏感反映作物光合生理特征的葉綠素熒光數據及反映不同生化組分含量、冠層幾何結構的植被指數特征,是否可以提高模型監測精度有待考證。
本研究的樣本數據主要為小區控制試驗條件下小麥灌漿期測定的近地高光譜數據,小麥品種、生育期以及其它病蟲害等因素對冠層光譜的影響較小,因此該研究結果能否外推到不同光譜分辨率、不同空間分辨率的衛星影像上,還需利用更多的數據進一步分析。
(1)為從全波段光譜數據中優選出對小麥條銹病敏感的特征變量,提高小麥條銹病遙感監測精度,提出了聯合CC與MPA思想的特征變量選擇方法,對比分析CC、CARS、VCPA以及CC-CARS、CC-VCPA幾種特征變量選擇方法對小麥條銹病遙感監測精度的影響。
(2)CARS和VCPA算法均能在減少特征變量的同時提升模型預測效果。CARS和VCPA算法分別選擇了22個和11個對小麥條銹病敏感的光譜特征,極大地減少了特征變量數,提高了模型運行效率。在3組樣本集中,基于CARS和VCPA算法優選特征變量建立的小麥條銹病遙感監測模型的精度較全波段和CC方法均有不同程度的提高。與CARS相比,VCPA算法選擇的變量數更少,模型預測精度更高,表明VCPA算法可以有效選擇對小麥條銹病敏感的特征變量,簡化模型并提高運算效率,增強模型可靠性。
(3)聯合CC與MPA的特征變量選擇方法能夠提高小麥條銹病遙感監測精度。將CC法與基于MPA思想開發的CARS和VCPA算法聯合優選對小麥條銹病敏感的特征變量,并在此基礎上構建的模型精度較單一的CC、CARS和VCPA模型均有不同程度的提高,其中以CC-VCPA模型預測結果最好,3組樣本集中驗證模型預測DI和實測DI間的RPD均大于2,表明CC-MPA是一種有效的特征變量優選算法。研究結果為高光譜特征變量優選及提高作物病害監測精度提供了研究方法和思路,具有重要的參考價值。