趙雋宇,石媛媛,楊瑞青,鄧 昀,程小輝,陳守學,曹繼釗,唐 健
(1.廣西壯族自治區(qū)林業(yè)科學研究院 廣西林用新型肥料研發(fā)中心,廣西南寧 530002;2.廣西華沃特集團股份有限公司,廣西南寧 530025;3.桂林理工大學,廣西桂林 541004)
桉樹(Eucalyptusspp.)是我國南方地區(qū)重要的用材林樹種,可用于生產(chǎn)旋切板、紙漿等,為推動南方地區(qū)經(jīng)濟發(fā)展做出了重要貢獻[1]。因長期采取短輪伐期(5~7 年)、高強度和粗放式的經(jīng)營模式,桉樹人工林地力衰退[2-4];近年來桉樹黃化病頻發(fā),嚴重限制桉樹人工林及其下游產(chǎn)業(yè)的發(fā)展。桉樹黃化病是一種較特殊的生理性病害,表現(xiàn)為發(fā)病后植株失綠,長出黃色葉片,在無處理的情況下通常50~70天自動復綠,但在黃化期間,植株生長停滯,新葉抽出速度異常緩慢,當年生長量減少約20%~40%;在黃化病發(fā)生初期,增施有效態(tài)鐵(Fe)、錳(Mn)肥及噴灑葉面肥可顯著減少黃化病造成的經(jīng)濟損失[5]。受限于森林土壤高度的空間變異性和較高的土壤調(diào)查成本[6-7],通過大規(guī)模土壤調(diào)查、實驗室分析的方式對桉樹黃化病進行預防,成本較高。桉樹黃化病發(fā)生受水、熱條件變化的影響[8],如何在桉樹植株未表現(xiàn)出病害時準確識別黃化病是目前亟待解決的問題。
高光譜(Hyperspectral)是近年來發(fā)展較迅速的一種光學分析技術,已被應用于木材性質(zhì)研究[9-10]和植物生理信息獲取[11-13]等方面。目前,大多數(shù)高光譜儀器的光譜范圍為400~1 000 nm,主要為可見光和部分近紅外波段,也有1 000~1 700 nm 近紅外波段的范圍[14];通過檢測葉片、果實等器官中細胞或果肉組織內(nèi)部結構對光不同程度的反射、散射[15-16],及植物葉片中水分、色素等的吸收作用[17],對植物光譜響應特征進行提取,并進行形式化、定量化表達,不僅可以研究植物病蟲害侵染程度、侵染種類和侵染階段,也有助于進一步研究光譜響應特性與病蟲害間的關系,為深入研究病蟲害光學遙感監(jiān)測提供依據(jù)[18]。與傳統(tǒng)的田間調(diào)查和人工監(jiān)測方式相比,可見-近紅外(Visible and Near-infrared,VNIR)光譜技術通過傳感器獲取電磁波能量和目標地物輻射反射信息,不與目標地物直接接觸,更高效和準確,且允許在整個生長季內(nèi)對植物生長情況進行實時監(jiān)測、分析和評價,有助于制定合理的防治措施[19]。
本研究以桉樹人工林病態(tài)和正常植株為研究對象,采集葉片并測定其光譜數(shù)據(jù),采用基礎圖譜解析和數(shù)學變換方法處理原始光譜數(shù)據(jù),分析不同葉片的光譜特征,同時進行線性判別分析,將黃化葉片、暫未表現(xiàn)出病態(tài)的葉片和正常健康葉片分類,找到與葉片黃化相關的特征光譜波段,對存在潛在黃化風險的葉片進行識別,旨在利用高光譜技術開發(fā)一種高效、快速且低成本的桉樹黃化病篩查方法,為桉樹人工林產(chǎn)業(yè)高產(chǎn)、高效和可持續(xù)經(jīng)營保駕護航。
試驗地位于廣西壯族自治區(qū)國有黃冕林場(109°43′E,24°37′N),屬中亞熱帶氣候,溫熱多雨,雨熱同季,年均氣溫19 ℃,年均降水量1 750 mm,年均蒸發(fā)量1 426 mm;以低山地貌為主,相對高差200~400 m;土壤以砂頁巖發(fā)育的紅壤為主,質(zhì)地為輕壤。
在黃化林區(qū)內(nèi),隨機設立立地條件一致的3 個20×20 m標準地,采用平均木法確定10株活立木,采集黃化葉片(Chlorosis);從每株活立木頂端向下采集10 片新鮮葉片,共計100 片葉片(圖1a)。以相同的方法采集黃化林中受病害影響但未表現(xiàn)出病害的未發(fā)病葉片(Chlorosis-Normal)(圖1b)和同一林班內(nèi)立地條件一致的正常健康葉片(Normal)(圖1c),將正常葉片作為對照組。采集完成后,將樣品放入4 ℃冰盒內(nèi)保存,用于室內(nèi)高光譜信息采集。

圖1 黃化葉片(a)、未發(fā)病葉片(b)和正常葉片(c)Fig.1 Chlorosis(a),Chlorosis-Normal(b)and Normal(c)
采用美國ASD FieldSpec 4 地物反射高光譜儀和手持式葉片夾收集植物葉片的光譜,采集同一株活立木10 片葉片的光譜數(shù)據(jù),取平均值。光譜波段為可見-近紅外波段(350~2 500 nm),分辨率為1 nm,探頭視場角為15°;光源采用儀器配套的50 W鹵素燈,光源入射角為90°。采用儀器控制器扣除空氣背景值后測定葉片光譜數(shù)據(jù)。每種葉片均采集10次光譜數(shù)據(jù),取平均值為最終葉片光譜數(shù)據(jù)。
采用ViewSpec Pro 6.0 軟件對光譜數(shù)據(jù)進行預處理。由于儀器自身性能會造成光譜數(shù)據(jù)噪聲,首先去掉光譜儀器量程兩端(<400 nm、>2 400 nm),同時對原始光譜反射率(R)進行對數(shù)變換(Logarithm,Log),減少噪聲影響;為使不同時間和不同地點條件下測量的光譜曲線具有可比性,對實地光譜測量數(shù)據(jù)進行歸一化處理。計算每條光譜曲線在測量波段范圍內(nèi)的反射率均值;每條光譜曲線的每個波長位置除以反射率均值,得到歸一化數(shù)據(jù)。
偏最小二乘法判別分析(Partial Least Squares Discriminant Analysis,PLS-DA)是一種有監(jiān)督模式識別的多變量統(tǒng)計分析方法,在構造因素時考慮輔助矩陣,并以代碼的形式表示類成員信息。正交偏最小二乘法判別分析(Orthogonal Partial Least Squares Discriminant Analysis,OPLS-DA)是偏最小二乘法判別分析的延伸,通過增加正交驗證,消除不相關變量,降低模型的復雜性,使建立的模型具有更好的擬合度。OPLS-DA 利用響應變量Y中的信息將X分成3 部分;將光譜數(shù)據(jù)與分類變量進行線性回歸的判別步驟為:(1)建立校正集樣本的分類變量(Category Variable);(2)根據(jù)需要區(qū)分的類別數(shù)量將分類變量拆分,以代碼形式表示分類變量;(3)建立代碼列與校正集光譜數(shù)據(jù)的PLS 模型;(4)計算驗證集樣本的PLS 預測Yp和偏差D。Yp>0.5 且D<0.5,判定樣本屬于該類;Yp<0.5 且D<0.5,判定樣本不屬于該類;D≥0.5,該判別模型不穩(wěn)定。
所有數(shù)據(jù)的基礎處理均采用Excel 2010 軟件完成;數(shù)學變換均采用Origin 2018 軟件完成;PLSDA、OPLS-DA 均采用Simca 軟件完成。模型評價指標為擬合度(R2)和均方根誤差(Root Mean Squared Error,RMSE);R2是一個0 到1 之間的值,表示模型預測變量與實際觀察變量的擬合程度,越接近1,模型擬合度越好;RMSE 是衡量模型預測錯誤的指標,反映模型預測變量與實際觀察變量的標準偏差,值越小,模型預測能力越好。
不同葉片光譜反射曲線呈相同趨勢,反射率差異明顯;受病害影響葉片的原始光譜反射率大部分情況下高于正常葉片;對數(shù)變換后的變化規(guī)律與原始光譜反射率呈相反趨勢(圖2)。原始光譜反射率吸收峰主要有5 個,分別在可見光區(qū)域(550 nm)及近紅外1 180、1 288、1 630 和2 200 nm 處;在近紅外波段800~1 260、1 400~1 720 和2 000~2 400 nm,正常葉片的原始光譜反射率明顯低于受病害影響葉片(圖2a)。經(jīng)對數(shù)變換后,黃化葉片、未發(fā)病葉片和正常葉片的光譜反射率差異減小,但峰形更尖銳,差異峰主要出現(xiàn)在640、1 508 和2 000 nm 處,波谷出現(xiàn)在550和2 280 nm處(圖2b)。這些差異可作為識別桉樹葉片黃化的光譜特征波段。

圖2 不同葉片原始光譜反射率(a)與對數(shù)變換(b)Fig.2 Original spectral reflection rates(a)and logarithmic transformation(b)of different leaves
主成分得分圖是通過主成分分析(Principal Component Analysis,PCA)將高維數(shù)據(jù)降維至二維或三維的一種可視化方法[20]。圖中,每個點表示1 個樣本,坐標軸對應主成分,坐標軸的標簽為原始特征的名稱或主成分的編號。主成分得分圖上的散點分布可表征光譜間的相似性。對不同葉片的光譜數(shù)據(jù)進行主成分分析,第一主成分(PC1)和第二主成分(PC2)分別包含42.9%和26.0%的方差信息,可代表原始光譜68.9%以上的主要信息(圖3)。不同葉片的原始光譜有一定差異,未發(fā)生重疊,分布較分散;黃化葉片在1、2 和4 象限均有分布;未發(fā)病葉片在1、2、3 和4 象限均有分布;正常葉片主要分布在2、3 和4 象限;未表現(xiàn)聚類特征。PCA 方法可以很大程度地壓縮數(shù)據(jù)并盡可能保留有效信息,但難以通過光譜數(shù)據(jù)的主成分得分圖對不同葉片進行有效分類。

圖3 不同葉片光譜指標主成分得分圖Fig.3 Principal component score figure of spectral indexes of different leaves
將所有樣品的不同光譜指標(R、Log)作為建模數(shù)據(jù)輸入模型,采用PLS-DA 和OPLS-DA 對不同葉片進行判別分析。PLS-DA 和OPLS-DA 在原始光譜的2 150 個光譜點位數(shù)據(jù)中提取得到的主成分(累計方差大于99.9%)分別為7和4個,將這些主成分作為樣本屬性數(shù)據(jù),并為數(shù)據(jù)集中同種葉片的屬性值設定相同標簽(表1)。從擬合度來看,OPLSDA 的判別效果優(yōu)于PLS-DA。判別分析模型散點圖顯示,圖4c和d的點位分布比圖4a和b更集中,聚類效果更好,未出現(xiàn)不同類型樣品點位重疊的現(xiàn)象。由于OPLS-DA增加了正交驗證,同種葉片光譜數(shù)據(jù)的相似性提高,不同葉片光譜數(shù)據(jù)的差異擴大;相對于PLS-DA 僅處理數(shù)據(jù)相關性和冗余性,OPLS-DA 在桉樹黃化葉片判別上效果更優(yōu)。圖4a和b 顯示,與PLS-DA 相比,Log-PLS-DA 的點位離散程度更小,雖然黃化葉片2、3 號點位與未發(fā)病葉片8號點位重疊,但其他各點位分布更集中,說明對數(shù)變換對于提高樣品差異性有一定效果。

表1 不同葉片判別分析模型Tab.1 Discriminant analysis models for different leaves

圖4 不同葉片光譜指標判別函數(shù)散點圖Fig.4 Scatter plots of discriminant functions for spectral indexes of different leaves
4 種判別分析方法中,最優(yōu)判別模型為Log-OPLS-DA,其R2為0.91,RMSE 為0.203;同種葉片的樣本表現(xiàn)出較強的聚類特征,僅未發(fā)病葉片14號點位與黃化葉片2、3號點位的間距較近(圖4d)。
對最優(yōu)模型Log-OPLS-DA 進行獨立樣本驗證,驗證樣品為黃化葉片,驗證集樣本量為8個,占總樣品個數(shù)的27.6%(圖5)。在Log-OPLS-DA 模型中,主成分累計方差達到98.7%,判別錯誤樣品為2 個(22、23號),22號驗證樣點處于正常葉片區(qū)域,23號樣點處于未分類區(qū)域,正確樣品為6 個(24、25、26、27、28 和29),識別率達到75.0%。同類模型對除草劑危害葉片的識別率為70%以上[21],說明本研究建立的Log-OPLS-DA 判別分析模型能準確識別桉樹葉片黃化情況,具有一定的應用前景。

圖5 獨立樣本驗證集Fig.5 Independent sample validation set
本研究選擇桉樹種植區(qū)域內(nèi)出現(xiàn)黃化病的林分,采集黃化葉片、未發(fā)病葉片和正常葉片在350~2 500 nm 的可見-近紅外光譜數(shù)據(jù),發(fā)現(xiàn)黃化葉片特征識別光譜主要有5 個,分別在可見光區(qū)域(550 nm)及近紅外1 180、1 288、1 630 和2 200 nm處,受病害影響葉片的光譜吸收率明顯降低。不同葉片光譜反射曲線呈相同趨勢,反射率差異明顯,差異較大的波段主要為近紅外波段800~1 260、1 400~1 720和2 000~2 400 nm,在這些波段,受病害影響葉片的原始光譜反射率明顯高于正常葉片;對數(shù)變換能在一定程度上減少光譜數(shù)據(jù)冗余量,突出差異;兩種線性判別分析方法均能識別潛在黃化葉片,Log-OPLS-DA 的判別效果更好,模型R2為0.91,RMSE 為0.203。采用線性判別分析明顯提高不同葉片的聚類程度,OPLS-DA 有更好的聚類效果,能實現(xiàn)桉樹黃化葉片判別,同時對潛在黃化葉片進行預判,具有一定的應用推廣潛力。
在未來的研究中,一方面應擴大樣本量,對病害程度進行分級,有利于識別準確率的提高[22-23];另一方面,應引入基于機器學習算法的非線性模型,如支持向量機(Support Vector Machine,SVM)[24]、隨機森林(Random Forest)[25]等監(jiān)督分類算法進行判別分析,提升模型精度,為桉樹黃化病的預測、預警提供更有力的支撐。
利益沖突:所有作者聲明無利益沖突。
作者貢獻聲明:趙雋宇負責樣品收集與分析、光譜數(shù)據(jù)采集和論文撰寫與修改;石媛媛、唐健負責研究計劃制定;楊瑞青負責樣品處理和數(shù)據(jù)分析;鄧昀、程小輝負責文獻檢索和數(shù)據(jù)分析;陳守學負責研究計劃制定和數(shù)據(jù)分析指導;曹繼釗負責研究計劃制定和統(tǒng)籌實施。