王克曉,周 蕊,李 波,歐 毅,黃 祥,虞 豹
(重慶市農業(yè)科學院農業(yè)科技信息研究所,重慶 401329)
【研究意義】葉綠素與植物光合作用能力和生長狀況緊密相關,是植物氮含量重要的指示器[1-2]。在實際研究和應用中,常采用SPAD值來表征植物的葉綠素含量[3]。【前人研究進展】近年來,隨著高光譜遙感技術的發(fā)展,衍生了大量的光譜特征參數,為定量探測作物關鍵農學指標提供了有效途徑[4-5]。基于光譜技術的葉片SPAD值測定方法逐漸成為作物葉綠素含量定量化診斷的有效手段,廣泛應用于玉米、小麥、水稻及油菜等作物的葉綠素含量檢測中[6-7]。Horler等[8]通過研究植被反射光譜與葉綠素含量的關系,提出了光譜“紅邊”參數在植被葉綠素含量估測中的作用。Daughtry等[9]通過研究玉米葉片葉綠素含量與光譜波段、光譜指數的關系,構建玉米葉綠素含量估測模型。Broge等[10]分析不同氮素水平下的小麥冠層光譜數據,提出比值植被指數RVI能夠有效地預測冠層葉綠素的含量。姚付啟等[11]分析了梧桐葉綠素含量水平與10種植被指數的相關關系,認為植被NDVI與葉綠素含量的關系最為密切。在模型預測方面,孫明馨等[12]基于拔節(jié)期冬小麥高光譜與SPAD值關系,選用不同光譜參數特征構建了冬小麥SPAD值的指數、對數等函數回歸模型。趙琨等[13]通過對不同氮素水平下的油菜植株不同葉位葉片的高光譜數據處理,對基于偏最小二乘和最小二乘-支持向量機的SPAD預測模型進行了對比。由明明等[14]基于油菜不同生育期光譜指數構建了葉片SPAD值隨機森林估測模型。崔小濤[15]通過篩選油菜葉片SPAD敏感光譜參數,構建了基于光譜參數的單因素模型、偏最小二乘回歸模型和多元線性逐步回歸遺傳算法優(yōu)化的單隱層BP神經網絡SPAD估測模型。李媛媛等[16]通過分析玉米乳熟期葉片的一階微分光譜、高光譜特征參數與對應葉片SPAD值的相關關系,構建了基于一階微分光譜、高光譜特征參數和BP神經網絡的玉米葉片SPAD估算模型,并將BP神經網絡模型與主成分回歸、偏最小二乘回歸以及傳統回歸模型進行了比較。【本研究切入點】以往諸多研究中大多是基于光譜特征參數及各種植被指數通過統計回歸或者淺層機器學習等方法對作物葉片進行葉綠素含量預測[17],較少涉及有深度學習算法參與的不同估測模型在油菜葉片葉綠素含量SPAD值估測模型中的比較分析。【擬解決的關鍵問題】以現蕾期油菜葉片為研究對象,基于光譜反射特征和光譜參數與SPAD值的相關性進行光譜參數篩選,并構建了偏最小二乘回歸(Partial Least Squares Regression,PLSR)、傳統反向傳播神經網絡(Back Propagation Neural Net,BPNN) 、支持向量回歸(Support Vector Regression,SVR)和深度神經網絡模型(Deep Neural Net,DNN)等不同估測模型,探索不同估測模型在油菜葉片SPAD值估測中的應用效果,為光譜探測油菜葉片葉綠素含量提供參考。
在種植同一品種的同一地塊內隨機均勻選擇60棵生長健康的現蕾期油菜植株,每顆植株上任意選擇1片上層基生長柄葉,共計60片。單個葉片上的SPAD值采集點分別位于避開葉脈的3個隨機部位,取其SPAD均值作為該葉片的最終SPAD值。葉片SPAD值的采集通過FK-YL04型手持式葉綠素儀測定完成,通過其配套工具軟件將其采集結果導出為Excel文件,并通過Excel 2010完成單個葉片不同部位SPAD值的均值化過程,最終形成60個油菜葉片SPAD值的樣本數據集。
葉片高光譜數據的采集與油菜葉片SPAD值測定同步進行。采用美國ASD公司的Field Spec Handheld 2手持地物光譜儀,光譜采集范圍325~1075 nm,波長間隔1 nm。利用其葉片夾及其自帶光源測定采樣部位的高光譜信息,每個葉片上3個采集點位,每個采樣點記錄3條光譜,取均值作為該葉片的最終光譜曲線,并通過Origin 9.0對光譜曲線進行Savitzky-Golay卷積濾波平滑處理。為能較好地保留光譜數據的原始特征,平滑參數設置為窗口點數35的2階多項式。為提高精度,截去容易出現較大噪聲的325~400 nm的藍紫光和1000~1075 nm的短波近紅外波段,留用400~1000 nm的光譜范圍進行研究。
油菜葉片樣本在400~1000 nm反射光譜曲線與SPAD值的Pearson線性相關關系如圖1所示。可見光-紅邊范圍內,葉片SPAD值與光譜曲線在425~495 nm的藍波和665~680 nm的紅波區(qū)域呈現微弱正相關,而在510~650 nm的綠、黃波段和690~735 nm的紅邊波段在0.01顯著性水平下呈顯著負相關性。因此,本研究以上述具有顯著相關性的波段參與定義或計算為基礎確定所采用的光譜參數,主要包括高光譜位置特征、面積特征以及植被指數等3類共計13個光譜參數(見表1)。

表1 光譜參數及其定義或計算公式Table 1 Spectral parameters and definitions or calculation formula

圖1 葉片光譜與SPAD值相關性Fig. 1 Correlation between spectra and SPAD of leaves
現蕾期油菜葉片光譜參數與SPAD值的相關性見圖2。在所選的13個光譜參數中有9個光譜參數在0.01的檢驗水平中呈現顯著相關性。其中,位置特征參數中,Rg與Db、Dr的相關性分別為0.89和0.72,但與Dy的負相關系數為-0.34。面積特征參數中,SDb與SDy呈現的相關性高達-0.98,但與SDr的相關性相對較弱,相關值-0.37。植被指數參數中,CARI與MCARI、CI與NDVI705兩組光譜參數的正相關系數分別高達0.99。在光譜參數與葉綠素SPAD值的相關性方面,SDb和SDy兩個光譜參數對SPAD值的影響表現恰好相反,但考慮到兩者間較強的相關性,因此兩者在模擬現蕾期油菜葉片葉綠素SPAD值時具有可互相替代性。另外,滿足上述可互相替代性的還有CARI與MCARI、CI與NDVI705兩組光譜參數。同時,與葉綠素SPAD值顯著相關的參數還有Db、Dr與Rg,負相關性均在0.5以上。另外,Dy、Rr、SDr和NPCI等4個特征參數與葉片葉綠素SPAD值的顯著不相關間接也說明了葉片在藍波和紅谷波段處的反射率與SPAD值之間的線性弱相關,這與圖1所示內容相一致。基于上述分析,本研究保留Db、Dr、Rg、SDb、CARI和CI等6個光譜參數作為SPAD值估測的特征變量以便后續(xù)估測模型構建應用。

圖2 光譜參數及與SPAD值的相關性Fig. 2 Correlation between spectral parameters and SPAD
在采樣樣本數據中,隨機選取70%作為訓練集,30%作為測試集,基于訓練集構建偏最小二乘回歸(PLSR)、BP神經網絡(BPNN)、支持向量回歸(SVR)和深度神經網絡(DNN)等模型對油菜葉片葉綠素SPAD值進行估測研究,并利用測試數據集對SPAD值反演模型進行精度評定。估測模型評價指標采用能夠反映模型穩(wěn)定性的決定系數R2、反映模型預測能力的均方根誤差RMSE和相對分析誤差RPD等3個指標[18]。其中,RPD為樣本標準差與預測均方根誤差的之比,RPD≥2說明模型具有極好的預測能力;當1.4≤RPD<2時,說明模型效果一般,可對樣本進行粗略估計;RPD<1.4則說明模型效果較差。測試樣本預測性能通過R2和RMSE兩項指標進行檢驗。以上估測模型的構建通過R語言實現,檢驗指標通過Excel 2010計算完成。
PLSR集中了主成分分析、典型相關分析和普通多元線性回歸等方法的優(yōu)點,能夠在嚴重相關的特征變量中有效地篩選出對因變量有較強解釋性的光譜參數變量,同時避免了建模過程中的過擬合問題,具有較好的泛化能力[19]。以上述篩選的6個光譜參數為特征變量,葉片SPAD值為響應變量,基于R語言pls工具包的Jackknife抽樣方法和Leaveone-out交叉驗證法確定回歸模型中最佳主成分因子數,利用widekernelpls算法建立PLSR模型。當主成分因子數ncomp設定為2時,訓練樣本預測均方根誤 差(Root Mean Squared Error of Prediction,RMSEP)達到最小1.8。
PLSR模型訓練樣本擬合結果和測試樣本的預測結果如圖3所示,訓練樣本的R2為0.66,RMSE為1.76,RPD為1.69;測試樣本的R2為0.63,RMSE為1.77。

圖3 葉片SPAD值PLSR模型Fig. 3 PLSR model of leaf SPAD
BP神經網絡是一種按照預測誤差逆向傳播來調整輸入與輸出神經元之間權值的前饋式多層感知機,包括正向預測結果計算和逆向誤差傳回兩個過程。RSNNS是基于德國斯圖加特大學開發(fā)的神經網絡仿真軟件SNNS的R包,包含了多種神經網絡模型函數。本研究中的BP-NN模型主要基于RSNNS工具包構建,學習算法選擇“Std_Backpropagation”,設置的兩個隱層神經元節(jié)點數均為5,激活函數為sigmoid 函數,學習率為0.1,誤差反饋限差為0.2。
基于BPNN的葉片SPAD預測模型訓練樣本的R2為0.73,RMSE為1.58,RPD為1.89;測試樣本的R2為0.70,RMSE為2.02。模型估測效果比PLSR有所提升。
SVR是基于統計學習理論提出的一種新的機器學習方法,具有良好的泛化能力,已廣泛應用于小樣本學習問題[20]。本研究基于R語言e1071工具包構建SVR模型,采用ε-SVR支持向量回歸,ε參數默認為0.1,核函數類型默認為徑向基函數(Radical Basis Function,RBF),利用tune函數進行參數優(yōu)化,采樣方法采用5折交叉驗證,確定訓練樣本最優(yōu)參數為Gamma=0.0001,Cost=88。
SVR模型訓練樣本的R2為0.80,RMSE為1.39,RPD達到2.14;測試樣本的R2為0.69,RMSE為1.57。SVR模型在訓練樣本的穩(wěn)定性和預測能力有較大提高。
H2O是一種開源的,分布式的且可擴展的快速機器學習平臺,能夠支持深度學習(Deep Learning),梯度推進機(Gradient Boosting),隨機森林(Random Forest),廣義線性建模(Generalized Linear Modeling),支持向量機(Support Vector Machine)和自動機器學習(Automatic Machine Learning)等一系列機器學習[21]。其中的深度學習算法框架不同于傳統BP神經網絡神經元節(jié)點權重調節(jié)方法,而是通過基于隨機梯度下降的分布式多線程訓練、精調等過程實現節(jié)點權值調整[22]。本研究主要通過H2O平臺構建了雙隱層深度神經網絡學習模型,激活函數采用默認的“Rectifier”函數,訓練樣本采用5折交叉驗證。為防止訓練過程過擬合,采用提前終止策略,具體深度神經網絡算法參數見表2。

表2 深度神經網絡算法參數Table 2 Parameters applied for deep neural network algorithm
DNN模型訓練樣本擬合結果和測試樣本的預測結果如圖4所示,訓練樣本的R2為0.93,RMSE為0.77,RPD提高到3.92;測試樣本的R2為0.78,RMSE為1.78。上述指標說明DNN模型具有極好的預測能力。

圖4 葉片SPAD值DNN回歸模型Fig. 4 DNN model on rape leaf SPAD
各模型精度對比如表3,可以看出,DNN模型決定系數R2最大為0.93,且RPD最高3.92,說明具有較好的預測能力,其次是SVR模型;而PLSR和BPNN模型R2中等且RPD處于1.4~2.0,可以對樣本進行粗略估計。在測試樣本精度方面,測試樣本R2變化趨勢基本與訓練樣本變化一致,DNN的R2比SVR高。RMSE比SVR略低。上述對比結果表明,在本研究相對較小樣本條件下,支持向量回歸SVR和深度神經網絡DNN在油菜葉片葉綠素SPAD值訓練樣本擬合和測試樣本檢驗等方面都具有相對較好的估測能力,且DNN模型的穩(wěn)定性和估測能力更好。

表3 不同模型精度比較Table 3 Accuracy of models
另外,由表3中對應模型的相應指標對比可知,特征變量優(yōu)化后的PLSR、BPNN和DNN等三種模型建模精度在各個方面均有所提升。其中,PLSR模擬效果提升較大,可能是因為偏最小二乘擬合方法本身就是線性回歸的本質,與基于線性相關的特征優(yōu)化方法有密切關聯,而基于神經網絡的BPNN和DNN模型精度受影響相對較小。SVR模型的精度稍有下降,但整體上仍具有較好的預測能力。
(1)現蕾期油菜葉片SPAD值與原始光譜在425~495 nm的藍波、665~680 nm的紅波區(qū)域呈現微弱正相關,并在508~650 nm的綠、黃波段和688~735 nm的紅邊波段在0.01顯著性水平下呈顯著負相關性,驗證了紅、綠光譜特性以及“紅邊”波段在植被葉綠素含量探測中的有效性,與Horler的相關結論相一致[8]。
(2)特征變量相關性分析表明,SDb與SDy線性負相關性-0.98,CARI與MCARI、CI與NDVI705兩組光譜參數內指標間的線性正相關系數為0.99。同時,SDb與SDy、CARI與MCARI、CI與NDVI705等三組光譜參數與油菜葉片SPAD值均線性顯著相關,說明上述每組參數內的兩個指數在模擬葉片葉綠素SPAD值時可互相替代。同時不同模型估測結果表明,光譜特征優(yōu)化不僅可以減少不必要的變量冗余,還有助于提高估測模型預測精度,與劉寧關于葉綠素檢測光譜變量篩選討論結果一致[23]。
(3)徐逸等在利用HJ-1B衛(wèi)星CCD多光譜波段組合分別構建隨機森林RF、SVR、BPNN和DNN等四種模型反演太湖葉綠素a濃度時,從模型精度、穩(wěn)定性和魯棒性等方面驗證了DNN模型在葉綠素濃度反演中的巨大應用潛力[24]。本研究中的4種模型的建模及樣本測試精度也表明:基于機器學習的估計預測模型比傳統線性回歸具有較高的穩(wěn)定性和預測能力,深度學習算法在油菜葉片葉綠素SPAD值訓練樣本擬合和測試樣本檢驗等方面具有更好的估測能力,與其研究結論相一致。
(4)本研究以現蕾期油菜葉片葉綠素SPAD值為估測對象,利用R2、RMSE和RPD等3個指標檢驗了較少樣本條件下基于篩選的6個光譜參數建立的偏最小二乘線性回歸PLSR、BP神經網絡回歸BPNN、支持向量回歸SVR和深度學習DNN等非線性模型的模擬能力。然而,本研究是通過Pearson線性顯著性相關分析篩選構建模型所需的光譜參數,對于在大量樣本支持下引入更多SPAD值敏感的非線性光譜變量的條件下,上述各種預測模型的相對效果有待進一步分析。
(5)利用葉綠素含量和高光譜反射率的關系,建立基于葉片光譜的SPAD值估算模型是可行的。BP神經網絡能夠較好地解決非線性擬合問題,比PLSR模型具有更好的預測效果,但不如SVR模型,可能與構建神經網絡時設置的訓練參數有關[25]。而在不同的生育階段,因作物葉片光譜與SPAD值的顯著相關性以及構建的高光譜特征參數各不相同,使得不同生育期反演油菜葉片SPAD值的回歸模型各不相同[16]。本研究結果表明,同一生育期不同建模方法對估算模型預測精度的影響也較大,非線性的葉片SPAD值估測模型精度更加可靠,而基于深度學習的DNN模型具有更好的估測能力,但對于其他生育階段的普適性也有待進一步驗證。