谷曉博 程智楷 周智輝 常 甜 李汶龍 杜婭丹
(西北農林科技大學旱區農業水土工程教育部重點實驗室, 陜西楊凌 712100)
葉面積指數(Leaf area index,LAI)決定了作物對太陽輻射能量的攔截率,與作物生產力及產量密切相關,快速、準確評估作物LAI可為精準農業的建設、管理和調控提供科學依據[1-2]。傳統實地測量LAI的方法具有破壞性,并且缺乏實時性和空間分布準確性[3]。相較于衛星遙感,低空無人機遙感具有較高空間分辨率;同時,操作簡單,成本較低,更加適合農田尺度的作物信息采集[4]。目前無人機搭載的傳感器主要包括可見光[5-6]、多光譜[7-8]、高光譜[9-10]和熱紅外相機[11-12]等。盡管傳感器種類繁多,但相比而言,可見光波段所含與作物相關信息量較少[13]。高光譜影像過多的波段會造成信息冗余,數據量過大對計算機性能要求過高,其高昂的價格也不適用于普通大田作物監測[14]。熱紅外遙感在冠層溫度的提取上仍有很大困難[15]。多光譜影像不僅在可見光基礎上增加了紅邊和近紅外波段,并且操作流程簡單,成本低。
地膜覆蓋技術能增溫保墑,有效提高作物產量和水分利用效率,且成本較低。中國是世界上地膜用量最多、覆蓋面積最大的國家[16],地膜用量從1991年的3×105t大幅增加到2017年的1.47×106t,地膜覆蓋面積已達到1.84×107hm2,之后緩慢回落,2019年仍達到1.38×106t,總覆蓋面積1.76×107hm2,約占農作物總播種面積的10.7%[17],準確監測覆膜冬小麥生長狀況有利于調整施肥策略,發展綠色可持續的精準農業。地膜和土壤背景與冬小麥冠層光譜特性有較大不同[18],覆膜會對無人機遙感監測作物長勢造成干擾,但目前研究主要集中在背景干擾項較少的情況下進行,關于無人機遙感對地膜覆蓋下作物生長狀況監測的研究還鮮有報道。
利用統計學方法,建立實測作物生長參數和遙感植被指數(Vegetation indices,VIs)之間的擬合回歸模型是預測作物LAI的常用手段。近年來隨著計算機領域的發展,許多先進的機器學習算法被用來建立LAI-VIs反演模型,監測作物生長狀況。例如,支持向量機、隨機森林、梯度上升和人工神經網絡等[2,8,11]預測作物LAI的效果良好,相較于傳統統計模型,這些算法能夠深度挖掘作物生長信息和遙感數據之間的聯系,對于機器學習模型而言,輸入特征維度數量會影響模型預測精度和泛化能力[19],但大多研究未考慮植被指數的篩選或采用單一的簡單特征降維方法[20-22]。隨著植被指數種類的不斷增加,如何快速選擇在不同生長環境等多因素干擾下對模型訓練有利的特征變量有待進一步研究。
本研究以無人機多光譜遙感數據為基礎,對出苗期、越冬期、返青期、拔節期、抽穗期和灌漿期覆膜冬小麥LAI進行監測,利用監督分類剔除背景,使用相關系數法、主成分分析、決策樹排序和遺傳算法4種特征降維方法篩選植被指數,得到最優特征子集,并耦合偏最小二乘、嶺回歸、支持向量機、隨機森林、梯度上升和人工神經網絡6種機器學習算法建立覆膜冬小麥LAI反演模型(LAI-VIs),以期為西北地區覆膜冬小麥田間管理提供科學依據和技術支持。
研究區(圖1)位于陜西省楊凌區西北農林科技大學旱區農業水土工程教育部重點實驗室(34°17′38″N,108°04′08″E,海拔521 m)。該區屬于溫帶大陸性氣候,多年平均氣溫12.9℃,年平均降水量602 mm(主要集中于7—9月),蒸發量1 510 mm。研究區內地勢平坦,種植方式以玉米和小麥輪作為主。冬小麥在2021年10月18日播種,2022年6月7日收獲,種植品種為“小偃22”。為增強反演模型在異質性農田上的普適性,本研究在40 m×20 m的壟溝覆膜冬小麥種植區域內,選擇 30個面積均為4 m×4 m的冬小麥樣區進行研究。

圖1 研究區位置和小麥田無人機影像Fig.1 Location of study area and UAV image of wheat field
1.2.1地面實測數據
在冬小麥出苗期(2021年11月23日)、越冬期(2022年1月13日)、返青期(2022年3月6日)、拔節期(2022年3月30日)、抽穗期(2022年4月20日)和灌漿期(2022年5月11日)進行地面采樣。每個樣區選取10株長勢均勻且具有代表性的冬小麥,利用長寬系數法計算單株葉面積,即二者乘積之和乘以折算系數(0.75),最后根據單位面積株數求得該小區冬小麥LAI,計算式為
(1)
式中ρ——單位面積株數,cm-2
m——測定株數
n——第i株冬小麥的總葉片數
Lij、Bij——每片葉片完全展開時的最大葉長和葉寬,cm
1.2.2無人機遙感數據獲取及預處理
使用大疆精靈4多光譜版一體化無人機于每次地面采樣試驗同期獲取冬小麥冠層多光譜影像數據。該無人機配有6個2.9英寸影像傳感器,其中1個彩色傳感器用于常規可見光成像,5個用于多光譜成像的單色傳感器:藍((450±16) nm)、綠((560±16) nm)、紅((650±16) nm)、紅邊((730±16) nm)和近紅外((840±26) nm),單個傳感器有效像素可達到208萬。考慮無人機電池飛行時間和測區面積以及計算機性能因素,設計飛行高度20 m,航向重疊率80%,旁向重疊率80%,多光譜相機鏡頭垂直向下正射作物冠層,數據采集選取晴朗無云或少云無風的天氣,具體飛行時間和氣象信息見表1。為生成準確的作物反射率信息,共設置4個地面控制點位于小麥田四角(圖1),將獲得的無人機影像和控制點的坐標數據導入Pix4Dmapper軟件對遙感圖像進行拼接和控制點的手動配準校正,然后利用ENVI軟件合成5波段圖像,使用兩塊固定反射率校正板(反射率25%、50%)進行輻射定標,得到各波段地物反射率。

表1 無人機飛行時間和氣象信息Tab.1 UAV flight time and weather information
由于地膜和土壤背景與作物冠層光譜特性不同,為防止混合像元對反演精度的影響,使用基于支持向量機的監督分類對遙感影像進行地物分割,通過目視解譯手動劃分地膜、土壤和冬小麥3種地物類型構成訓練集,設置核函數為徑向基函數(Radial basis function,RBF),剔除地膜和土壤背景后得到各小區冬小麥冠層平均反射率。并選擇50種常用的植被指數,考慮到近紅外波段相較于可見光波段蘊含更多的植被生長信息[23],共有可見光大氣阻力指數(Visible atmospheric resistance index,VARI)、歸一化差異綠度植被指數(Normalized difference greenness vegetation index,NDGI)、綠紅植被指數(Green red vegetation index,GRVI)、歸一化綠紅差異指數(Normalized green red difference index,NGBDI)、過綠指數(Excess green,ExG)、可見光差異植被指數(Visible differential vegetation index,VDVI)、過紅指數(Excess red,ExR)共7種可見光植被指數[24-26]和最優植被指數(Optimal vegetation index,VIOPT)、增強型葉綠素植被指數(Transformed chlorophyll absorption in reflectance index,TCARI)、葉綠素吸收比植被指數(Modified chlorophyll absorption in reflectance index,MCARI)、結構不敏感色素指數(Structure insensitive pigment index,SIPI)、增強型歸一化植被指數(Enhanced normalized difference vegetation index,ENDVI)、歸一化綠指數(Normalized green index,NGI)、歸一化紅指數(Normalized red index,NRI)、比值增強植被指數(Ratio enhanced difference vegetation index,REDVI)等43種包含近紅外波段的植被指數[27-32]。
特征降維包括特征提取和特征選擇兩種方式。特征提取是從已有特征中計算出新的特征集合,例如主成分分析法和線性判別方法。特征選擇是指從已有的特征中選擇出多個有效特征,構成最優特征子集,通常分為過濾法(Filter)[33]、嵌入法(Embedded)[34]和包裝法(Wrapper)[35]。為分析各種特征降維方法對模型精度的影響,本研究選擇主成分分析[36]、相關系數法[30]、決策樹排序[37]和遺傳算法[24]4種特征降維方法對植被指數進行篩選。
1.4.1模型構建
選擇5種常見且性能良好的機器學習算法進行建模分析,分別為偏最小二乘法(Partial least squares,PLSR)、嶺回歸(Ridge regression,RR)、支持向量機(Support vector machine,SVM)、隨機森林(Random forest,RF)、梯度上升(Extreme gradient boosting,XGBoost)和人工神經網絡(Artificial neural network,ANN)算法[21-22,27-28,30],以上模型均基于Python 3.6的Scikit-learn機器學習庫構建。
1.4.2精度驗證
為了盡可能避免出現嚴重過擬合現象,在模型訓練過程中采用十折交叉驗證(Cross-validation)的方法訓練模型,并結合網格搜索(Grid search)來獲取模型的重要參數。
采用決定系數(Coefficient of determination,R2)、均方根誤差(Root mean square error,RMSE)和平均絕對誤差(Mean absolute error,MAE)[23]評價模型精度和誤差,R2越接近1,RMSE和MAE越接近0表示預測值和實測值之間的誤差越小,模型反演精度越高。
總體上,覆膜冬小麥LAI均值從出苗期至抽穗期隨著生育期的推移而增大,在抽穗期達到峰值,為5.36,而抽穗-灌漿期冬小麥LAI逐漸降低(圖2,圖中不同小寫字母表示處理間差異顯著(P<0.05))。經方差分析,除出苗期和越冬期外,各生育期冬小麥LAI之間均存在顯著性差異(P<0.05)。覆膜冬小麥LAI數據總體樣本、訓練集和測試集劃分結果如表2所示。共采集180個LAI樣本,為使模型得到充分的學習和訓練,并測試模型精度,參考先前研究[23,38],按照比例8∶2劃分訓練集144個,測試集36個,LAI總體變化范圍為0.20~10.10,數據集LAI變異系數均不小于0.90,說明實測冬小麥LAI變異性較強,能夠為模型精確反演提供數據基礎。

表2 數據集分割結果Tab.2 Data set segmentation results

圖2 覆膜冬小麥不同生育期葉面積指數變化趨勢Fig.2 Trend of leaf area index in winter wheat at different growth stages
基于支持向量機的監督分類剔除地膜和土壤背景后,重新提取作物冠層光譜反射率和未剔除前反射率進行對比。從圖3可以看出,在剔除背景前后,反射率均隨波長增加呈先增后降,最后明顯升高的趨勢,在可見光區域呈現“綠峰紅谷”現象,近紅外波段730 nm和840 nm的冬小麥冠層反射率則明顯高于可見光波段。隨著生育期的推移,從出苗期至拔節期,冬小麥反射率總體呈逐漸降低趨勢,而拔節期至灌漿期,則呈逐漸上升趨勢。

圖3 不同生育期波段反射率曲線Fig.3 Band reflectance curves at different growth stages
對比圖3a、3b發現,剔除背景使冬小麥在出苗期和越冬期冠層反射率降低,尤其是在可見光區域,變化范圍分別從0.09~0.15和0.08~0.14下降至0.06~0.11和0.05~0.09,是因為裸露的土壤和地膜背景對可見光的反射率均比作物冠層反射率高,在剔除地膜和土壤背景后造成冠層光譜反射率下降。越冬期后,剔除背景前后反射率變化范圍和趨勢近似相同,表明在高植被覆蓋度下,地膜和土壤背景對光譜反射率的影響較小。
2.3.1特征降維結果
通過主成分分析從50種植被指數中提取出新的主成分特征,計算得到各主成分方差貢獻率(表3),選取累計方差貢獻率大于80%的主成分作為輸入特征變量,故選擇累計方差貢獻率為88.39%的主成分1、2進行LAI反演。

表3 主成分分析方差貢獻率Tab.3 Principal component analysis variance contribution rate %
計算50種植被指數和LAI的相關系數,繪制相關系數熱圖(圖4)。從圖4可以看出,大多數植被指數與LAI具有正相關性,其中VIOPT與LAI相關性最強,相關系數達到0.68,選擇相關系數不小于0.5的植被指數作為輸入特征變量。GRVI、NGBDI、ExR、VDVI、EXG、TCARI、MCARI、SIPI、ENDVI、NGI、NRI 11種植被指數與LAI相關系數小于0.5,這些多為可見光植被指數,說明可見光波段與冬小麥LAI的相關性不如近紅外波段。

圖4 植被指數與葉面積指數相關系數熱圖Fig.4 Heat map of correlation coefficients between vegetation index and leaf area index
考慮到決策樹采用Bagging的隨機放回取樣方法,模型運行的結果往往不一致,為得到更加具有代表性的結果,設置決策樹模型運行50次,選擇累計重要性大于50%的9個植被指數作為輸入變量,并對特征重要性進行排序(圖5)。從圖5可以看出,特征重要性均值最高的植被指數為SIPI,達7.42%,最低為REDVI,達4.22%,說明各植被指數對于模型重要度的占比較為均勻,并不存在特征重要性占比明顯高于其他變量的植被指數。

圖5 植被指數特征重要性排序Fig.5 Rank of feature importance of vegetation index characteristics
遺傳算法在特征選擇中可以對不同的模型選擇出最優特征子集,其篩選結果如圖6所示。從圖6可以看出,RF、XGBoost和ANN分別選擇7、10、13種植被指數,數量普遍多于PLSR、RR、SVM統計模型。4種機器學習算法均選擇VIOPT指數,結合圖4可知,該指數與LAI相關系數達到0.68,在50種植被指數中與LAI相關性最強,進一步說明VIOPT是LAI反演模型構建的關鍵特征變量。

圖6 不同反演算法結合遺傳算法篩選結果Fig.6 Different inversion algorithms combined with genetic algorithms used to screen results
2.3.2LAI估算模型反演效果


表4 覆膜冬小麥LAI反演精度評價Tab.4 Evaluation of LAI inversion accuracy of winter wheat covered with film
特征降維前,RF在訓練集(R2=0.92,RMSE為0.62,MAE為0.40)和測試集(R2=0.73,RMSE為1.28,MAE為0.81)上得分最高,其次為XGBoost和ANN,在訓練集和測試集上R2均高于0.71,而PLSR、RR、SVM 3種統計方法R2最大值為0.69。PLSR、RR、SVM在訓練集和測試集上偏差分別為5.88%、1.45%和1.52%,RF、XGBoost偏差則高達26.03%和25.00%,表明傳統統計模型穩定性更好,復雜機器學習算法預測能力強,但穩定性較差。
特征降維后,主成分分析和相關系數法優化效果較差,主成分分析后的PLSR和RR在訓練集和測試集上的R2甚至低于0.50,相關系數法篩選后除XGBoost外,其余5種模型偏差均有所增加,穩定性下降。基于決策樹特征重要性排序后的植被指數構建LAI反演模型,發現PLSR、RR和SVM反演精度略有下降,但增強了RF和XGBoost兩種基于樹模型機器學習算法的穩定性,相較于特征降維前偏差降低9.59、20.95個百分點。而遺傳算法+ANN模型訓練集精度R2=0.81,RMSE為1.00,MAE為0.66,測試集精度R2=0.80,RMSE為1.10,MAE為0.69,偏差僅為1.25%,說明其反演精度高且穩定性良好,為覆膜條件下冬小麥LAI最優反演模型。
對比遺傳算法和不同機器學習的耦合反演效果可以看出(圖7),相較于特征降維前,PLSR、RR和SVM 3種統計方法反演效果較差,甚至誤預測出部分負值,訓練集和測試集的反演精度R2均低于0.60,RF、XGBoost和ANN的反演效果得到明顯改善,尤其是XGBoost和ANN模型達到了最佳狀態。對比決策樹排序+RF反演精度,遺傳算法+RF模型訓練集從R2=0.92,RMSE為0.62,MAE為0.40下降至R2=0.70,RMSE為1.24,MAE為0.87,測試集從R2=0.73,RMSE為1.28,MAE為0.81下降至R2=0.61,RMSE為1.53,MAE為0.98,說明決策樹排序更適用于RF這種基于樹模型的機器學習算法。

圖7 遺傳算法篩選后覆膜冬小麥葉面積指數反演效果Fig.7 Inversion effect of leaf area index of winter wheat screened by genetic algorithm
本研究利用無人機多光譜遙感數據反演覆膜冬小麥LAI,在剔除背景后基于4種特征降維方法和6種機器學習算法建立了24個覆膜冬小麥LAI反演模型,分析不同組合的反演精度,發現不同輸入特征變量和算法對反演效果影響較大。
本研究剔除背景前后冬小麥冠層反射率總體呈“高-低-高”現象,從出苗期至拔節期,冬小麥反射率總體呈逐漸降低趨勢,而拔節期至灌漿期呈逐漸上升趨勢。與前人研究對比可發現,在小麥營養生長階段,LAI和葉綠素含量增加,作物光合能力增強,對可見光的吸收能力增強,冠層反射率降低,一般至抽穗期達到最小值[39]。灌漿期冬小麥養分和干物質由營養器官向籽粒轉運,LAI和單位面積葉綠素含量降低,可見光反射率升高[40],且小麥穗粒和麥稈的多重散射會提高近紅外波段反射率[41],但在圖3b剔除背景后灌漿期近紅外波段反射率仍低于出苗期,原因可能為:①抽穗-灌漿期試驗區域楊柳絮較多,部分附著在麥穗或葉片上,影響了小麥群體的反射率。②本研究中無人機獲取數據的飛行高度為20 m,分析無人機影像數據后確定無人機可用于覆膜冬小麥LAI遙感監測;但參考前人研究[28,42]并結合試驗區楊柳絮干擾,可推測20 m不是反演覆膜冬小麥LAI的最佳無人機飛行高度,在后續研究中需針對性設計試驗并尋找最佳的飛行高度,以利于覆膜冬小麥LAI反演。此外,本研究通過監督分類剔除土壤和地膜背景后,出苗-越冬期波段反射率較剔除前下降,主要由于試驗采取壟溝覆膜的種植方式,地膜和土壤背景對光譜反射率的影響主要在生長前期,在越冬期后,冬小麥冠層覆蓋度提高,背景對波段反射率的影響逐漸減小,這也進一步證實了在作物生長前期,采用無人機遙感監測作物生長狀況剔除背景的必要性。
對比特征降維前LAI反演效果可知,主成分分析能提高模型穩定性,但降低了反演精度,原因是主成分分析假設特征變量方差越大則信息量越大,排除方差和信息量小的無關噪聲特征以提升穩定性,但完全不考慮因變量的影響,會導致部分方差較小但對模型反演影響較大的特征被排除,造成模型精度欠佳[36]。相關系數法只能表征兩變量間的線性相關程度,植被指數和LAI之間的關系是復雜非線性的,且部分植被指數間的強相關性(圖4)會造成模型精度降低。決策樹篩選只適用于基于樹模型的RF和XGBoost算法,能有效提高模型泛化能力,對其他機器學習算法無優化作用。遺傳算法作為一種進化算法能有效改善RF、XGBoost和ANN模型反演效果,遺傳算法優化后的ANN模型也成為覆膜條件下冬小麥LAI最優反演模型。此外,4種機器學習算法的遺傳算法篩選結果中都包含VIOPT指數,主要是由于VIOPT指數考慮光照條件、土壤背景和測量平臺振動引起的測量噪聲等多因素對反演效果的干擾[43],能有效克服混合像元對冬小麥冠層反射率的影響,在覆膜冬小麥LAI估算中具有巨大潛力。VIOPT的高頻次出現也表明遺傳算法具有良好的全局搜索能力和穩定性,對于多種機器學習算法均能篩選出對模型構建極為重要的植被指數。
對比6種反演模型的反演效果可知,在特征降維后呈現RF、XGBoost和ANN反演精度更高的現象,這與NARMILAN等[30]的研究結果一致,表明先進的機器學習算法能有效提高遙感反演精度。PLSR、RR和SVM偏差更小,雖然其具有較高的穩定性,但受限于模型預測能力,特征降維不能提高這3種方法的LAI反演精度。此外,不少學者在作物LAI遙感監測的研究中引入了機器學習方法來構建模型[20,28,38],并取得了較好的反演效果,但大多未考慮特征變量的選擇或使用簡單的閾值法篩選植被指數,并對不同的模型均使用同一種方法選擇出的植被指數作為輸入特征。本研究采用特征降維和機器學習的耦合算法是對已有研究的進一步優化,更加提升了無人機多光譜反演作物生長狀況模型的預測能力和精度。
本研究僅使用“小偃22”冬小麥一年的數據,且無不覆膜的冬小麥樣區作為對照,未來應考慮不同品種冬小麥在覆膜條件下LAI的反演效果,并增加不覆膜樣區進一步驗證剔除背景對模型反演的重要性。無人機飛行高度也會影響冠層反射率提取精度,還應設置不同飛行高度,探究覆膜冬小麥LAI遙感反演的無人機最佳飛行高度。
(1)覆膜冬小麥LAI遙感反演中剔除生長前期地膜和土壤背景能使冠層反射率降低,更接近真實值,有利于模型反演精度的提升。
(2)主成分分析和相關系數法無法提高覆膜冬小麥LAI模型的反演效果,決策樹篩選適用于基于樹模型的RF和XGBoost算法,能有效提高模型泛化能力,遺傳算法對XGBoost和ANN優化效果明顯,最優反演模型為遺傳算法優化的ANN,測試集R2為0.80,RMSE為1.10,MAE為0.69,偏差僅有1.25%。