吳 彤,李 勇,葛 瑩,劉凌杰,席順忠,任孟杰,袁曉慧,莊翠珍
利用Stacking集成學習估算柑橘葉片氮含量
吳 彤1,李 勇2※,葛 瑩2,劉凌杰1,席順忠2,任孟杰2,袁曉慧3,莊翠珍3
(1. 河海大學水文水資源學院,南京 210098;2. 河海大學地球科學與工程學院,南京 211100;3. 新平褚氏農業有限公司,新平 653407)
準確估算柑橘葉片氮含量對于科學合理的施肥具有重要的指導作用,該研究利用Landsat8 OLI衛星遙感影像和地面采樣實測數據,以K-近鄰(K-Nearest Neighbors,KNN),隨機森林(Random Forest,RF)和自適應增強(Adaptive boosting,Adaboost)模型為基礎,構建Stacking集成學習框架,實現對柑橘葉片氮含量(Leaf Nitrogen Content,LNC)的估算。首先分析不同氮含量下的光譜反射特征,構建植被指數(Vegetation Indices,VIs)并計算其與柑橘LNC的相關系數;接著利用格網搜索、交叉驗證訓練模型,最后將Stacking模型與包括Bagging(Bootstrap Aggregating,Bagging)、人工神經網絡(Artificial Neural Network,ANN)在內的多個經典機器學習模型試驗結果進行對比分析,并生成柑橘果園的氮含量分布圖。結果表明:1)構建的光譜指數與LNC具有較好的相關性,大部分指數相關系數在0.55以上;2)相比KNN、RF、Adaboost等多個單一模型,Stacking模型的估算效果最佳,決定系數達到0.761,均方根誤差為1.366 g/kg,平均絕對百分比誤差為3.494%;同時,Stacking模型的赤池信息準則(Akaike Information Criterion,AIC)值最低,是觀測期內LNC估算的最優模型;3)研究區內LNC值整體上處于30.5~31.5 g/kg左右,接近柑橘種植的理想區間,模型估算與實測值趨于一致。總體上,該研究采用的光譜特征能夠有效表征柑橘冠層葉片氮含量,并證明Stacking集成學習能綜合多個基模型的優點,提高模型的準確性,為利用衛星遙感展開作物參數估算提供新的思路。
衛星;遙感;模型;柑橘;氮;Stacking;植被指數
氮是果樹生長過程中必需的營養元素,對果樹的生理生化過程起著重要的調控作用[1],也影響著果實最終的品質和產量。在實際的農業生產中,氮肥的施用往往依靠人工經驗,缺氮會影響果樹的生長發育,而過量的氮則會導致果實的減產和環境的污染。快速準確地獲取果樹葉片氮含量(Leaf Nitrogen Content,LNC),科學合理地施用氮肥,能有效節約成本。以往獲取LNC的方法主要是化學檢測,這種方法需要到野外實地采樣,還需經過長時間的樣品處理和實驗室分析,其結果雖然準確,但是成本高昂、對果樹具有破壞性,此外還存在時效性差、結果不具代表性等弊端[2]。
隨著光譜探測技術的快速發展,其以無損、便捷等優勢成為了作物生長機理分析和定量化研究的熱點。高光譜可以從生長機理上對作物光譜響應進行分析,但是存在著空間局限性,而且高光譜特征維數多,易產生信息冗余,對數據處理造成困難,而衛星遙感具有大范圍、多時相、周期性觀測等特點,克服了地面點狀信息的空間局限[3],因此被廣泛用于農作物生長的監測研究中。Clevers等[4]采用Sentinel-2/3衛星數據分析了紅邊葉綠素指數和中分辨率成像光譜儀(Medium Resolution Imaging Spectrometer,MERIS)陸地葉綠素指數等植被指數(Vegetation Indices,VIs)和大豆、玉米冠層氮含量之間的關系,證明了紅邊波段對于植物冠層/葉片氮含量估算的重要意義。王凌[5]基于Landsat5 TM和先進可見光與近紅外輻射計-2(Advanced Visible and Near Infrared Radiometer Type 2,ALOS AVNIR-2)從蘋果樹冠層反射率出發,經地形輻射校正削弱了地形影響,結合地面高光譜數據構建并篩選出蘋果葉、花、冠層的氮磷元素的敏感波段,建立了支持向量回歸模型,實現了對盛花期蘋果樹氮磷的診斷。Delloye等[6]將人工神經網絡和Sentinel-2衛星遙感數據結合起來實現了對冬小麥冠層葉綠素和氮含量的估算,并討論了紅邊波段進行生化指標估算的潛力。Chemura等[7]同樣利用Sentinel-2遙感數據對咖啡LNC進行估算,通過建立優化植被指數的隨機森林模型得到了最好的擬合效果,決定系數達到了0.78。曹淑靜[8]基于地面高光譜數據和模擬GF-1號衛星光譜數據,對蘋果樹冠層光譜指數進行了提取和篩選,建立并對比了二次多項式、支持向量回歸等模型對蘋果樹冠層氮含量的反演效果,試驗結果表明該研究區內的氮含量分布在24~32 g/kg的范圍內,且西南和東北部氮含量較高,與實際情況較為一致。Brinkhoff等[9]利用連續四年的WorldView-2衛星影像對水稻不同生長時期的氮吸收率進行了估算,通過研究以NDRE2光譜指數為主的單變量模型和加入了氣候、管理因素的多變量模型的估算精度,最終利用多變量模型對抽穗期水稻氮吸收率進行了有效估算。熊靜玲[10]則對比了Landsat8、Sentinel-2和GF-6衛星影像及其模擬數據對不同生長時期的蘋果樹冠層氮含量的估算精度,結果表明Sentinel-2和GF-6衛星模擬數據的估算精度優于Landsat8,較全面地對比和分析了基于不同衛星遙感數據對蘋果樹冠層氮含量監測的優劣。Fabbri等[11]基于Rapid-Eye衛星影像建立以修正葉綠素吸收反射指數、增強型植被指數為變量的線性回歸模型,實現氮營養指數的估算,進而為農民提供施氮的建議,經田間試驗證明該模型十分可靠。
目前,利用衛星遙感開展作物生化組分研究的對象大都是受控試驗下的大田作物,對于單體較大、冠層結構復雜的果樹(尤其是柑橘樹)的研究較少,而且大都是基于單一模型。集成多個不同類模型的Stacking學習能集成單一模型的效果,具有提高LNC估算精度的潛力,因此本文采用Landsat8 OLI衛星影像,結合已有的光譜指數計算方法得到光譜特征,分析柑橘LNC與衛星光譜特征間的相關性,構建該時期葉片氮含量Stacking估算模型,發揮Stacking綜合多個模型估算結果的優點,實現對柑橘葉片氮含量的準確估算,并生成對應的氮含量空間分布圖,為果園精細化種植和科學管理提供決策支持。
本研究區位于云南省中部的玉溪市(23°19′~24°53′N,101°16′~103°09'E),地勢西北高、東南低,以山地、峽谷、盆地為主,多種地貌交錯分布,屬于亞熱帶氣候,年平均氣溫在20 ℃左右,光照充足。該區內以弱酸性赤紅壤為主,適合柑橘的種植和生長。研究區共分為3個種植區域,如圖1所示。3個種植區平均樹齡在10 a左右,果樹根據地勢變化呈階梯狀規則排列,由農戶按地塊進行管理和種植,平均行、列間距分別為3和2 m,平均冠層直徑為3.1 m,平均樹高為2.8~3.2 m。
1.2.1 地面樣本數據
在充分考慮研究區地理條件和果園種植情況的基礎上,地面采樣點布設的原則是:以農戶種植地塊為基本單元,在研究區內選擇種植水平差異較大,且能反映附近區域種植情況的地塊均勻布設采樣點,并保證每個采樣點落入一個農戶種植地塊內。2017-2019年3個種植區共布設20個采樣點,由于區域2種植面積較大,且為該果園的主產區,所以2020年在該區域增設25個采樣點,整個研究區采樣點共計45個,如圖1所示。
為了獲得果樹生長關鍵時期的LNC,對后續施肥進行指導,試驗選擇2017-2019年的7月中旬進行一次采樣。由于2020年增加了采樣點的數量,采樣時間由當年的7月中旬開始至8月下旬結束,地面采樣情況見表1。

表1 地面采樣與Landsat8 OLI影像信息
采樣時使用RTK-GPS測量系統記錄采樣點及其左右兩棵樹的坐標。柑橘果樹較大,果樹內部的氮含量容易轉移,不同冠層高度、不同葉位的氮含量存在一定的差異,為使得采樣點柑橘葉片氮含量具有代表性,選擇每棵果樹冠層中上部的四個方位及中心位置枝條的倒三、倒四葉位進行葉片采摘,如圖2所示。
每個采樣方位采集20片樹葉,即一棵樹采集100片樹葉,一個采樣點共獲取300片樹葉。采集的葉片裝入干燥的牛皮紙袋并迅速送往實驗室,先用去離子水清洗新鮮葉片,然后將葉片送入烘箱,在105 ℃的條件下殺青30 min,接著在75 ℃條件下將葉片烘干至質量恒定,最后將烘干的葉片研磨成粉,充分混勻后采用凱氏定氮法測定葉片全氮含量。將這300片樹葉的氮含量平均值視作對應采樣點的葉片氮含量,并以此值代表采樣點所在農戶種植地塊的柑橘葉片氮含量水平。
1.2.2 Landsat8 OLI衛星影像
由于果園施肥時間在采樣時間之后,采樣時葉片已處于生長成熟、各項生化組分較為穩定的狀態,因此使用與采樣時間鄰近日期的衛星影像進行周期性觀測并估算葉片氮含量。衛星影像來源于美國地質調查局官網(https://earthexplorer.usgs.gov/),分別于2017-2020年每年下載一景與采樣時間對應的Landsat8 OLI遙感影像,影像信息與地面采樣時間見表1。所有影像數據均已經過幾何精校正、輻射定標和大氣校正。在對衛星遙感影像進行預處理后,利用采樣點GPS位置提取對應像素的光譜反射率,以中心樹和左右兩棵樹提取到的光譜反射率平均值作為該采樣點最終的光譜反射率。
1.2.3 數據預處理
由于2018-2019年局部影像受到云霧遮擋,在提取采樣點光譜反射率時剔除了光譜反射異常值和缺失值。歸一化是機器學習中常常使用的數據預處理方法,對特征進行適當的歸一化對于訓練模型和提高運算效率十分重要[12]。試驗中對所選擇的模型特征進行歸一化處理,將特征范圍統一變換至[0,1]間,歸一化公式如下:
new=(Xmin)/(maxmin) (1)
式中new表示歸一化后的特征值,X表示原始特征,min和max分別表示的是該類特征中的最小值和最大值。
1.3.1 集成學習
Stacking是一種通過元模型(Meta-model)將多個單一模型進行組合的集成策略,這些單一模型稱作基模型(Base-model)。Stacking集成學習能有效提高模型的魯棒性和泛化能力,但基模型性能的好壞影響著Stacking模型的最終效果,因此選擇基模型時應充分考慮學習器的充分性和多樣性[13],即基模型具有良好的學習能力,且各基模型之間相互獨立,以此實現模型間信息的有效互補。
K-近鄰模型(K-Nearest Neighbors,KNN)、自適應增強模型(Adaptive boosting,Adaboost)和隨機森林模型(Random Forest,RF)在回歸問題上具有出色的表現,并且有著較強的非線性擬合能力。KNN有成熟的理論作為支撐,數學原理易于理解,有廣泛的應用;Adaboost能根據弱學習器的性能調整訓練樣本的分布,并對得到錯誤結果的樣本賦予更大的權重,通過不斷學習調整后的樣本,對所有弱學習器進行加權組合得到最終的結果[14];RF不僅繼承了Bagging模型(Bootstrap Aggregating)高度并行的優點,選擇節點進行特征劃分還使得RF能實現高效地訓練[15]。這3種回歸模型滿足了選擇基模型時的充分性和多樣性原則,因此被廣泛使用作為Stacking的基模型[16-19]。本研究使用上述3種模型,結合線性回歸(Linear Regression,LR)構建Stacking模型對柑橘LNC進行估算,模型架構如圖3所示。
Stacking模型的原理就是將基模型在數據集上得到的特征用元模型進一步擬合,實現對基模型特征提取能力的綜合和特征的堆疊。利用Stacking模型進行柑橘LNC估算的步驟為:1)將衛星光譜特征數據集劃分為訓練集和測試集,在訓練集上利用交叉驗證和格網搜索實現對模型的訓練;2)每個基模型訓練后,在測試集上得到對應的估算值;3)將基模型交叉驗證得到的特征輸入到元模型中,并將基模型在測試集上的估算值取平均作為元模型的測試集;4)最后利用輸入的新特征對元模型進行訓練和測試,得到最終柑橘LNC的估算結果。此外,為了證明Stacking集成模型與其他研究中的單一模型相比估算效果更好,試驗還對Bagging模型、多元線性回歸模型(Multiple Linear Regression,MLR)、人工神經網絡(Artificial Neural Network,ANN)和多核支持向量機(Multiple-kernel Support Vector Regression,MK-SVR)[20]進行訓練,其中Adaboost和Bagging模型中所使用的基礎學習器為決策樹。
1.3.2 光譜特征分析與指數構建
植物葉片在營養元素含量變化的影響下,其內部生理代謝過程和生化組分會發生變化,導致葉片內部化學鍵的振動情況隨之改變,最終表現為不同波段上光譜反射率的差異[21]。為了分析Landsat8 OLI衛星遙感數據對柑橘葉片LNC估算的可行性,首先要對不同LNC的光譜特征進行分析。經統計,樣本實測LNC在26.40~37.6 g/kg之間,平均值為31.8 g/kg。由研究區生產經驗可知,最理想的LNC值為30~32 g/kg,因此將樣本按實測LNC值高低排序,并以“2 g/kg”為間隔劃分為6組,計算每組樣本的光譜反射率平均值,不同柑橘LNC與光譜反射率的關系如圖4所示。
由圖4可知,柑橘冠層的光譜反射率與典型植物相似。在可見光區間內(400~760 nm),由于氮能促進葉綠素合成,葉綠素對光譜的吸收導致此波段范圍內光譜反射率隨LNC增加而降低[22]。在近紅外波段(760~1 250 nm),果樹冠層多重反射導致反射率顯著高于其他波段。在1 750和2 250 nm兩個短波紅外處隨著LNC增加反射率逐漸降低,這是由于葉片存在水汽吸收特性,氮含量的增加使得葉片對水汽的吸收能力增強。綜上,在可見光至近紅外波段內(400~1 250 nm),柑橘冠層光譜反射率存在明顯的差異,即LNC越高,光譜反射率越低,表明LNC的差異導致柑橘冠層葉片出現不同的光譜響應,因此可以利用Landsat8 OLI衛星影像光譜數據對柑橘冠層LNC進行估算。表2是對Landsat8衛星波段反射率與柑橘LNC的相關分析結果,由表可知柑橘LNC與原始光譜波段反射率具有較好的相關性。在440、480、560和650 nm處,柑橘LNC與光譜反射率呈顯著相關(<0.01),與劉雪峰等[21]的研究結果相似。Min等[23]采用逐步多元回歸和偏最小二乘回歸發現柑橘葉片氮含量重要波段在448和669 nm左右,證明可以將對應的衛星原始波段作為構建VIs的基礎。

表2 柑橘LNC與Landsat8波段反射率的相關性
注:“*”表示<0.01,下同。
Note: “*” indicates<0.01, same as below.
氮的光譜吸收波段主要集中在短波紅外區,但是新鮮葉片在該區間內存在3個典型的水汽吸收波段(1 450、1 950和2 700 nm),削弱了該區間內氮的吸收特征,基于短波紅外區的氮素特征指數難以構建[24]。氮素與葉綠素的合成密切相關,利用VIs反演得到作物葉綠素的方法也有較為廣泛的應用[25],因此本研究除了將Landsat8遙感影像的7個原始光譜波段作為輸入特征,還選擇了其他在葉綠素反演和氮含量估算中有潛力的VIs作為模型的輸入。
為了篩選出適合輸入模型的特征指數,計算了VIs與柑橘LNC的Pearson相關系數。Pearson相關系數表達式如下:
=Σ(i?)·(i?)/[Σ(i?)2·Σ(i)2]1/2(2)
式中代表計算得到的Pearson相關系數,i和i分別代表各采樣點的第個植被指數值和對應的實測LNC值,g/kg,和分別代表兩者的平均值。取值范圍通常為[?1,1],||>0.5表明兩變量之間具有較強的相關性,因此將||≤0.5的VIs予以剔除。試驗構建的光譜植被指數及與LNC相關分析結果見表3。

表3 研究中構建的光譜植被指數
研究采用Python 3.6中的Scikit-learn庫進行模型的建立和訓練。由于樣本較少,使用隨機抽樣會導致訓練集和測試集數據分布出現較大差異,影響模型估算精度,因此本研究采用系統抽樣將數據集按照7:3劃分為訓練集和測試集,保證數據具有相同分布。試驗采用格網搜索和5折交叉驗證訓練模型,從而確定最優模型參數,緩解由有限樣本帶來的過擬合問題。模型參數格網搜索結果見表4。
試驗分別使用決定系數(Determination coefficient,2),均方根誤差(Root Mean Square Error,RMSE),平均絕對誤差(Mean Absolute Error,MAE)和平均絕對百分比誤差(Mean Absolute Percent Error,MAPE)對各模型的估算結果進行定量分析和評價。
模型復雜度也是用來評價模型性能的重要因素,因此,試驗還選擇赤池信息準則(Akakike Information Criteria,AIC)[26]作為更加綜合、客觀評價模型復雜度和擬合效果的指標。AIC提供了權衡模型復雜度和擬合數據優良性的標準,在特征優選、模型選擇等方面有廣泛的應用[27],其值越小,說明該模型擬合效果更好。AIC表達式如下:
AIC2(1)+ln(SSR/) (3)
式中為模型中的變量個數,為樣本個數,SSR為殘差平方和。

表4 各模型主要參數格網搜索結果
各模型基于訓練集和測試集的柑橘冠層LNC估算結果見表5。

表5 各模型估算結果
注:2為決定系數。RMSE、MAE分別是均方根誤差、平均絕對誤差,g·kg-1。MAPE是平均絕對百分比誤差,%。AIC為赤池信息準則。
Note:2is coefficient of determination. RMSE and MAE are root mean square error, mean absolute error respectively, g·kg-1. MAPE is mean absolute percent error, %. AIC is Akaike Information Criterion.
由表5可知,在訓練集中Adaboost模型2最高,達到了0.999,ANN表現最差,2為0.577。在測試集中,除了MLR和ANN,其余模型2均在0.6以上。Stacking模型在測試集上表現最佳,2達到0.761,RMSE和MAE分別為1.366、1.046 g/kg,MAPE為3.494%,表明該模型泛化能力較強。與單一模型中精度最高的Adaboost相比,Stacking模型測試集2提高0.025, RMSE和MAE分別降低0.07和0.109 g/kg,MAPE降低0.325個百分點。同時,Stacking模型的AIC值在所有模型中最小,為54.976,說明該模型是進行LNC估算的最優模型。各基模型和Stacking模型的實測值與估算值如圖5所示,當實測LNC<32 g/kg時,所有模型的估算值高于或接近實測值,而當實測LNC>32 g/kg時,所有模型都在不同程度上低估了實測值,導致RMSE偏大。各模型在LNC平均值(31.8 g/kg)附近時,模型效果較好。綜合來看,Stacking模型的柑橘LNC估算效果較好,能夠綜合基模型優點,提高模型估算精度,同時其AIC明顯低于各單一模型,說明其能平衡模型復雜度和擬合精度,適合作為本研究觀測時期的LNC最優估算模型。
KNN、RF、Adaboost和Stacking模型估算的柑橘果園氮含量空間分布如圖6所示。由圖6可知,KNN模型得到的LNC值總體偏低,RF和Adaboost模型得到的柑橘LNC空間分布相似。Stacking模型生成的柑橘LNC分布圖顯示,研究區整體LNC值處于30.5~31.5 g/kg左右。區域1內平均樹齡在10 a以上,是果樹生長狀態最為穩定的區域,由于該區域樣本較少,模型估算結果未表現出明顯的分布規律。區域2平均樹齡與區域1接近,是研究區內規模最大的種植區,該區域東部LNC值多處于30.5~31.5 g/kg內。區域3平均樹齡為6~8 a,與區域1、2相比果樹較為低矮,果樹之間間隙較大,影像中包含的土壤背景對模型估算結果造成了影響,其LNC值幾乎無差異。總體而言,Stacking模型得到LNC估算值與實測值基本相符,且處于較理想的LNC值區間內。
從研究區實際情況來看,受到果樹種植模式、冠層結構和生長階段等因素的綜合影響,采樣點光譜反射率是樹冠信息的綜合反映,而土壤背景作為主要的噪聲混雜在像元中,對采樣點的光譜信息造成了干擾。土壤背景光譜反射率取決于表面粗糙度、含水率、有機質含量等特性,隨著果樹的生長,土壤背景也具有動態的光譜特征[28]。為了將土壤背景的影響降至最小,人們提出了土壤線的概念并廣泛應用于遙感數據的解釋中[29],即根據與土壤線的距離或角度盡可能避免土壤背景對樹冠光譜反射率的影響。基于這一概念,大量用于克服土壤背景影響的VIs被提出,如EVI、EVI2、SAVI、OSAVI、TSAVI等,并在多個利用衛星遙感影像對作物生化參數進行估算的研究中使用[30-33]。同樣地,試驗中選擇了這些VIs作為模型的輸入以充分地反映柑橘樹冠葉片的光譜特征,分析結果證明使用的光譜特征與LNC有較好的相關性,所以VIs作為構建估算模型的重要特征,需要具有一定的削弱土壤背景影響的能力。由于冠層結構造成的多重散射在近紅外區域尤為明顯,作為能夠區分植物不同氮水平的特征波段,試驗采用的VIs也大都是基于近紅外波段計算的。此外,研究表明“光譜特征+紋理特征”對作物生化指標進行估算能獲得更高的精度[34-35],而本研究僅利用光譜指數構建柑橘LNC估算模型,未能全面地提取柑橘果樹的特征信息,因此后續將嘗試綜合多種特征構建估算模型。
很多研究證明集成模型在許多應用中的表現優于單一模型[14,16,36],試驗結果也證明,與單一回歸模型相比,Stacking能提高對柑橘LNC的估算精度。由試驗結果發現Adaboost模型和多元線性回歸模型存在較嚴重的過擬合,造成這一結果的原因有:樣本數量的限制和模型參數的選擇不充分。從樣本數量來看,只針對果樹單個生長時期進行觀測和采樣難以實現數據集的擴充;從模型參數的選擇方法來看,格網搜索有所局限,導致模型陷入局部最優。試驗中Stacking模型采用五折交叉驗證進行訓練,緩解了過擬合現象,在保證模型具有較強擬合能力的同時,提升了估算精度,增強了模型泛化能力。
柑橘產業是中國農業經濟的重要組成部分,果樹種植和生產迫切需要對柑橘氮肥的施用開展科學合理的定量化研究。本研究基于Landsat8 OLI遙感影像構建了以K-近鄰(K-Nearest Neighbors,KNN),隨機森林(Random Forest,RF)和自適應增強(Adaptive boosting,Adaboost)為基礎的Stacking集成模型,實現了對柑橘葉片氮含量的準確估算,并得到了對應的氮含量分布圖。研究結果表明:
1)受氮含量變化的影響,柑橘冠層葉片的光譜響應存在明顯的差異,經光譜特征分析構建的光譜指數與葉片氮含量(Leaf Nitrogen Content,LNC)有良好的相關性,相關系數大都在0.55以上,藍-綠波段歸一化差值植被指數(Green-Blue Normalized Difference Vegetation Index,GBNDVI)和結構增強植被指數(Structure Intensive Pigment Index,SIPI)與氮含量相關性較強,相關系數分別為0.678和0.640;
2)相比于KNN、RF和Adaboost模型,Stacking模型能提高對柑橘LNC的估算精度,同時,Stacking模型的赤池信息準則(Akakike Information Criteria,AIC)值明顯低于其他模型,是本研究觀測期內估算LNC的優選模型。
3)估算的LNC空間分布圖顯示,研究區內LNC大都處于30.5~31.5 g/kg,與實際情況相符,估算結果可靠。
此外,加入影像紋理信息,增加對果樹其他生長時期的觀測是將要進一步開展的工作。總的來說,本研究證明了基于Landsat8 OLI遙感影像利用Stacking模型對柑橘葉片進行LNC估算的可行性和有效性,能夠無損、快速獲取大尺度的柑橘果園氮含量分布情況,為利用衛星遙感開展作物參數估算提供了新的思路。
[1] 黃成能,盧曉鵬,李靜,等. 柑橘氮素營養生理研究進展[J]. 湖南農業科學,2013 (15):76-79.
Huang Chengneng, Lu Xiaopeng, Li Jing, et al. Advances in nitrogen physiology of citrus[J]. Hunan Agricultural Sciences, 2013 (15): 76-79. (in Chinese with English abstract)
[2] 范玲玲. 基于多源遙感數據的夏玉米冠層氮素遙感監測研究[D]. 合肥:安徽大學,2020.
Fan Lingling.Monitoring of Nitrogen on Summer Corn Canopy Based on Multi-Source Remote Sensing Data[D]. Hefei: Anhui University, 2020. (in Chinese with English abstract)
[3] 譚昌偉,王紀華,趙春江,等. 利用Landsat TM遙感數據監測冬小麥開花期主要長勢參數[J]. 農業工程學報,2011,27(5):224-230.
Tan Changwei, Wang Jihua, Zhao Chunjiang, et al. Monitoring wheat main growth parameters at anthesis stage by Landsat TM[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(5): 224-230. (in Chinese with English abstract)
[4] Clevers J, Gitelson A. Remote estimation of crop and grass chlorophyll and nitrogen content using red-edge bands on Sentinel-2 and -3[J]. International Journal of Applied Earth Observations and Geoinformation, 2013, 23:344-351.
[5] 王凌. 蘋果樹花期葉/冠N、P營養狀況的衛星遙感反演研究[D]. 泰安:山東農業大學,2012.
Wang Ling. Satellite Remote Sensing Retrieval of Nitrogen and Phosphorus Nutritional Status in Apple Tree Leaves/Canopies at Blossom Stage[D]. Tai'an: Shandong Agricultural University, 2012. (in Chinese with English abstract)
[6] Delloye C, Weiss M, Defourny P. Retrieval of the canopy chlorophyll content from Sentinel-2 spectral bands to estimate nitrogen uptake in intensive winter wheat cropping systems[J]. Remote Sensing of Environment, 2018, 216:245-261.
[7] Chemura A, Mutanga O, Odindi J, et al. Mapping spatial variability of foliar nitrogen in coffee (L.) plantations with multispectral Sentinel-2 MSI data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 138: 1-11.
[8] 曹淑靜. 基于GF-1衛星影像的蘋果樹冠層氮素含量反演[D]. 泰安:山東農業大學,2019.
Cao Shujing. Inversion of Nitrogen Content in Apple Trees Canopy Based on GF-1 Satellite Image[D]. Tai’an: Shandong Agricultural University, 2019. (in Chinese with English abstract)
[9] Brinkhoff J, Dunn B W, Robson A J, et al. Modeling mid-season rice nitrogen uptake using multispectral satellite data[J]. Remote Sensing, 2019, 11(15): 1837.
[10] 熊靜玲. 基于不同多光譜衛星遙感模擬數據的蘋果樹冠層氮素含量估測[D]. 泰安:山東農業大學,2020.
Xiong Jingling. Estimation of Apple Tree Canopy Nitrogen Content Based on Different Multispectral Satellite Remote Sensing Simulative Data[D]. Tai'an: Shandong Agricultural University, 2020. (in Chinese with English abstract)
[11] Fabbri C, Mancini M, Marta A D, et al. Integrating satellite data with a nitrogen nutrition curve for precision top-dress fertilization of durum wheat[J]. European Journal of Agronomy, 2020, 120: 126148.
[12] Sola J, Sevilla J. Importance of input data normalization for the application of neural networks to complex industrial problems[J]. IEEE Transactions on Nuclear Science, 1997, 44(3): 1464-1468.
[13] Feng L, Zhang Z, Ma Y, et al. Alfalfa yield prediction using UAV-based hyperspectral imagery and ensemble learning[J]. Remote Sensing, 2020, 12(12): 2028.
[14] Hu Z, Qiu H, Su Z, et al. A Stacking ensemble model to predict daily number of hospital admissions for cardiovascular diseases[J]. IEEE Access, 2020, 8: 138719-138729.
[15] Wu T, Zhang W, Jiao X, et al. Evaluation of stacking and blending ensemble learning methods for estimating daily reference evapotranspiration[J]. Computers and Electronics in Agriculture, 2021, 184: 106039.
[16] Jia W, Cheng J, Hu H. A cluster-stacking-based approach to forecasting seasonal chlorophyll-a concentration in coastal waters[J]. IEEE Access, 2020, 8: 99934-99947.
[17] Sun W, Li Z. Hourly PM2.5 concentration forecasting based on feature extraction and stacking-driven ensemble model for the winter of the Beijing-Tianjin-Hebei area[J]. Atmospheric Pollution Research, 2020, 11(6): 110-121.
[18] Dhanya R, Paul I, Akula S, et al. F-test feature selection in Stacking ensemble model for breast cancer prediction[J]. Procedia Computer Science, 2020, 171: 1561-1570.
[19] Tajik S, Ayoubi S, Zeraatpisheh M. Digital mapping of soil organic carbon using ensemble learning model in Mollisols of Hyrcanian forests, northern Iran[J]. Geoderma Regional, 2020, 20: e00256.
[20] Wang L, Zhou X, Zhu X, et al. Estimation of leaf nitrogen concentration in wheat using the MK-SVR algorithm and satellite remote sensing data[J]. Computers and Electronics in Agriculture, 2017, 140: 327-337.
[21] 劉雪峰,呂強,何紹蘭,等. 柑橘植株冠層氮素和光合色素含量近地遙感估測[J]. 遙感學報,2015,19(6):1007-1018.
Liu Xuefeng, Lv Qiang, He Shaolan, et al. Estimation of nitrogen and pigments content in citrus canopy by low-altitude remote sensing[J]. Journal of Remote Sensing, 2015, 19(6): 1007-1018. (in Chinese with English abstract)
[22] Walshe D, Mcinerney D, Kerchove R,et al. Detecting nutrient deficiency in spruce forests using multispectral satellite imagery[J]. International Journal of Applied Earth Observations and Geoinformation, 2020, 86: 101975.
[23] Min M, Lee S. Determination of significant wavelengths and prediction of nitrogen content for citrus[J]. Transactions of the American Society of Agricultural Engineers (Transactions of the ASAE), 2005, 48(2): 455-461.
[24] 楊貴軍. 作物氮素定量遙感與應用[M]. 北京:科學出版社,2019:50-64.
[25] 姜海玲,楊杭,陳小平,等. 利用光譜指數反演植被葉綠素含量的精度及穩定性研究[J]. 光譜學與光譜分析,2015,35(4):975-981.
Jiang Hailing, Yang Hang, Chen Xiaoping, et al. Research on accuracy and stability of inversing vegetation chlorophyll content by spectral index method[J]. Spectroscopy and Spectral Analysis, 2015, 35(4): 975-981. (in Chinese with English abstract)
[26] Akaike H. Information theory and an extension of the maximum likelihood principle[M]//Selected Papers of Hirotugu Akaike. Springer: 1998.
[27] 楊福芹,戴華陽,馮海寬,等. 基于赤池信息準則的冬小麥植株氮含量高光譜估算[J]. 農業工程學報,2016,32(23):161-167.
Yang Fuqin, Dai Huayang, Feng Haikaun, et al. Hyperspectral estimation of plant nitrogen content based on Akaike’s information criterion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 32(23): 161-167. (in Chinese with English abstract)
[28] Prudnikova E, Savin I, Vindeker G, et al. Influence of soil background on spectral reflectance of winter wheat crop canopy[J]. Remote Sensing, 2019, 11(16): 1932.
[29] Baret F, Jacquemoud S, Hanocq J F. Aboust the soil line concept in remote sensing[J]. Advances in Space Research, 1993, 13(5): 281-284.
[30] Liu J, Pattey E, Jégo G. Assessment of vegetation indices for regional crop green LAI estimation from Landsat images over multiple growing seasons[J]. Remote Sensing of Environment, 2012, 123: 347-358.
[31] 賈玉秋,李冰,程永政,等. 基于GF-1與Landsat-8多光譜遙感影像的玉米LAI反演比較[J]. 農業工程學報,2015,31(9):173-179.
Jia Yuqiu, Li Bing, Cheng Yongzheng, et al. Comparison between GF-1 images and Landsat-8 images in monitoring maize LAI[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(9): 173-179. (in Chinese with English abstract)
[32] 王來剛. 基于多源遙感信息融合的小麥生長監測研究[D]. 南京:南京農業大學,2012.
Wang Laigang. Study on Growth Monitoring Based on Fusing Multi-source Remote Sensing Information in Wheat[D]. Nanjing: Nanjing Agricultural University, 2012. (in Chinese with English abstract)
[33] Bao Y, Liu L, Wang J. Estimating biophysical and biochemical parameters and yield of winter wheat based on Landsat TM images[C]//2008 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2008). Boston, Massachusetts, U.S.A: IEEE Computer Society, 2008.
[34] 孟沌超,趙靜,蘭玉彬,等. 基于無人機可見光影像的玉米冠層SPAD反演模型研究[J]. 農業機械學報,2020,51(S2):366-374.
Meng Dunchao, Zhao Jing, Lan Yubin, et al. SPAD inversion model of corn canopy based on UAV visible light image[J]. Transactions of the Chinese Society for Agricultural Machinery (Transactions of the CSAM), 2020, 51(S2): 366-374. (in Chinese with English abstract)
[35] 陳鵬,馮海寬,李長春,等. 無人機影像光譜和紋理融合信息估算馬鈴薯葉片葉綠素含量[J]. 農業工程學報,2019,35(11):63-74.
Chen Peng, Feng Haikuan, Li Changchun, et al. Estimation of chlorophyll content in potato using fusion of texture and spectral features derived from UAV multispectral image[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(11): 63-74. (in Chinese with English abstract)
[36] 陳志君,朱振闖,孫仕軍,等. Stacking集成模型模擬膜下滴灌玉米逐日蒸散量和作物系數[J]. 農業工程學報, 2021,37(5):95-104.
Chen Zhijun, Zhu Zhenchuang, Sun Shijun, et al. Estimation of daily evapotranspiration and crop coefficient of maize under mulched drip irrigation by Stacking ensemble learning model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 95-104. (in Chinese with English abstract)
Estimation of nitrogen contents in citrus leaves using Stacking ensemble learning
Wu Tong1, Li Yong2※, Ge Ying2, Liu Lingjie1, Xi Shunzhong2, Ren Mengjie2, Yuan Xiaohui3, Zhuang Cuizhen3
(1.210098,; 2.,211100,; 3..,,653407,)
Leaf Nitrogen Content (LNC) is an important indicator to evaluate the quality and yield of fruits, where nitrogen is an essential nutrient element for the growth of citrus. Satellite remote sensing has been widely used to rapidly and nondestructively capture nitrogen content data for the cultivation and production of citrus in recent years. In this study, a two-layer stacking ensemble learning framework was constructed using Landsat8 OLI satellite remote sensing images and ground sample data, thereby accurately estimating the nitrogen content of citrus leaves in critical growth periods. K-Nearest Neighbor (KNN), Random Forest (RF), and Adoptive boosting (Adaboost) were utilized as base models, whereas, Linear Regression (LR) was employed as the meta-model. The LNC values were sorted from high to low and then divided into 6 groups at equal intervals. A systematic analysis was also made to compare the spectral characteristics under different LNC. There were significant differences in the spectral reflectance in the visible light range (400-760 nm) and near-infrared band (760-1 250 nm), due mainly to the absorption of chlorophyll and the multiple reflections of the canopy. The trees with higher LNC commonly presented lower spectral reflectance. The correlation coefficient between vegetation indices (VIs) and LNC was calculated to optimize the spectral features. Grid search and 5-fold cross validation were utilized to train the model, where the LNC distribution map was generated for the study area. The results showed that the Stacking presented the best performance in the testing dataset, with coefficient of determination (2) of 0.761, Mean Absolute Error (MAE) of 1.046 g/kg, Root Mean Squared Error (RMSE) of 1.366 g/kg and Mean Absolute Percent Error (MAPE) of 3.494%.. Compared with Adaboost, the best performance was achieved using individual models, where the2increased by 0.025, whereas RMSE, MAE, and MAPE decreased by 0.07, 0.109 g/kg and 0.325 percentage point, respectively. It revealed that the Stacking was fully integrated into the base models for a higher estimation accuracy. However, there was an obviously underestimated phenomenon in the measured value from each model, particularly in the LNC estimated values of >32 g/kg. Meanwhile, by comparing the Akaike Information Criterion (AIC) of each model, the AIC value of Stacking was significantly lower than other individual model, indicating that Stacking was the best LNC estimation model in the observation period of this study. In addition, soil background and model performance were discussed. The spectral information was interfered by soil background. Based on the concept of soil line, many researchers proposed some VIs to reduce the influence, which were also adopted. In this study, only spectral features were used to build the model, which limited the capability of the model. It would be considered to increase the observation periods and add texture features to construct a more comprehensive estimation model. In summary, Stacking could accurately and effectively estimate citrus LNC, providing the potential to estimate the nitrogen content in citrus leaves using satellite remote sensing.
satellite;remote sensing; models; citrus; nitrogen; stacking; vegetation index
吳彤,李勇,葛瑩,等. 利用Stacking集成學習估算柑橘葉片氮含量[J]. 農業工程學報,2021,37(13):163-171.
10.11975/j.issn.1002-6819.2021.13.019 http://www.tcsae.org
Wu Tong, Li Yong, Ge Ying, et al. Estimation of nitrogen contents in citrus leaves using Stacking ensemble learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(13): 163-171. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.13.019 http://www.tcsae.org
2021-01-22
2021-06-07
“十三五”國家重點研發計劃項目(2016YFA0601504);國家自然科學基金(41977394);云南省重大科技專項計劃項目資助(202002AE090010)
吳彤,研究方向為農作物品質遙感監測。Email:wutonghhu@hhu.edu.cn
李勇,副教授,研究方向為農業時空數據智能處理與分析。Email:liyong@hhu.edu.cn
10.11975/j.issn.1002-6819.2021.13.019
S127
A
1002-6819(2021)-13-0163-09