袁自然 葉寅 武際 方凌 陳曉芳 楊欣



摘要:葉綠素是植被光合作用的重要物質,能夠間接反映植被的健康狀況和光合能力。高光譜技術的發展為大面積、快速檢測植被葉綠素含量變化提供了可能。選取150組不同生長期的辣椒葉片作為研究對象,分別采集辣椒葉片的高光譜圖像和葉綠素含量。利用隨機森林特征選擇算法進行數據篩選,結合線性回歸、偏最小二乘回歸、梯度提升回歸樹、隨機森林回歸等4種模型分別構建回歸模型。結果表明:(1)利用隨機森林特征選擇算法篩選后波段建立的模型決定系數(r2)均大于0.8,說明該方法具有較高的穩定性和預測精度;(2)利用隨機森林特征選擇算法篩選的波段結合隨機森林回歸,其驗證集的r2為0.9、均方根誤差(RMSE)為1.87、平均絕對誤差(MAE)為1.43??梢暂^為準確地預測辣椒葉片葉綠素含量,為后期利用高光譜成像技術大面積檢測辣椒的生長狀況提供了理論依據。
關鍵詞:高光譜成像;辣椒葉片;葉綠素含量;隨機森林特征選擇算法;回歸模型
中圖分類號:S127 文獻標志碼: A 文章編號:1002-1302(2021)16-0189-04
葉綠素含量與植被光合作用效率密切相關[1],因此快速、準確地檢測葉片葉綠素含量在生態學、農學上都具有重要價值。傳統檢測植物葉片葉綠素含量的方法須要實地調查或取樣送進實驗室測定,難以做到實時檢測,而利用便攜式葉綠素儀雖然可以做到實時檢測,但需要人工反復測量,人為干擾因素較大,精度無法保證,難以適用于大面積葉綠素含量檢測。而高光譜遙感技術具有光譜波段多且連續的特點,包含著豐富的信息,為快速、大面積檢測植被葉綠素含量的變化提供了可能[2]。
目前,國內外高光譜成像技術已被成功用于植被葉片無損檢測中,Annala等利用卷積神經網絡反演葉片葉綠素含量,結果表明利用高光譜技術可以有效估算植被葉綠素含量[3]。楊婧等通過采集油菜葉片為試驗樣品,計算其反射光譜及反射光譜的一階導數與葉綠素含量的相關性,通過逐步回歸模型挑選敏感波段,并計算光譜指數,結果表明在蕾薹期和幼苗期通過構建BP神經網絡模型能夠更好地對油菜葉片葉綠素含量進行反演[4]。劉燕德等利用遺傳算法(GA)、連續投影算法(SPA)和正適應加權算法(CARS)結合偏最小二乘法(PLSR)分別對贛南臍橙葉片葉綠素、水分和氮素的含量進行定量反演,結果表明高光譜技術可以對贛南臍橙葉綠素、水分和氮素含量進行快速無損定量分析[5]。
隨著辣椒栽培技術的發展,辣椒種植出現規?;?、多樣化、大面積種植趨勢,而這些新趨勢也亟待通過遙感技術進行快速無損檢測其長勢,從而為精準農業提供決策。因此,本研究利用高光譜成像技術研究辣椒葉片葉綠素含量與光譜之間的定量關系,利用隨機森林特征選擇算法進行數據篩選結合線性回歸(linear regression,LR)[6]、偏最小二乘回歸(partial least squares regression,PLSR)[7]、梯度提升回歸樹(gradient boosting regressor tree,GBRT)[8]、隨機森林回歸(random forest regression,RFR)[9]等4種模型分別構建回歸模型,以期找到最佳反演模型,為今后大面積利用高光譜遙感技術檢測田間辣椒葉片葉綠素含量提供參考依據。
1 材料與方法
1.1 試驗材料
研究區位于安徽省蕪湖市鳩江區沈巷鎮雙壩村蕪湖市德弘生態農業有限公司(118°12′E,31°26′N),屬亞熱帶溫潤季風氣候,光照和雨量充足。試驗品種為皖椒177,種植時間為2020年7月20日,采集時間為2020年9月7日。
本研究隨機采集辣椒植株不同葉位共150個辣椒葉片樣本,利用光譜-理化值共生距離(sample set partitioning based on joint x-y distance,SPXY)分類法[10]將總樣本按照2 ∶ 1劃分為建模集和驗證集,即100個樣本用于建模,50個樣本用于驗證。
1.2 葉綠素含量測定
利用日本柯尼卡美能達公司SPAD-502 Plus葉綠素計測定葉綠素含量,獲得的SPAD值可以直接作為表征葉綠素含量的相對值[11]。每張葉片分為6個小區,每個小區3次重復,取其均值作為該葉片葉綠素含量的最終結果。
1.3 高光譜數據采集
測定后的葉片,用超純水清洗,然后用吸濕紙吸去表面水分,用高光譜成像系統(四川雙利合譜科技有限公司,型號:GaiaSorter,圖1)采集數據。
高光譜相機與位移平臺的高度為60 cm,鹵鎢光源距位移平臺的高度為40 cm。高光譜相機配置:22 mm 鍍膜消色差鏡頭,光譜范圍為400~1 000 nm,光譜分辨率為3.5 nm,像素數為1 456×1 936,相對孔徑為8,狹縫長度為14.2 mm。在暗箱中進行試驗,利用公式(1)對采集后的光譜圖像進行圖像校正。
Rref=DNraw-DNdarkDNwhite-DNdark。(1)
式中:Rref為校正后圖像;DNraw為原始圖像;DNwhite為白板圖像;DNdark為黑板校正圖像。
1.4 數據處理和分析
利用ENVI 5.3讀取辣椒葉片高光譜影像,并在圖像中選取6處具有代表性的矩形感興趣區(避開葉脈,圖2)作為樣本的原始光譜,加權平均后的光譜值作為原始光譜數據。去掉383~399、950~1 000 nm邊緣噪聲較大的光譜數據,保留 400~949 nm處的光譜數據(圖3)進行下一步研究。
1.5 隨機森林特征選擇算法
在隨機森林算法中可以很容易測量每個特征對預測結果的相對重要性。特征的有效增加能提高分類精度,但高緯度的特征互相之間可能具有相似性,繼而對模型能力貢獻少,并且影響計算效率[12]?;幔℅ini)系數通常可以作為衡量輸入特征對模型貢獻度大小的評價標準,對樣本中所有特征變量來說,基于Gini系數的變量重要性評分(variable importance measures,VIM)能直觀量化各個特征對模型的貢獻大小,值越高特征重要性越高[13]。將原始光譜作為輸入集,利用隨機森林特征選擇算法進行數據篩選,減少光譜的冗余信息,為后期數據分析提高效率。參數設置:樹的最大深度max_depth=20,隨機種子random_state=100,樹的個數n_estimators=90,最大特征樹max_features=10。
2 結果與分析
2.1 隨機森林特征選擇
從圖4可知,共選擇特征重要性最高的前20個波段,占總體變量的12.57%,分別為697.1、932.1、941.9、693.6、857.4、930.8、543.4、927.1、803.3、550.1、806.9、785.4、704.1、890.1、916、530、533.1、556.8、771.1、536.7 nm,從上述所選波段分布來看,主要集中于可見光波段(390~780 nm),這可能與光合作用的波段主要是可見光波段有關[14]。
2.2 模型構建
將經隨機森林特征選擇算法篩選后的波段作為自變量,SPAD值作為因變量。利用線性回歸(LR)、偏最小二乘回歸(PLSR)、梯度提升回歸樹(GBRT)、隨機森林回歸(RFR)分別構建反演模型,研究中分別利用4種方法建立高光譜辣椒葉片葉綠素含量預測模型,結果(表1)表明,LR模型預測效果相對較差,其驗證集決定系數(r2)為0.83、均方根誤差(RMSE)為2.39、平均絕對誤差(MAE)為1.89;而 RFR模型的反演精度表現最優,其驗證集r2為0.90、RMSE為1.87、MAE為1.43,為大面積田間預測提供了參考依據。
2.3 回歸預測
圖5是4種回歸建模方法估算模型散點圖。從圖5可知,就驗證集樣本方面來看,RFR模型中的實測值和預測值更較為均勻地分布在1 ∶ 1直線的兩側。而LR算法構建的模型擬合精度則相對較差,每個模型的R2都在0.8以上,說明該方法可以有效預測辣椒葉片的葉綠素含量。
3 討論
本研究共選擇特征重要性最高的前20個波段,占總體變量的12.57%,方慧等的研究表明利用紅邊(700 nm左右)、綠峰位置(500~600 nm)的變量構建模型能夠良好地預測葉片葉綠素含量[15],這與本研究選取的特征波段具有一致性,說明該方法可以適用于辣椒葉片高光譜數據降維工作。
葉片葉綠素含量是植物氮素狀況的重要指標。葉片葉綠素含量的變化導致葉片反射率和透射光譜的波段差異。但是,從葉片到冠層光譜的過渡非常復雜。葉綠素濃度的變化和其他因素(例如冠層結構、土壤背景和葉面積指數等)強烈影響冠層光譜反射率,使冠層水平的葉綠素檢測變得復雜而具有挑戰性[16]。高光譜數據提供了大量相鄰的波段葉片反射率,但也存在數據冗余的情況,隨機森林特征選擇算法,可以有效剔除無關冗余信息,減少選取波段,使模型簡單,大大提高效率。
利用隨機森林特征選擇對光譜數據進行遴選,由特征重要性高的波段構成優勢光譜數據集,使用優勢光譜數據集進行訓練、預測。隨機森林特征選擇算法篩選的波段結合隨機森林回歸模型適用于多特征目標的預測,同時減少了無關光譜波段信息的影響,較常規模型具有優勢[9],本研究的結論與之具有一致性。
4 結論
本研究利用高光譜成像技術研究辣椒葉片葉綠素含量與光譜之間的定量關系,利用隨機森林特征選擇算法進行數據篩選,結合4種回歸模型分別
構建回歸模型,并對結果進行比較分析,結果表明:(1)利用隨機森林特征選擇算法篩選后的波段構建的4種回歸模型中,每個模型的r2都在0.8以上,說明該方法篩選后波段構建的模型精確度和可靠性較高,其中隨機森林回歸相對于其他回歸方法,模型精度最高,其驗證集的 r2為0.90、RMSE為1.87、MAE為1.43。說明模型具有較高的穩定性和預測精度,可以滿足實際預測需求,其次利用隨機森林特征選擇算法很大程度上降低了模型的復雜度,從而提高了模型的預測精度和穩定度,達到簡化模型的目的。(2)利用隨機森林特征選擇算法,結合4種回歸模型(LR、PLSR、GBRT、RFR)建立葉綠素含量估算模型,結果表明利用隨機森林特征選擇算法篩選的波段結合隨機森林回歸可以較為穩定地預測辣椒葉片葉綠素含量,為后期大面積檢測辣椒的生長狀況提供了理論依據。(3)選用辣椒葉片為研究對象,但從特征波段的選擇和模型構建來說,對于其他農作物也具有重要的參考性,今后的研究可以嘗試將該方法應用到其他植被葉片中。
參考文獻:
[1]Richardson A D,Duigan S P,Berlyn G P,et al. An evaluation of noninvasive methods to estimate foliar chlorophyll content[J]. New Phytologist,2002,153:185-194.
[2]Wei L F,Yuan Z R,Yu M,et al. Estimation of arsenic content in soil based on laboratory and field reflectance spectroscopy[J]. Sensors,2019,19(18):3904.
[3]Annala L,Honkavaara E,Tuominen S,et al. Chlorophyll concentration retrieval by training convolutional neural network for stochastic model of leaf optical properties(SLOP)inversion[J]. Remote Sensing,2020,12(2):283.
[4]楊 婧,廖桂平,劉 凡,等. 基于高光譜成像技術的油菜葉片葉綠素含量預測[J].中國農業科技導報,2020,22(5):86-96.
[5]劉燕德,姜小剛,周衍華,等. 基于高光譜成像技術對臍橙葉片的葉綠素、水分和氮素定量分析[J].中國農機化學報,2016,37(3):218-224.
[6]朱亞東,何鴻舉,王 魏,等. 高光譜成像技術結合線性回歸算法快速預測雞肉摻假牛肉[J].食品工業科技,2020(4):184-189.
[7]王惠文. 偏最小二乘回歸方法及其應用[M].北京:國防工業出版社,1999:208-210.
[8]沈夏炯,張俊濤,韓道軍. 基于梯度提升回歸樹的短時交通流預測模型[J].計算機科學,2018,45(6):222-227,264.
[9]高 偉,楊可明,李孟倩,等. 鐵礦粉中全鐵含量的SFIM-RFR高光譜預測模型[J].光譜學與光譜分析,2020,40(8):2546-2551.
[10]Galv O H,Araujo M U,José G E,et al. A method for calibration and validation subset partitioning[J]. Talanta,2005,67(4):736-740.
[11]朱新開,盛海君,顧 晶,等. 應用SPAD值預測小麥葉片葉綠素和氮含量的初步研究[J].麥類作物學報,2005,25(2):46-50.
[12]Tian G,Xiao Z,Zhu J J,et al. Mapping spatial distribution of larch plantations from multi-seasonal landsat-8 OLI imagery and multi-scale textures using random forests[J]. Remote Sensing,2015,7(2):1702-1720.
[13]Rodriguez-Galiano V F,Chica-Olmo M,Abarca-Hernandez F,et al. Random forest classification of mediterranean land cover using multi-seasonal imagery and multi-seasonal texture[J]. Remote Sensing of Environment,2012,121:93-107.
[14]楊可明,孫陽陽,王林偉,等. 玉米葉片葉綠素含量的高光譜反演模型探究[J].湖北農業科學,2015,54(11):2744-2748.
[15]方 慧,宋海燕,曹 芳,等. 油菜葉片的光譜特征與葉綠素含量之間的關系研究[J].光譜學與光譜分析,2007,27(9):1731-1734.
[16]Qi H X,Zhu B Y,Kong L X,et al. Hyperspectral inversion model of chlorophyll content in peanut leaves[J]. Applied Sciences,2020,10(7):2259.