劉 潭 許童羽 于豐華 袁青云 郭忠輝 王永剛
(1.沈陽農業大學信息與電氣工程學院,沈陽110866;2.遼寧省農業信息化工程技術研究中心,沈陽110866)
水稻是我國主要糧食作物之一,水稻葉綠素含量是衡量其長勢的重要指標,實現水稻葉綠素含量的精準估測對其長勢監測、施肥施藥調控及田間的精準管理具有重要意義。近年來,高光譜遙感技術為實現作物葉綠素等含量監測提供了一種有效的手段[1-2]。
目前,基于高光譜信息估測水稻等作物葉綠素含量的方法主要包括兩類:一類是利用光譜波段組合生成的各種光譜指數,如比值指數(RVI)、三角植被指數(TVI)、土壤調整植被指數(SAVI)、綠波段歸一化植被指數等[3],這些指數與葉綠素含量之間有較好的相關性。另一類是利用光譜特征變量,如利用歸一化光譜的反射峰與吸收谷等特征變量,或利用基于導數光譜的特征變量來度量葉綠素的變化。
在水稻等作物葉綠素含量反演建模方面,已有模型大多基于自變量與因變量之間為線性關系的假設[4],如一元線性、多元線性模型等。數據的線性特征可以通過數學轉換來實現,但是那些具有復雜非線性特征的數據卻難以通過數學轉換來實現。因此,基于機器學習的非線性建模方法逐漸被應用到估測葉綠素含量上。
文獻[5 -8]中模型均屬于數據模型,此類模型通常結構簡單、分析方便。數據模型通常是在特定的空間和時間下確定的,且隨著觀測集合信息等變化而變化,限制了其應用范圍。為了提高模型的普適性[9],一些學者致力于機理模型的研究。如LI等[10-11]結合農學知識,將PROSAIL 模型應用于作物監測中,證明其在預測葉綠素含量等參數上的優勢。SUN 等[12]利用PROSPECT 模型反演估測作物葉片葉綠素狀況。楊曦光等[13]和董晶晶等[14]利用輻射傳輸模型模擬植被冠層光譜反射率,通過分析模擬數據的葉綠素含量以及冠層光譜之間的關系,構建了估測植被葉片及冠層水平葉綠素含量的光譜指數模型。這些研究表明,機理模型物理意義明確,且反演過程較為穩定,適應性較好。由于作物葉綠素含量與其影響因素之間的關系復雜,相應的參數和變量較多,且地表環境系統包含眾多不確定性因素,故機理建模只能在一定假設和簡化下進行,導致不可避免地存在模型偏差[15]。
目前,針對整個生育期內動態監測水稻長勢的研究較少,現有方法估測葉綠素含量通常基于某一特定生育期,不能覆蓋整個或多個水稻生育期[16]。水稻長勢直接影響水稻產量,因此,選擇合適的建模方法,建立多個生育期內的水稻葉綠素含量估測模型,實時監測水稻長勢,對農業生產及決策具有重要指導意義。
綜合以上數據模型和機理模型的優點,在關鍵生育期內,將數據模型和機理模型相結合,本文提出一種水稻葉綠素含量估測的混合建模方法。利用PROSAIL 輻射傳輸模型模擬冠層光譜,建立查找表,初步反演水稻葉綠素含量,并采用LSSVM 方法建立數據補償模型,彌補PROSAIL 機理建模存在的偏差,為利用高光譜信息估測水稻葉綠素含量提供新的研究思路和方法。
試驗于2017 年5—10 月在遼寧省沈陽市沈陽農業大學道南試驗田(41°49'N,123°33'E,平均海拔65 m)開展。該地區屬于北溫帶半濕潤大陸性氣候,四季分明,降水集中,日照充足。試驗地區年平均氣溫6.2 ~9.7℃,雨水主要集中在7、8 月,全年降水量為600 ~800 mm,糧食作物以東北粳稻為主。供試品種為沈稻47,進行小區栽培試驗,種植18 個小區,單個試驗小區面積為40 m2(5 m×8 m)。水稻插秧時間為5 月27 日,株距10 cm,設置4 個氮素水平:0、225、450、675 kg/hm2,每個水平設置3 個重復。在施肥過程中,氮肥分3 次施入,分別為基肥50%、分蘗肥20%、穗肥30%。另外,施用過磷酸鈣510 kg/hm2作為基肥,硫酸鉀150 kg/hm2作為穗肥。
1.2.1 冠層光譜測定及數據處理
光譜測量采用美國ASD 公司的Analytical Spectral Devices 光譜儀,在水稻生長的分蘗期(6 月5 日)、拔節孕穗期(7 月5 日)、抽穗灌漿期(8 月8日)和成熟期(9 月18 日),選擇天氣晴朗、無云、無風的氣象條件下進行,并于10:00—14:00 測量水稻冠層光譜反射率。測量時,傳感器探頭向下,與水稻冠層頂端垂直距離約為1 m。在每個試驗小區中心點附近選4 個不同位置,記錄冠層光譜信息,將4 次測量結果的平均值作為該采樣點的光譜反射值。并將相應的采樣樣本裝入密封袋帶回實驗室進行葉綠素提取。為保證結果的準確性,每次測量都及時進行白板校正。為盡量消除光譜噪聲,將400 nm以下噪聲影響較大波段、1 000 nm 以上因水分吸收導致光譜不連續波段截去,因此本研究采用常用波段為400 ~1 000 nm,并將選取波段進行5 點平滑處理及歸一化處理。
1.2.2 水稻葉綠素含量測定
采用Spectrum752 型紫外可見分光光度計測定葉綠素含量。將丙酮、無水乙醇、蒸餾水按體積比9∶9∶2配成混合溶液,選擇若干水稻不同部位的完全展開葉片,剪碎后相互混合均勻,稱取0.4 g 加入200 mL 混合溶液浸泡,待葉片完全變白后測定663、645 nm 波長處的光密度,測量3 次取平均值,根據光密度計算葉綠素質量濃度,計算式為

式中 Ca、Cb——葉綠素a 和葉綠素b 質量濃度,mg/L
Ch——葉綠素總質量濃度,mg/L
D663、D645——波長663、645 nm 處光密度,%
為了與PROSAIL 模型反演輸出的葉綠素濃度保持一致,獲得葉綠素濃度后需換算成單位面積內葉綠素含量Cab[17]。
PROSAIL 模型是通過耦合PROSPECT 葉片輻射傳輸模型[18]和SAILH 冠層結構模型[19]得到的整體模型。PROSPECT 模型輸入參數主要包括葉片結構參數、葉綠素含量、干物質含量和等效水厚度,其中結構參數可為一個假設參數,本文根據實測數據擬合取1.31。SAILH 模型輸入參數包括葉片光譜信息、葉面積指數、平均葉傾角、熱點參數、土壤亮度參數、漫反射系數、觀測天頂角、太陽天頂角、觀測相對方位角。其中葉片光譜信息(反射率、透射率)采用PROSPECT 模型模擬的輸出結果,其他參數可根據光譜獲取時的實際觀測信息確定,則影響冠層光譜的變動參數為葉綠素含量、干物質含量、等效水厚度、葉面積指數。
PROSAIL 模型敏感性分析是為了分析評價各參數對模型的影響程度,從而確定出模型參數影響的光譜波段的敏感范圍,它是利用PROSAIL 模型初步反演水稻葉綠素含量的基礎。本研究采用一種改進Sobol 全局敏感性分析方法[20]分析PROSAIL 模型中葉綠素含量、等效水厚度、干物質含量參數變化以及參數之間相互作用對模擬水稻冠層光譜信息的影響。該方法是一種基于方差的全局敏感性分析算法,設非線性模型輸入參數為xi,則模型總體方差為

式中 Vi——參數xi變化單獨引起的方差
Vij——參數xi、xj間相互作用的方差
Vij…k——參數xi、xj、…、xk相互作用的方差
則參數xi的一、二階敏感度及總敏感度為

式中 Si——xi的一階敏感度
Sij——xi的二階敏感度
Sij…k——xi的多階敏感度
STi——xi的總敏感度
采用蒙特卡羅方法估計可得到參數的總敏感度。在計算過程中,對STi進行歸一化處理,進而評價模型中各參數的總敏感度。
1.4.1 模型結構
基于PROSAIL 模型和LSSVM 軟測量模型各自的優勢,提出將兩種模型相結合的混合建模方法,以實現對水稻葉綠素含量的精準估測,提高模型的普適性。水稻葉綠素含量整體估測流程如圖1 所示。
混合建模方法首先利用PROSAIL 輻射傳輸機理模型模擬冠層光譜,建立查找表,并將采集的冠層光譜反射率與查找表中模擬冠層光譜反射率比較,通過代價函數確定最優解,初步反演水稻葉綠素含量,然后采用LSSVM 建立誤差模型,彌補PROSAIL模型產生的偏差,最終由機理模型與LSSVM 誤差模型相結合對水稻葉綠素含量進行估測。該模型的預測輸出C 為


圖1 基于混合模型的水稻葉綠素含量估測流程圖Fig.1 Flow chart of rice chlorophyll content estimation based on hybrid model
式中 C——基于PROSAIL 模型的葉綠素含量預測值
輸出C 的目的是進一步提高葉綠素含量估測精度。
1.4.2 回歸LSSVM 誤差模型
LSSVM 算法是由SUYKENS 等[21]提出的一種改進SVM 算法。該算法將SVM 的求解從二次規劃問題轉化為線性方程組,降低了運算的復雜度,提高了求解效率,可以很好地用于函數回歸問題。
本文采用LSSVM 算法構建誤差模型,選取{xi,ei}為樣本集,其中xi=(X,C),X 為PROSAIL 模型輸入光譜變量,ei=CActual-C,其中CActual為水稻葉綠素實測值,i=1,2,…,L,L 為樣本數。
LSSVM 的優化問題描述為

式中 w——權值向量 ζi——誤差
γ——正則化參數
b——偏差 φ——特征映射
J——LSSVM 的目標函數
〈·〉——內積運算
為求解優化問題,引入Lagrange 函數

式中 αi——拉格朗日乘子
α——拉格朗月乘子向量
令式(8)偏導數為0,消去w 和ζi,則

其中

式中 e——偏差矩陣 Ω——核矩陣
Z——n 維單位矩陣求解上述矩陣可得到相應α 和b 的值,從而得到水稻葉綠素含量誤差估計函數為

其中

式中 σ——核函數參數
在模型性能評價方面,本文選取決定系數R2和均方根誤差RMSE (單位:mg/dm2)作為模型擬合度和反演精度的評價指標,衡量擬合模型的效果[22]。其中R2越接近1,表明預測值與實測值之間的相關性越高;R2越接近0,表明預測值與實測值之間的相關程度越弱。RMSE 越小,表明模型精度越高。
本文主要分析PROSAIL 模型中葉綠素參數的變化對水稻冠層光譜信息的影響。PROSAIL 模型輸入參數設置如表1 所示。

表1 PROSAIL 模型輸入參數設置Tab.1 PROSAIL model input parameters setting
采用改進Sobol 方法對PROSAIL 模型進行全局敏感性分析(圖2)發現,葉綠素含量主要影響430 ~760 nm 波段的冠層反射率,而對900 nm 以上波長的冠層反射率影響很小。在900 nm 以下波段,水分含量的變化對冠層光譜信息影響不大,光譜反射率的影響主要集中在950 nm 以上波長。葉面積指數和干物質含量的變化在400 ~1 000 nm 光譜范圍內均存在敏感性,且700 nm 以上波長對干物質含量敏感性顯著增加。

圖2 PROSAIL 模型各參數敏感度分析Fig.2 Total sensitivity analysis of PROSAIL parameters
根據參數敏感性分析結果得到各參數的敏感波段,可用于構建水稻葉綠素含量的估測模型。根據光譜采集過程的實際情況,得到查找表的各輸入參數及變化范圍如表2 所示。
將各參數的不同組合代入PROSAIL 模型進行冠層反射率模擬,建立水稻葉綠素含量的查找表,并在敏感波段范圍內,將實測冠層光譜反射率與查找表中反射率比較,采用文獻[23]中最小二乘法構建代價函數,初步反演葉綠素含量。

表2 PROSAIL 模型查找表輸入參數范圍Tab.2 Input parameters range in PROSAIL modelfor lookup table
將光譜反射率轉換為不同植被指數,并選取與葉綠素關系較為緊密的13 種植被指數[8]。為了檢測本文方法的性能,首先分別采用各植被指數進行線性、指數、乘冪和對數等統計模型的模擬,建立基于植被指數的單因子預測模型(Single factor estimation model,SFEM),不同光譜指數與水稻葉綠素含量的相關性如表3 所示。

表3 基于植被指數的水稻葉綠素含量最佳估測模型R2Tab.3 R2 of optimal estimation models based on vegetation index for chlorophyll content in rice
由表3 可以看出,基于光譜指數GNDVI、RSI 和(SDr- SDb)/(SDr+ SDb)的乘冪關系統計模型及MCARI 指數關系統計模型與水稻葉綠素含量相關性較高,決定系數分別為0.625 6、0.620 3、0.647 1和0.631 9,模 型 分 別 記 為SFEMGNDVI、SFEMRSI、SFEMSDr-SDb、SFEMMCARI。另外,本文結合這4 種植被指數作為多因子輸入,水稻葉綠素含量為輸出,構建多因子預測模型(Multi-factor estimation model,MFEM),包括構建LSSVM 誤差模型,補償PROSAIL模型輸出與實測值之間的偏差,混合模型標記為MFEMPROSAIL-LSSVM。同時單獨采用PROSAIL 模型建立查找表反演葉綠素,標記為MFEMPROSAIL。為進一步比較模型之間性能,還分別采用PLS、LSSVM 和BP 神經網絡建立基于植被指數組合的多因子預測模型,模型分別記為MFEMPLS、MFEMLSSVM、MFEMBP。其中,LSSVM 模型中懲罰因子γ 與核函數參數σ 采用具有全局搜索性能的改進粒子群算法[34]進行尋優。BP 神經網絡模型采用3 層結構,網絡模型對不同隱含層結點數進行訓練以確定最佳隱含層結點數m,迭代次數為1 500,學習目標為0.001,學習率為0.01。利用采集的幾個關鍵生育期共400 組訓練樣本數據對模型進行訓練,得到最優模型如表4 所示。

表4 水稻葉綠素含量最優估測模型Tab.4 Each optimal estimation model for chlorophyllcontent in rice
在采集到的檢驗樣本中,隨機抽取115 個檢驗樣本,采用表4 建立的最佳模型對樣本數據進行驗證,相應的預測模型建模精度和檢驗精度如表5 所示,各模型對水稻葉綠素估測值和實測值的散點圖如圖3 所示。

表5 預測模型的建模及檢驗精度Tab.5 Calibration and validation result of estimation model
由圖3 可以看出,不同單因子預測模型所得的預測值分布狀態較為相近,不存在較大的區別,其中SFEMSDr-SDb分布相對緊密一些。雖然單因子預測模型具有一定預測精度,但沿直線y=x 分布較為分散,表明估測值與實測值之間存在一定偏差。

圖3 不同模型的葉綠素含量實測值與估測值比較Fig.3 Comparison of measured and estimated values of chlorophyll content for different models
結合4 種植被指數為輸入的多因子預測模型MFEMPLS、MFEMLSSVM、MFEMPROSAIL-LSSVM、MFEMBP對水稻葉綠素含量的估測,與單因子最優預測模型SFEMGNDVI、SFEMRSI、SFEMSDr-SDb、SFEMMCARI相比,分布更為緊密,尤其是本文提出的MFEMPROSAIL-LSSVM模型,其預測結果沿直線y =x 的分布狀態較優,相比單因子預測模型,有更少的預測值偏離直線y =x,同時也在不同程度上優于MFEMPLS、MFEMLSSVM、MFEMBP模型,顯示了優異的預測效果,能夠有效減小不同生育期的差異對該模型的影響。
從表5 可以看出,基于多因子輸入的預測模型整體上要比單因子預測模型具有更小的RMSE,由于單因子預測模型使用光譜信息有限,一些干擾無法有效排除,因而誤差往往較大。而多因子預測模型同時使用了多個光譜指數作為自變量,更大程度利用有效信息,因此可以提高模型精度。同時多因子預測模型可減少因同譜異物及同物異譜等原因形成 的 偏 差。 可 以 看 出, 本 文 提 出 的MFEMPROSAIL-LSSVM多因子預測模型無論對于建模集還是檢驗集,都得到了最小的RMSE 指標。另外,對于建模集,MFEMPROSAIL-LSSVM模型和基于LSSVM 的多因子預測模型具有較高的決定系數,分別為0.740 6 和0.739 3,高于其他預測模型。對比MFEMLSSVM模型,雖然本文建立的模型在決定系數指標方面沒有較大優勢,但在檢驗集中,MFEMPROSAIL-LSSVM模型提供了最高的決定系數,不僅高于單因子預測模型,也在一定程度上優于其他多因子預測模型,表明提出的方法其估測值與實測值之間具有更好的相關性。表6 列出了不同模型估測葉綠素的統計特征。

表6 不同模型估測水稻葉綠素含量的統計特征Tab.6 Statistical characteristics of different models in estimating chlorophyll content in rice μg/cm2
由表6 可以看出,SFEMRSI模型對水稻葉綠素估測的平均值低于實測平均值,SFEMMCARI和SFEMGNDVI模型估測的平均值高于實測平均值,且SFEMGNDVI模型的估測值分布較為集中,SFEMMCARI模型的估測值分布較為分散,對于較大值和較小值分別有過高估測和過低估測的傾向,而MFEMPROSAIL-LSSVM、MFEMLSSVM、MFEMBP模型對葉綠素的估測值與實測值較為接近,尤其MFEMPROSAIL-LSSVM和MFEMLSSVM多因子預測模型估測葉綠素最大、最小值、均值和標準差都比較接近實測值。
在東北水稻葉綠素含量估測方面,本文選擇相關性較高光譜指數GNDVI、RSI、(SDr-SDb)/(SDr+SDb)和MCARI 作為水稻幾個關鍵生育期葉綠素動態變化的輸入因子,并分別構建基于植被指數的單因子預測模型及多因子預測模型,都在一定程度上獲得了較為滿意的精度。相對利用全部光譜信息建模,基于光譜指數建立的模型較為簡單,盡管僅使用了幾個光譜波段,但數據利用率較高,精度也較高。通過特征波段組成光譜指數,可剔除不相關變量,進而得到性能較好的估測模型。
通過本文仿真對比研究發現,在建立的多個模型中,多因子預測模型整體上優于單因子預測模型,可能因為單因子預測模型建立時,參與建模的光譜信息過少而導致模型穩定性不夠,且容易受到背景信息的干擾而降低模型精度。水稻等作物葉綠素含量的差異體現在光譜的多個波段上,而其他波段構建的光譜指數對葉綠素的影響往往不可忽視。因此,文中多因子預測模型具有較好的估測效果。另外,在多因子預測模型中,基于PROSAIL 模型偏差補償的混合模型,其預測值與實測值之間具有更好的擬合性(R2=0.740 6,RMSE 為0.985 2 mg/dm2)。可見,在相同波段或植被指數輸入條件時,對模型偏差有效補償可進一步提升模型估測性能。
在對水稻葉綠素含量預測時,采用一年或兩年數據構建水稻葉綠素含量預測模型往往存在一定不足,但本文可為下一步開展長時間序列的基于高光譜數據的水稻葉綠素含量估測奠定基礎。此外,水稻等作物葉綠素含量估測目前還沒有統一的標準模型,雖然本文構建了水稻在4 個關鍵生育期內的整體動態混合模型,但最佳的葉綠素預測模型也會因生育期、品種、長勢等不同而受影響。由于受到天氣、技術、設備等多方面影響,未能獲取更多生育期(如孕穗期、開花期、灌漿早期、灌漿末期)的數據信息,本文所得的最優模型在一定程度上也會受限于本次測量結果。因此,在多個不同水稻品種、不同關鍵生育期及不同年份水稻樣本上繼續測試,積累更多的試驗數據,進而將本研究更好地應用于水稻全生育期及其它品種以進一步提升預測模型的穩定性及普適性,是今后需著重探討研究的一個問題。
利用PROSAIL 輻射傳輸機理模型結合LSSVM誤差模型,篩選出4 種與葉綠素相關性較高的植被指數GNDVI、MCARI、RSI 和(SDr-SDb)/(SDr+SDb)作為輸入,建立4 個關鍵生育期內的整體多因子預測混合模型,用來估測水稻葉綠素含量,并與其他預測模型進行了比較。結果表明,相比單因子輸入的預測模型,本文建立的MFEMPROSAIL-LSSVM模型具有較低的估測誤差和較高的估測精度;與MFEMPROSAIL模型及其他多因子預測模型MFEMPLS、MFEMLSSVM、MFEMBP相比,MFEMPROSAIL-LSSVM模型具有更高的估測精度和良好的魯棒性。另外,與單純數據驅動模型相比,本文方法不僅具有較高估測精度,而且具有更為嚴格的理論基礎和較明確的物理意義。本文建模方法可為利用高光譜信息反演水稻葉綠素含量提供新的研究思路,為水稻葉綠素含量的動態監測提供了模型依據。