王奕涵,石鐵柱,劉會增,王俊杰,鄔國鋒
(1.武漢大學資源與環境科學學院,武漢430079;2.海岸帶地理環境監測國家測繪地理信息局重點實驗室,廣東深圳518060;3.空間信息智能感知與服務深圳市重點實驗室,廣東深圳518060;4.深圳大學生命科學學院,廣東深圳518060)
水稻葉片氮含量反演偏最小二乘模型設計
王奕涵1,石鐵柱1,劉會增1,王俊杰1,鄔國鋒2,3,4
(1.武漢大學資源與環境科學學院,武漢430079;2.海岸帶地理環境監測國家測繪地理信息局重點實驗室,廣東深圳518060;3.空間信息智能感知與服務深圳市重點實驗室,廣東深圳518060;4.深圳大學生命科學學院,廣東深圳518060)
針對高光譜偏最小二乘模型(PLSR)反演作物氮含量時易出現數據冗余和模型復雜的問題,嘗試結合波段深度分析和遺傳算法(GA)建立水稻氮含量PLSR反演模型。基于去包絡線處理的水稻高光譜數據(350nm~750nm),選取波段深度(BD)、波段深度比(BDR)、歸一化面積波段深度(BNA)和歸一化面積波段指數(NBDI)4種波段深度指數分別建立BDA-PLSR模型,進而采用遺傳算法波段選擇選取最適宜波段深度指數建立GA-PLSR模型,并將GA-PLSR模型與BDA-PLSR模型進行對比。結果顯示,基于BNA的GA-PLSR模型在反演水稻氮含量中獲得了最佳的結果(Adj.R2=0.67,RMSEP=0.20,RPD=1.84)。研究證明,利用波段深度分析建立的PLSR模型能一定程度上解決數據冗余問題,進一步采用遺傳算法進行波段選擇能更有效挖掘光譜信息,提高模型精度。
水稻;氮含量;偏最小二乘回歸;波段深度分析;遺傳算法
氮素含量是作物營養狀況的重要指標之一,影響著作物的產量與品質。實時快速地獲取氮含量信息是評價作物長勢、估測產量和品質以及精確管理氮素營養的前提。傳統的作物氮素測定方法通過大量野外調查抽樣和昂貴實驗室分析獲得,時效差且難以在宏觀尺度上推廣[1]。遙感技術,尤其是高光譜遙感技術的出現為快速、高效、無損檢測作物氮含量提供了一種有效途徑[2]。
大量研究通過建立遙感原始波段或植被指數與生化組分含量之間的多元統計回歸模型,如逐步線性回歸,來估測植物葉片生化組分含量。然而在使用這些回歸方法時,容易出現“過度擬合”的現象,缺少增強標準化吸收特征及減小與光譜變化無關的噪聲的預處理[3]。針對這些問題,Kokaly[4]提出了改進方法,使用連續統去除之后的光譜進行波段深度分析,成功地對干枯植物落葉的生化組分含量作出了估算。此后,波段深度分析方法(BDA)得到了廣泛應用,如Curran等[3]使用波段深度分析方法估測干燥針葉松樹的12種生化組分,取得了較為理想的效果;Mutanga和Skidmore等[5-7]將波段深度分析與逐步多元線性回歸以及神經網絡結合用于預測植被的生化指標含量。近年來,部分學者開始將波段深度分析與偏最小二乘回歸(PLSR)法結合進行植物葉片生化組分反演[8-9],此方法應用于水稻新鮮葉片氮含量估算還鮮有探索。全波段高光譜數據具有高數據冗余性、共線性以及噪聲問題,影響模型的預測能力以及計算效率,因此合適的波段選擇方法對于提高模型精度和降低模型復雜度有很重要的作用[10]。已有研究將遺傳算法(Genetic Algorithm,GA)用于波段選擇提高高光譜反演模型的精度[11-12],此方法在植物生化組分反演上仍有很大潛力。
基于實驗室水稻光譜數據,本文旨在:結合波段深度分析,構建孕穗期水稻高光譜波段深度分析指數與葉片氮含量定量估算的BDA-PLSR模型;采用GA選擇敏感波段,建立基于敏感波段的PLSR模型(GA-PLSR),并對比BDA-PLSR和GA-PLSR模型,探究GA波段選擇方法在降低數據冗余和提高模型精度方面的潛力。
1.1 光譜測量及樣本測定
鐘祥位于湖北省中部,漢江中游,氣候溫暖濕潤,年降雨量952.6mm,年平均氣溫15.9℃[13]。在2012年8月8日~12日(水稻孕穗期),隨機選取不同區域的水稻田80個點作為實驗數據采集點,采集冠層水稻鮮葉帶回實驗室進行光譜和氮含量測量。
光譜測量在暗室環境下進行。將樣本平鋪在黑色紙質托盤上,使用ASD公司的FieldSpec 3地物光譜儀進行測定。光譜儀光譜測定范圍為350nm~2500nm,其中350nm~1000nm區間光譜分辨率為3nm,采樣間隔為1.4nm;在1000nm~2500nm區間光譜分辨率為10nm,采樣間隔為2nm。每個樣本各測10個光譜,取平均值作為該樣本的光譜反射值;每隔6個樣本進行白板校正。光譜測量完畢后,將葉片烘干、粉碎后用凱氏定氮法[14]測定氮含量。
1.2 數據預處理
將測得的氮含量和原始光譜生成原始數據集,使用主成分分析法[15]檢測并去除異常點。剩余的樣本進行建模集和驗證集的劃分,2/3作為建模集,1/3作為驗證集。為保證模型對驗證集有效,將樣本中含氮率測定值最大與最小者歸入驗證集,其余樣本隨機抽取。
1.3 模型建立
(1)波段深度分析
350nm~750nm波段包含葉綠素強吸收的藍、紅光區和及“紅邊”波段范圍,此區域光譜反射率與植物葉片氮含量具有密切相關性[3,16],加上新鮮葉片的近紅外光譜特征主要被液態水控制,葉片的生化組分信息易被液態水信息干擾[17],所以研究中只選取此區域進行波段深度分析。首先對光譜進行包絡線去除。包絡線去除法(Continuum Removal)是一種有效增強吸收特征的光譜分析方法[18]。“包絡線”定義為逐點直線連接光譜曲線突出的峰值點而形成的曲線,從直觀上來看就像包住光譜曲線的“外殼”(圖1)。以原始光譜曲線上的值除以包絡線上對應的值,即為光譜去包絡線(記為R′)。包絡線去除法處理后提取出如下光譜吸收特征:波段深度(Band Depth,BD)、波段深度比(Band Depth Ratio,BDR)、歸一化面積波段深度(Band Depth Normalized to Band Area,BNA)、歸一化面積波段指數(Band Depth Normalized to Band Area,NBDI)[6]。各表達式見表1。
(2)遺傳算法
遺傳算法(Genetic Algorithm)是一類借鑒生物進化規律(適者生存,優勝劣汰)演化而來的搜索方法[19]。本文中使用遺傳算法進行波段選擇的主要步驟為:①編碼。每一個波段序號為一個基因,對基因進行二進制編碼,若基因為1,建模時包括此波段;若為0,不包括此波段。一種編碼組合稱為一條染色體,染色體的長度m為被編碼的波段個數。②選擇初始種群。隨機選取初始種群n,即初始種群的選擇方法為隨機產生n個m位的0-1二進制數作為初始群體。③適應性評價。這里將選取波段指數進行偏最小二乘擬合,采用交叉驗證均方根誤差(RMSECV)[20]作為精度評價指標。④復制。根據評價因子舍棄一半個體,剩余一半個體進行交叉繁殖,選取雙點交叉法,重復此過程直至最大繁殖代數時停止,最終獲得最優后代。研究預設參數:種群大小(64),最大繁殖代數(100),變異概率(0.005),循環次數(3),交叉方式為雙點交叉。
(3)模型校準和驗證
PLSR是一種多元統計方法,其吸取了主成分回歸法中提取主成分的思想,從因變量出發,選擇與因變量相關性較強而又方便運算的自變量的線性組合,同時克服了自變量之間多重相關性的問題[21]。由于對變量的綜合,可能克服多重相關性造成的信息重疊,而由于對變量系統中的信息進行篩選,有效地區分系統的信息與噪聲,提高系統建模的準確性[22]。表達式如下:
Y=Xb+E (1)
其中,Y指經過均值中心化的因變量矩陣(本研究中為n×1),X為經過均值中心化的自變量矩陣(本研究中為高光譜波段變量及波段深度分析指數變量),b為回歸系數矩陣,E為殘差矩陣。
基于建模集的BD、BDR、BNA和NBDI,分別建立氮含量估算BDA-PLSR及GA-PLSR模型,采用留一交叉驗證法[21]確定模型中采用的最優因子數(factors)。為了防止過擬合同時保持模型較好的預測能力,僅當均方根誤差(RMSECV)減少大于2%時,加入新的因子。將建立的模型應用于驗證集,進行模型的驗證。采用模型的校正決定系數(Adj.R2)檢驗模型的擬合程度,用均方根誤差(RMSEP)和剩余預測偏差(RPD)評價模型預測能力。使用PLS toolbox 7.5.2(Eigenvector,USA)進行BDA-PLSR與GA-PLSR模型的建立,全部工作均在平臺Matlab 2010b中實現。

圖1 350nm~750nm原始光譜、包絡線和去包絡線曲線圖

表1 波段深度分析表達式
2.1 含氮量測定結果
異常點檢測去除了5組具有顯著異常的光譜及氮含量數據,表2為剩余75個樣點的含氮量統計結果。全集介于1.89%和4.02%之間,均值為2.69%,標準差為0.39%。建模集和驗證集均值差異較小,說明建模集和驗證集可以有效地代表全集。

表2 樣本含氮率測定統計表(n=75)
2.2 GA波段選擇結果
4種波段分析處理方法的選擇結果如圖2所示。由圖2可以看出,波段選取數目和波段選取分布隨不同處理方式有較大不同。例如,波段深度比(BDR)被選取62個波段,較均勻分布在350nm~750nm之間,而歸一化面積波段深度(NBDI)僅被選取49個波段,較集中于354nm~356nm、683nm~697nm等區域。

圖2 遺傳算法選取波段指數分布
4種波段分析處理下:351nm、375nm、389nm、454nm、455nm、607nm、644nm、686nm處的指數有較高被選取的頻率(≥3次)。氮素是植物葉綠素的重要成成分,研究[23-24]已知葉綠素在430nm、460nm、640nm和660nm波長處存在吸收特征,420nm和620nm、660nm分別對應葉綠素a和葉綠素b的吸收。這些波段中,454nm、455nm、644nm和686nm處部分與葉綠素吸收敏感波段相臨近,一定程度上證實了氮素與葉綠素的密切關系。
2.3 波段深度分析與PLSR結合的氮含量估算
表3為BDA-PLSR及GA-PLSR模型精度校準和驗證結果。BDA-PLSR 4種模型中,BNA與全波段模型精度最高(Adj.R2=0.59)。與全光譜模型比較,BNA模型只利用400波段,數據量大幅減小。可見,此模型可在一定程度上改善PLSR全光譜模型數據冗余問題。
將數據進一步進行遺傳算法波段選擇后,建模模型及驗證模型精度均在之前基礎上有了較大程度的提高,所有模型的校正決定系數均在0.6左右;參與運算的波段數目大幅減少,全波段GA-PLSR模型波段數目由2151減少至500左右,波段深度結合GA-PLSR模型波段數目由401減少最少到50左右。最優建模集模型為波段選擇后的BNA模型,將此模型用于預測集驗證得到預測模型校正決定系數為0.67,RPD達到1.84(表3、圖3)。

表3 水稻葉片氮含量BDA-PLSR和GA-PLSR模型的校準和驗證結果

圖3 最佳GA-PLSR模型的氮含量預測值與實測值散點圖
所有模型在GA波段選擇后大大減少了參與建模的變量數目,模型精度有所提高,說明被選取波段包含反演水稻葉片氮含量的足夠信息,原始全波段高光譜數據無關信息及噪聲較多。GA用于波段選擇來提高PLSR模型精度是可行的。
為了解決高光譜反演水稻葉片氮素時存在的數據冗余、模型復雜的問題,本文使用實驗室數據,嘗試將波段深度分析與PLSR結合建立孕穗期水稻葉片氮含量估算模型,同時進一步采用遺傳算法進行波段選擇,對比了波段深度結合模型與全光譜模型,以及BDA-PLSR模型與GA-PLSR模型的精度。波段深度分析與PLSR結合建立的水稻葉片氮含量估算模型能一定程度解決PLSR全光譜模型的數據冗余問題,將遺傳算法應用于波段深度分析數據進行選擇后,可以進一步減小數據冗余,極大的縮減了模型運算的數據量,且模型精度較選擇前有很大程度提高。
[1]FOLEY W J,MCILWEE A,LAWLER I,et al.Ecological applications of near infrared reflectance spectroscopy-a tool for rapid,cost-effective prediction of the composition of plant and animal tissues and aspects of animal performance[J].Oecologia,1998,116(3):293-305.
[2]INOUE Y,SAKAIYA E,ZHU Y,et al.Diagnostic mapping of canopy nitrogen content in rice based on hyperspectral measurements[J].Remote Sensing of Environment,2012,126:210-221.
[3]CURRAN P J,DUNGAN J L,PETERSON D L.Estimating the foliar biochemical concentration of leaves with reflectance spectrometry:Testing the kokaly and clark methodologies[J].Remote Sensing of Environment,2001,76(3):349-359.
[4]KOKALY R F,CLARK R N.Spectroscopic determination of leaf biochemistry using band-depth analysis of absorption features and stepwise multiple linear regression[J].Remote Sensing of Environment,1999,67(3):267-287.
[5]MUTANGA O,SKIDMORE A K,WIEREN S V.Discriminating tropical grass(cenchrus ciliaris)canopies grown under different nitrogen treatments using spectroradiometry[J].ISPRS Journal of Photogrammetry and Remote Sensing,2003,57(4):263-272.
[6]MUTANGA O,SKIDMORE A K.Hyperspectral band depth analysis for a better estimation of grass biomass(cenchrus ciliaris)measured under controlled laboratory conditions[J].International Journal of Applied Earth Observation and Geoinformation,2004,5(2):87-96.
[7]MUTANGA O,SKIDMORE A K.Integrating imaging spectroscopy and neural networks to map grass quality in the Kruger National Park,South Africa[J].Remote Sensing of Environment,2004,90(1):104-115.
[8]CHEN J,GU S,SHEN M,et al.Estimating aboveground biomass of grassland having a high canopy cover:an exploratory analysis of in situ hyperspectral data[J].International Journal of Remote Sensing,2009,30(24):6497-6517.
[9]RAMOELO A,SKIDMORE A K,SCHLERF M,et al.Water-removed spectra increase the retrieval accuracy when estimating savanna grass nitrogen and phosphorus concentrations[J].ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(4):408-417.
[10]XIAO B Z,JIEWEN Z,POVEY M J W,et al.Variables selection methods in near-infrared spectroscopy[J].Analytica Chimica Acta,2010,667(1/2):14-32.
[11]GUO Z,ZHAO C,HUANG W,et al.Nondestructive quantification of foliar chlorophyll in an apple orchard by visible/near-infrared reflectance spectroscopy and partial least squares[J].Spectroscopy Letters,2013,47(6):481-487.
[12]WANG J,CUI L,GAO W,et al.Prediction of low heavy metal concentrations in agricultural soils using visible and nearinfrared reflectance spectroscopy[J].Geoderma,2014,216:1-9.
[13]SHI T,LIU H,WANG J,et al.Monitoring arsenic contamination in agricultural soils with reflectance spectroscopy of rice plants[J].Environmental Science &Technology,2014,48(11):6264-6272.
[14]BREMNER J M,MULVANEY C S.“Total Nitrogen”in methods of soil analysis.Part 2.chemical and microbiological properties[D].American Society of Agronomy,Soil Science Society of America,1982.
[15]VERBOVEN S,HUBERT M.LIBRA:a MATLAB library for robust analysis[J].Chemometrics and Intelligent Laboratory Systems,2005,75(2):127-136.
[16]PEUELAS J,GAMON J A,FREDEEN A L,et al.Reflectance indices associated with physiological changes in nitrogenand water-limited sunflower leaves[J].Remote Sensing of Environment,1994,48(2):135-146.
[17]ELVIDGE C D.Visible and near infrared reflectance characteristics of dry plant materials[J].International Journal of Remote Sensing,1990,11(10):1775-1795.
[18]CLARK R N,ROUSH T L.Reflectance spectroscopy:quantitative analysis techniques for remote sensing applications[J].Journal of Geophysical Research:Solid Earth,1984,89(B7):6329-6340.
[19]JARVIS R M,GOODACRE R.Genetic algorithm optimization for pre-processing and variable selection of spectroscopicdata[J].Bioinformatics,2005,21(7):860-868.
[20]GOICOECHEA H C,OLIVIERI A C.A new family of genetic algorithms for wavelength interval selection in multivariate analytical spectroscopy[J].Journal of Chemometrics,2003,17(6):338-345.
[21]GELADI P,KOWALSKI B R.Partial least-squares regression:a tutorial[J].Analytica Chimica Acta,1986,185:1-17.
[22]THOMAS E V,HAALAND D M.Comparison of multivariate calibration methods for quantitative spectral analysis[J].Analytical Chemistry,1990,62(10):1091-1099.
[23]FERWERDA J G,SKIDMORE A K,MUTANGA O.Nitrogen detection with hyperspectral normalized ratio indices across multiple plant species[J].International Journal of Remote Sensing,2005,26(18):4083-4095.
[24]CURRAN P J.Remote sensing of foliar chemistry[J].Remote Sensing of Environment,1989,30(3):271-278.
Partial Least Square Regression Model for Retrieving Paddy Rice Nitrogen Content with Band Depth Analysis and Genetic Algorithm
WANG Yi-han1,SHI Tie-zhu1,LIU Hui-zeng1,WANG Jun-jie1,WU Guo-feng2,3,4
(1.School of Resource and Environmental Sciences,Wuhan University,Wuhan 430079;2.Key Laboratory for Geo-environment Monitoring of Coastal Zone(GEMCO)of the National Administration of Surveying,Mapping and GeoInformation,Shenzhen518060;3.Shenzhen Key Laboratory of Spatial Smart Sensing and Services,Shenzhen518060;4.College of Life Sciences,Shenzhen University,Shenzhen518060)
To reduce the data redundancy and complexity of partial least square regression(PLSR)model in retrieving nitrogen content of crops,this article tries to combine band depth analysis(BDA)and genetic algorithm(GA)to build PLSR models for rice nitrogen content retrieval.Based on the continuum-removed spectrum over 350nm~750nm of paddy rice,BDA is employed to derive band depth indexes,including band depth(BD),band depth ratio(BDR),normalized band depth index(NBDI)and band depth normalized to area(BNA),and they are used to build BDA-PLSR models.GA is then utilized to select BDA-derived index most highly correlated with the nitrogen content to build GA-PLSR models,and it is then compared with the BDAPLSR models.Results show that the nitrogen contents are best estimated by the GA-PLSR model based on BNA(Adj.R2=0.67,RMSEP=0.20,RPD=1.84).It is concluded that the combination of BDA and PLSR could reduce the data redundancy,and further selection by GA could explore spectral information effectively and improve the nitrogen content estimation accuracy.
paddy rice;nitrogen content;PLSR;band depth analysis;genetic algorithm
10.3969/j.issn.1000-3177.2015.06.008
TP79
A
1000-3177(2015)142-0042-06
2014―11―21
2015―04―01
測繪地理信息公益性行業科研專項經費項目(20141207)。
王奕涵(1988—),女,碩士研究生,主要從事植被高光譜遙感研究。
E-mail:wyh520915@163.com
鄔國鋒(1969—),男,教授,博士,主要從事遙感技術在水質、土壤質量和植被質量參數反演及湖泊、海岸帶生態系統方面的研究。
E-mail:guofeng.wu@szu.edu.cn