劉嘯風
摘要 為進一步提高遙感估產精度,顯示國產影像在農業估產中的應用效果,該研究以2010—2013年HJ-1A/1B影像為遙感數據,分析了衛星遙感變量與小麥實際單產的定量關系,運用偏最小二乘回歸算法構建及驗證了以實際單產為目標的多變量遙感估產模型。研究表明:實際單產與所選用的大多數遙感變量間關系密切,且多數遙感變量兩兩間具有嚴重的多重相關關系;實際單產偏最小二乘回歸模型的最佳主成分為5,且植被衰減指數、綠色歸一化植被指數、調整土壤亮度的植被指數、比值植被指數和歸一化植被指數為實際單產遙感估測的敏感變量;建模集和驗證集實際單產估測模型的決定系數分別為0.74和0.70,均方根誤差分別為754.05、748.20 kg/hm2,相對誤差分別為11.5%和 8.88%,且估測精度比線性回歸算法分別提高20%以上和40%以上,比主成分分析算法分別提高18%以上和30%以上,說明偏最小二乘回歸算法模型估測區域實際單產的效果要明顯好于線性回歸和主成分分析算法,該模型應用結果與小麥實際單產區域分布情況相符合,為提高區域小麥實際單產的遙感估測精度提供了一種途徑。
關鍵詞 遙感;產量估測;偏最小二乘法;小麥
中圖分類號 TP79 文獻標識碼 A 文章編號 1007-5739(2015)18-0209-02
Estimation of the Actual Yield Per Unit Area of Wheat Based on PLS Algorithm and Remote Sensing Image
LIU Xiao-feng
(Seed Management Station of Bayinguoleng Mongolia Autonomous Prefecture of Xinjiang Uygur Autonomous Region,Korla Xinjiang 841000)
Abstract In order to further improve the accuracy of crop-yield assess by remote sensing,according to domestic imaging applications in agriculture yield estimation results,taking HJ-1A/1B from 2010 to 2013 as remote image sensing data,satellite remote sensing variable and real output of wheat was analyzed.The study used partial least squaress regression algorithm was built and verified by the actual yield as the target of multivariable remote sensing yield estimation model.The research showed that the actual yield had close relationship with remote sensing variables,and most remote sensing variables between the two had severe multiple correlation relationship;Actual yield of partial least-squares regression model best principal component was 5,and the attenuation of vegetation index,green normalized difference vegetation index,adjust the brightness of vegetation index,soil ratio vegetation index and normalized difference vegetation index were sensitive variables to the actual yield remote sensing estimation;Modeling set and validation set models for predicting the actual yield decision coefficient were 0.74 and 0.70,root mean square error were 754.05 kg/hm2,748.20 kg/hm2.relative error of 11.5% and 8.88% respectively,and the estimation accuracy than linear regression algorithm was increased by more than 20% and 40% respectively,higher than that of principal component analysis algorithm was respectively 18% and 30%,the effect of partial least-squares regression algorithm model to estimate the regional actual yield significantly better than that of linear regression and principal component analysis algorithm.The actual application results of the model was in accord with the wheat yield per unit area distribution.It also provided an approach to improve the accuracy of estimate precision of wheat yield by remote sensing.endprint
Key words remote sensing;yield estimation;partial least squares method;wheat
科學準確地估測作物產量,是農業生產的重要環節,對農業生產具有重要的意義。準確估算糧食產量能夠保障國家糧食安全,能夠為農業生產的后續安排提供參考,能夠為農業生產結構調整提供科學依據。隨著科技的不斷發展,遙感數據的準確性及分辨率不斷提高,價格不斷下降,為其應用于多種作物估產提供了便利。遙感技術應用于作物估產已經成為遙感與農業交叉的主要方面。
在生產中,對作物產量進行估計的方法有很多,如作物產量氣象預報、人工抽樣調查、統計模擬模型、遙感估產等[1-5]。其中,作物產量氣象預報比較適宜小范圍作物估產,但對于大范圍作物因不同麥區田間氣象差異較大導致估產精度偏低;人工抽樣調查測產精度較高,但耗時耗力、成本高,不適于在大范圍內進行;統計模擬模型是結合歷史資料構建數學關系模型,能夠對未來的變化趨勢做出估測,是一種非主觀方法。該方法的缺點是如果出現氣候變化,估測結果的準確性大打折扣;應用遙感技術能夠大面積、快速、動態和多尺度地獲取農田豐富信息,在大面積作物長勢監測、作物估產、農情監測與預報、農業資源調查等方面具有巨大的應用潛力[6]。國內外有關作物遙感估產研究已做了大量工作,但所用的衛星遙感資料時效較低,模型模擬效果的穩定性有待檢驗,所使用的衛星數據源主要是MODIS、NOAA/AVHRR、TM等國外低空間分辨率數據,以及IRS、P6、ETM、Quickbird、SPOT、IKONOS、ALOS等國外高空間分辨率數據,但后者數據源多價格高[7]。因此,農情遙感中推廣應用國產衛星影像數據意義重大。
中國于2008年9月6日成功發射具有自主知識產權的HJ-1A/1B 衛星,該衛星傳感器的空間分辨率為30 m,時間分辨率為2 d,成為農情遙感業務化運行較為理想的數據源。
本研究以HJ-1A/1B影像為遙感數據源,結合偏最小二乘回歸(partial least squares regression,PLS)算法,研究田間采樣點獲取的實際單產與開花期遙感變量間的相關關系,得到小麥實際單產的敏感遙感變量,以利于后來構建實際單產遙感估測模型,實現區域小麥實際單產遙感估測,以期為政府及其他有關部門及時了解不同生態區域小麥產量豐欠變化趨勢,制定小麥糧食貿易和宏觀調控政策提供參考。
1 材料與方法
1.1 試驗設計與數據獲取
本研究以新疆焉耆盆地為例,研究區各鄉鎮分散設置采樣點3~5個,共計93個隨機采樣點,每個采樣點位置均采用Juno ST手持式GPS定位獲取地理信息,于開花成熟期用GPS定位,以各縣農技推廣中心提供單產作為實際單產。衛星數據為HJ-1A/1B 5月26日(開花期)過境影像;2011年共82個采樣點,衛星數據為HJ-1A/1B 5月28日(開花期)過境影像;2012 年共80個采樣點,衛星數據為 HJ-1A/1B5月28日(開花期)過境影像;2013年共80個采樣點,衛星數據為 HJ-1A/1B 6月2日(開花期)過境影像。經田間調查,各時期小麥長勢無顯著差異。
1.2 影像預處理
HJ-1A/1B影像的預處理采用ENVI。首先利用研究區區1∶10萬地形圖對HJ-1A/1B 影像進行幾何粗校正,然后再利用地面實測的GPS 控制點對HJ-1A/1B 影像進行幾何精校正。采用經驗線性法轉換進行大氣校正和反射率轉換。
1.3 影像定標
在研究區選擇代表性水體作為低反射定標物,空曠水泥路面作為高反射定標物,采用手工定標方法對HJ-1A/1B 影像進行定標,利用絕對定標系數將 DN值圖像轉換為輻亮度圖像的公式為:
L=DN/a +L0(1)
式中:L為輻亮度,單位為W/m2·sr·μm;a為絕對定標系數增益;L0為偏移量。
1.4 衛星遙感變量
依據作物光譜特性和國內外研究文獻,結合光譜指數的物理意義,本研究選用4個 HJ-1A/1B波段和9種常用光譜植被指數(表1)作為 PLS分析構建遙感估產模型的入選自變量。利用ENVI和ArcGIS 提取對應 GPS定位采樣點光譜反射率,結合表1提供的遙感植被指數算法,在 Excel 中計算出衛星遙感變量。
1.5 偏最小二乘回歸 PLS
PLS是一種適用性較廣的新型多元分析方法,能解決利用許多普通多元回歸算法無法解決的問題,尤其當變量多且具有多重相關關系時,可有效篩選對因變量解釋性最強的綜合變量,建立的模型比普通回歸模型更可靠。PLS法先提取稱之為成分的新變量作為自變量,然后建立自變量與因變量之間的線性關系,利用PLS計算出系數,然后建立因變量回歸模型。
由PLS算法建立模型時,增加主成分數能提高模型精度,但主成分過多將產生“過擬合”現象,精度降低,因此,確定最佳主成分數是建立 PLS模型的關鍵。本研究利用交互驗證法計算出估測殘差平方和(predictive residual error sum of square,PRESS),PRESS值越小,表示模型的估測精度越高,因此,基于PRESS最小值確定最佳主成分數。
PLS和PRESS的原理和步驟可見相關文獻[8]。PLS和PRESS過程均由自編的MATLAB程序完成。
1.6 模型的評價
模型評價指標為決定系數(determination coefficient,R2)、均方根誤差(root mean square error,RMSE)和相對誤差(rel-ative error,RE),其中R2越大,表明模型越好,RMSE和RE越小,表明模型的估測精度越高。endprint
2 結果與分析
2.1 產量分布
整理試驗數據,按實際單產數值的大小排序,為提高估測模型的穩定性,在保證實際單產最大值和最小值置于建模樣本集的前提下,將335個實際單產數值樣本按3∶2的比例,隨機分成建模集和驗證集。由表2可知,實際單產建模集和驗證集樣本的變幅、平均值、標準差和標準誤差均相近,具有較好的一致性。
2.2 遙感變量與實際單產間的關系定量分析
建模集中201個樣本的實際單產與遙感變量間關系定量分析表明,實際單產與大多數遙感變量間具有顯著或極顯著關系,其中實際單產與PSRI關系最密切,其次與GNDVI,相關系數分別為0.73和0.68,大多數植被指數與實際單產間的相關性明顯好于單波段;多數遙感變量兩兩間具有嚴重的多重相關關系,其相關系數幾乎介于0.80與1.00之間,尤其B1~B4兩兩間相關系數介于0.95與0.99之間,且多數植被指數兩兩間相關系數在0.90以上,說明相對于傳統統計算法和普通最小二乘法,運用PLS算法建立模型的區域估測精度可能更高。
2.3 構建PLS模型
2.3.1 最佳主成分數目確定。在計算過程中,起始時隨著主成分數增加,實際單產PRESS值都呈較大幅度地降低,由此表明由于主成分數目較少,模型擬合極其不充分,即出現缺失擬合現象,直至實際單產模型主成分數為5時,PRESS值達到最小,為24.17;之后,隨著主成分數逐漸增加,PRESS值陡然增加,直至趨于緩平飽和,說明因主成分數過多而出現“過擬合”現象。因此,選擇 PRESS值最小時對應的主成分數作為PLS模型的最佳主成分數是合理的,即該實際單產 PLS模型的最佳主成分數為5。
2.3.2 PLS模型建立及評價。基于PLS算法,以主成分數為5的5個植被指數,即PSRI、GNDVI、OSAVI、RVI和NDVI為自變量,以實際單產為因變量,使用 201個建模集樣本及(下轉第223頁)
(上接第210頁)
其對應的HJ-1A/1B 影像,構建實際單產估測模型為:
y=1706.1GNDVI-1964.7PSRI+1764.45OSAVI+1478.1RVI+1374.75NDVI+2133.9
建好實際單產估測模型后,利用本模型估測實際單產,將實際單產估測值與實測值繪成1∶1散點圖,統計出最優直線回歸方程及其R2、RMSE和RE。由計算結果可知,建模集和驗證集中的實際單產估測值與實測值間的R2均大于0.7,RMSE分別為754.05、748.20 kg/hm2,RE分別為11.50%、8.88%,利用該PLS模型能較好地估測區域小麥實際單產。
2.3.3 與傳統算法比較。為了與傳統算法進行比較,采用線性回歸(linear regression,LR)和主成分分析(principle comp-onents analysis,PCA)算法,利用建模集樣本建立實際單產估測模型,依據實際單產估測值與實測值的相關系數、RMSE和RE評價模型。表3為PLS、LR和PCA算法模型估測結果,比較發現:樣本數相同,實際單產PLS模型的估測值與實測值相關系數大于LR和PCA模型,RMSE和RE都小于LR和PCA模型,說明PLS模型估測區域實際單產的效果要好于LR和PCA模型,其中實際單產建模集和驗證集估測精度分別比LR算法提高22.46%和41.21%,分別比PCA 算法提高18.57%和32.56%。
3 討論與結論
3.1 討論
隨著HJ-1A/1B衛星投入使用,所獲數據質量不斷提高,且免費提供給用戶使用,為區域性作物遙感估產提供了便捷的數據平臺。本文所選用的HJ-1A/1B影像時間分辨率為2 d,單景影像幅寬為50 km,能滿足區域性小麥估產需求。雖然年度之間田間物候存在一定的差異,但能保證所選用遙感數據處于同一物候期。
本研究將遙感估測的實際單產進行不同等級空間分布,并賦予地理空間信息,以此表達小麥實際單產的空間實際分布狀況和趨勢,說明實時的作物遙感估產,可以在空間上定性和定量地分析作物實際單產狀況,不但可以分級量化顯示作物實際單產分布狀況,而且可以分區域統計作物實際單產不同等級所占的比重,從而能夠向大田區域生產提供及時可靠的實際單產信息。
但本研究仍存在以下幾點不足:一是在建模思路上,僅選擇了一個生長期數據,使得研究結果具有較大的局限性,比如開花期的數據不一定能獲得最好的預測效果,其他時期數據的預測效果可能會更好。另外,不同時期的數據可能最優分析建模方法也不同,這方面將來非常有必要深入探究。二是本研究是基于 HJ-1A/1B影像進行的,由于其空間分辨率偏低,常常導致“同物異譜”“同譜異物”“過擬合”等狀況,從而降低遙感估產精度,以致遙感估產結果仍不能滿足精準農業生產需求,以后將多源、多時相遙感數據與作物生長模型進行耦合,可能是解決這一問題的有效途徑。三是RVI理論上值域變幅較大,但在本研究中相對穩定,可能原因是小麥該生長期長勢均勻、變化幅度小,對應的近紅外和紅光波段反射性能穩定,至于建立的公式各參數的系數差異較小,尤其是 RVI,在此不能妄下結論,其原因是否與數據源有關,還是其他原因,仍有待深入研究。四是本研究僅將PLS與LR和PCA進行對比,應該增加包括人工神經網絡、支持向量機、蟻群、粒子群等算法,以確保結論的可靠性,此外,也未考慮小麥栽培因素影響,實際上,這些算法和因素對小麥遙感估產存在較大的影響,也有待進一步研究。
3.2 結論
利用PLS算法構建了以 PSRI、GNDVI、OSAVI、RVI和NDVI 指數為自變量的實際單產遙感估測模型,經建模集和驗證集評價,實際單產估測模型的 R2分別為0.74、0.70,RMSE分別為754.05、748.20 kg/hm2,RE 分別為11.50%和8.88%,且估測精度比線性回歸算法分別提高22.46%和41.21%,比主成分分析算法分別提高18.57%和32.56%,說明PLS模型區域估測效果明顯好于LR和PCA。
本模型應用結果與小麥區域生產實際相符合,為提高區域性小麥遙感估產精度提供了一種有效途徑。
4 參考文獻
[1] 楊武德,宋艷暾.基于3S和實測相結合的冬小麥估產研究[J].農業工程學報,2009,25(2):131-135.
[2] 黃敬峰,楊忠恩,王人潮.基于 GIS 的水稻遙感估產模型研究[J].遙感技術與應用,2002,17(3):125-128.
[3] 吳炳方.全國農情監測與估產的運行化遙感方法[J].地理學報,2000,55(1):25-35.
[4] 李衛國,王紀華,趙春江,等.基于遙感信息和產量形成過程的小麥估產模型[J].麥類作物學報,2007,27(5):904-907.
[5] 任建強,陳仲新,唐華俊.基于 MODIS—NDVI 的區域冬小麥遙感估產:以山東省濟寧市為例[J].應用生態學報,2006,17(12):2371.
[6] 王長耀,林文鵬.基于 MODIS EVI 的冬小麥產量遙感預測研究[J].農業工程學報,2005,21(10):90-94.
[7] 歐文浩,蘇偉,薛文振,等.基于HJ-1衛星影像的三大農作物估產最佳時相選擇[J].農業工程學報,2010,26(11):176-182.
[8] 高惠璇.兩個多重相關變量組的統計分析(3):偏最小二乘回歸與PLS 過程[J].數理統計與管理,2002,21(2):58-64.endprint