楊北萍 陳圣波 于海洋 安 秦 (吉林大學 地球探測科學與技術學院,長春 130012)
摘 要 為尋求高效的水稻產量估算方法,以2017年長春市九臺和德惠地區的采樣點為樣本,遙感數據和氣象數據為特征變量,通過對產量與特征變量間的相關性分析與特征變量之間的主成分分析和袋外數據(out-of-data,OOB)變量的重要性分析對特征變量進行選擇,以選擇后的特征變量為輸入變量建立水稻產量估算的隨機森林回歸(RFR)模型。結果表明:特征變量優選后的RFR模型對水稻產量估算的精度更高,決定系數R2和平均相對誤差MRE分別為0.950和0.060;并將該模型應用到農安地區,以多元逐步回歸模型作為比較模型,表明RFR模型的水稻產量估算精度明顯優于多元逐步回歸模型,RFR模型的R2和MRE分別為0.730和0.090,多元逐步回歸模型的R2和MRE分別為0.530和0.120。
水稻是我國的主要糧食作物之一,水稻產量的多少直接關系著農民的生活保障以及農業經濟的發展進程,隨著農業經濟的發展,水稻產量估算費時費力的方法已經難以滿足農業經濟發展的需求,所以找尋水稻產量及時、準確的估算方法也越來越重要。遙感作為一種新興的探測技術,能夠準確快速的收集信息,目前,越來越多的研究學者利用遙感手段獲取信息來進行農作物產量估算方面的研究。Hamar等[1]基于Landsat影像獲取的不同遙感植被指數與玉米和小麥的產量建立了線性回歸模型;洪雪[2]基于高光譜遙感數據的植被指數建立了水稻的產量關系模型,湯斌等[3]基于遙感和氣象數據對江蘇省水稻面積監測和估產進行了研究,但限于不同模型的選擇雖采用了遙感技術但在產量估算精度上仍存在較大差異。
隨機森林回歸(Random forest regression,RFR)模型是一種基于機器學習的統計方法,它能處理很高維度的數據并且估算結果具有較高的準確率。據此已有國內外研究學者將該方法應用于農業遙感估算上來。王麗愛等[4]基于RFR模型結合多種植被指數對小麥葉片SPAD值進行了遙感估算,結果表明RFR模型對比支持向量回歸模型和BP神經網絡模型表現了最強的學習能力;張偉等[5]基于遙感影像數據和樣地調查數據利用RFR模型對江山市公益林生物量進行了估算,估算精度較高。Jeong等[6]應用RFR模型通過多種變量的輸入對全球農作物的產量進行了估算,結果顯示RFR模型是一種高效、可靠地估算方法。然而在目前的研究中應用RFR模型對農作物單點產量進行估算的研究還相對較少,并且大部分學者應用RFR模型進行估算時,均采用特征變量直接輸入的方式,并未對特征變量進行分析。
本研究以遙感數據以及氣象數據作為特征變量,通過對產量與特征變量間的相關性分析、特征變量之間的主成分分析和OOB變量重要性分析,選擇最優數據作為輸入的特征變量建立水稻產量估算的RFR模型,以期提高利用該模型進行水稻產量估算的精度。
研究區為長春市九臺、德惠以及農安地區,是吉林省水稻主產區,位于125°14′~126°30′E,43°50′~44°55′N。研究區氣候以溫帶大陸性季風氣候為主,2017年最高氣溫35 ℃,最低氣溫-29 ℃,年平均氣溫6 ℃;日平均降水量6.7 mm,累積降水量為1 423.9 mm,降水主要集中在6—9月;累積太陽總輻射達到7 923.44 MJ/m2。
1.2.1遙感數據
水稻從生長到成熟主要經歷出苗、分蘗、抽穗、灌漿和成熟5個生育期,由于HJ-1A/B和Landsat8衛星遙感數據空間分辨率相同,本研究從HJ-1A/B和Landsat8衛星數據中獲取2017年水稻全生育期(growing-season,GS)的遙感圖像,使用ENVI軟件對HJ-1A/B衛星數據以及Landsat衛星數據進行預處理,主要包括正射校正、輻射定標、大氣校正。將原始多光譜圖像的DN值轉換為輻射亮度值。表1 為2種遙感數據來源以及影像獲取時間。本研究選擇HJ-1A/B衛星和Landsat8衛星光譜覆蓋范圍內的藍光波段(B1)、綠光波段(B2)、紅光波段(B3)、近紅外波段(B4)反射率數據以及由這4個波段構建的4種植被指數和影響作物生長的光合有效輻射的吸收比例(FPAR)指數作為遙感變量[7-9],共計45個。

表1 遙感變量及其說明Table 1 Remote sensing variable and description
注:GS(1-5)表示水稻5個生育期,例B3GS(1-5)表示5個不同生育期的紅光波段反射率數值,其余變量的下角標GS(1-5)同理。FPARmax與FPARmin分別為0.950和0.001,表示植被覆蓋度最大和無植被覆蓋時的FPAR值,其取值與植被類型無關[10]。
Note:GS(1-5)represents 5 growth periods of rice. Example B3GS(1-5)represents the reflectance value of red light at 5 different growth periods, and the lower corner of other variablesGS(1-5)is in the same way. FPARmaxand FPARminare respectively 0.950 and 0.001, which indicates the FPAR value when vegetation coverage is maximum and without vegetation coverage, and the value is independent of vegetation type[10].
1.2.2氣象數據
氣候條件是影響農作物生長的關鍵因素并且氣候條件的好壞直接影響著農作物產量的高低,這是因為農作物的生長完全或基本在自然條件下,作物的生長和發育階段受氣象因素的影響,適宜的溫度降水和輻射條件才能促進作物生長,本研究選取水稻不同生育期的溫度、降水以及輻射數據作為影響作物產量的特征變量。表2為氣象變量及其單位,共計28個。從中國氣象數據網上獲取氣象站點數據,包括最高溫度、最低溫度、平均溫度、平均降水量以及日太陽輻射,將日太陽輻射進行不同生育期的累積,獲得每個生育期太陽輻射累積值,將5個生育期的降水量進行累積獲取生育期總降水量,根據日平均溫度計算8月平均溫度,并利用ARCGIS軟件通過反距離權重的插值方法插值出與遙感數據分辨率相同的30 m分辨率的矢量,并從矢量中提取研究區內各采樣點的氣象信息。
1.2.3實測數據
2017年在研究區內選擇了多個水稻采樣點,記錄水稻的有效株數和采集水稻真實樣品,并進行脫粒、烘干和稱重等操作。根據水稻的有效株數和重量來計算水稻的實際產量。本研究九臺德惠地區共收集16個水稻采樣點,農安地區6個水稻采樣點,圖1 為研究區2017年水稻采樣點分布圖。

表2 氣象變量及其單位Table 3 Meteorological variables and their units
注:GS(1-5)表示水稻5個生育期,例平均降水量GS(1-5)表示每個不同生育期內的平均降水量,其余變量的下角標GS(1-5)同理。
Note:GS(1-5)refers to the five growth periods of rice, 平均降水量GS(1-5)refers to the average precipitation in each different growth period, and the lower cornerGS(1-5)of the other variables is the same.

圖1 研究區2017水稻采樣點分布圖
Fig.1 Distribution map of 2017 rice sampling sites in the research area
隨機森林回歸模型原理流程圖如圖2所示。

圖2 RFR模型原理流程圖
Fig.2 Flowchart of model principle
1.3.1變量分析
相關性分析,通過相關系數來體現產量與特征變量之間的線性相關程度,相關系數的公式為:
(1)

主成分分析,是將一組相關變量通過線性變換轉成另一組不相關的變量,提取的主成分變量最大的包含原變量的所有信息,達到降維的目的并使得變量間相互獨立。
袋外數據(out-of-bag data,OOB)重要性分析主要基于OOB數據,袋外數據是模型進行中對訓練集做有放回隨機抽樣時每次未被抽到的樣本點組成的數據集,通過袋外誤差增長百分率來衡量特征變量的重要性,針對一個決策樹,將OOB數據對應變量打亂前打亂后分別帶入決策樹[11],計算其誤差的增長百分率(IncMSE%),假設森林中有N棵樹,對于第K顆樹的誤差增長百分率為:
(2)
其中i為某一變量,OOBK1對應的袋外誤差,OOBK2對應的打亂后袋外誤差。
對于N棵樹如果該變量在OOB數據上打亂后對決策樹的結果沒什么影響,及打亂后的均方誤差的差值很小,則說明該變量不重要[12-13]。
1.3.2選擇最佳分割節點
在對決策樹進行分割時,設每個觀測值對應n個特征,則在每一棵樹的每個節點處隨機從n個特征中無放回的隨機抽取m個特征(m≤n),選擇一個最佳分割屬性作為節點創建決策樹,對于回歸模型,最佳分割屬性的評判標準為使分割后兩部分樣本的均方差結果達到最小,然后在分叉的2個節點處再利用這樣的準則,選擇之后的分割屬性,且分割過程不需要剪枝[14-17],直到達到葉子節點為止。
1.3.3模型參數確定
RFR模型對研究區水稻產量的估算借助于R語言中的Random Forest程序包,在該模型中主要有2個參數需要確定:決策樹個數以及隨機選擇的變量個數m。回歸樹個數將直接影響預測結果的誤差,但當決策樹的個數為一個合適的數值時,袋外誤差的變化將趨于恒定不變,本研究RFR模型中決策樹的個數均根據決策樹個數與誤差的關系圖確定,如圖3所示。隨機選擇的變量個數程序包一般默認為總變量的1/3[18]。

圖3 決策樹與袋外誤差關系圖
Fig.3 Relation between decision tree and outside bag error
1.3.4水稻產量估算的RFR模型建立
首先應用九臺德惠地區的采樣點進行建模,由于模型輸入變量不同水稻產量估算結果也不盡相同,針對變量選擇的不同分別建立了不同水稻產量估算的隨機森林回歸模型。首先用全部73個變量作為模型的輸入變量,建立水稻產量估算的RFR1模型;其次分析全部特征變量與產量之間的相關性,提取15個相關性較高的變量(其相關性>0.6)建立水稻產量估算的RFR2模型;其提取的15個變量與產量的相關性表3所示;對該15個相關性高的變量進行主成分分析,提取3個主成分分析結果,累計貢獻率為86.040%,建立水稻產量估算的RFR3模型;在RFR2的基礎上,對15個相關性高的變量進行了重要性排序分析,剔除變量重要性排序低的變量(%IncMSE為負值),將剩余變量重新作為輸入變量建立了RFR4模型。特征變量重要性排序圖如圖4所示。與此同時,對全部原始變量進行主成分分析,提取了10個主成分,累計貢獻率為96.670%,以這10個主成分作為模型輸入變量,建立水稻產量估算的RFR5模型;對10個主成分與水稻產量間進行相關性分析,發現只有第二主成分與產量的相關性較大(相關系數為0.638),以第二主成分為輸入變量建立RFR6模型。

表3 水稻產量與特征變量相關性表Table 3 Correlation Table of rice yield and characteristic variables

圖4 特征變量重要性排序圖
Fig.4 Ranking diagram of importance of feature variables
1.4.1留一法交叉驗證
對于輸入變量不同而建立的模型分別應用留一法進行交叉驗證,每次選出一個樣本進行驗證,其他樣本全部作為訓練樣本,然后建模并驗證一個測試樣本的估算精度以及誤差,直至所有樣本均參與了驗證[13],該實驗有16個水稻樣本點,每個模型均將進行16次的交叉驗證。避免了因樣本選擇出現的偶然性,可以有效的對模型的穩定性進行評價。
1.4.2決定系數
決定系數(coefficient of determination,R2)也稱擬合優度,是相關系數的平方,它的大小決定了相關的密切程度,R2越接近1,表示2個數據擬合優度越好,相反,越接近0,表示擬合結果越差。
1.4.3平均相對誤差
平均相對誤差(MRE)是多個樣本測量值與估算值之間相對誤差的平均值,用來作為評價水稻產量估算的結果與實測產量間的誤差的一個標準,其計算公式為
(3)
式中:xm表示水稻產量測量值,xe表示產量估算值,N表示樣本個數,本研究中對水稻產量的估算,MRE越小表示估算結果精度越高。
利用留一法交叉驗證的方法,每次選出一個樣本進行驗證,各模型水稻產量估算的訓練集和驗證集的平均相對誤差變化如圖5所示,其中,驗證集的平均相對誤差呈現逐漸減小的趨勢,訓練集的平均相對誤差趨于恒定,研究區水稻樣本點各模型的水稻產量估算值與實測值的對比如圖6所示,其中RFR3模型產量估算結果滿足關系式:y=0.730 3x+1 868.4,R2為0.949,相比于其他模型最高,平均相對誤差為0.064,對比于其他模型最小;而剩余模型中RFR1模型對比于RFR2模型精度較高;RFR2模型對比于RFR5模型精度較高。RFR4模型以及RFR6模型對于水稻產量的估算結果精度較低。

圖5 水稻產量估算誤差變化
Fig.5 Variation of rice yield estimation error

圖6 水稻產量估算與實測對比
Fig.6 Comparison between rice yield estimation and observed results
由上分析可知RFR3模型水稻估算精度更好,為了進一步評判RFR3模型的適用性,在原本研究區樣本點的基礎上加入農安地區的6個樣本點進行建模,農安地區在地形、土壤類型、以及氣候類型上與研究區較為接近,并利用了SPSS軟件對RFR3模型輸入變量與產量間進行了多元逐步回歸,逐步回歸結果輸入變量為第三生育期的EVI指數,移除了其余變量,關系式為:y=9 596.123×EVIGS3+980.356,將多元逐步回歸結果與RFR3模型進行對比,表4為精度對比結果,結果表明應用RFR3模型對農安地區的水稻產量進行估算的結果依然較好,R2達到0.730,MRE達到0.090,明顯優于多元逐步回歸模型的估算精度。所以應用RFR模型估算水稻產量結果較為可靠、并且精度較高,可以很好地滿足農業發展對于農作物產量估算方面的需求。
本研究以遙感數據以及氣象數據為特征變量,通過對產量與特征變量間的相關性分析、特征變量之間的主成分分析和OOB變量重要性分析選擇了最優的特征變量建立水稻產量估算的RFR模型,同時建立多元逐步回歸模型與優選后的RFR模型的估算結果進行比較,進一步評價RFR模型的估算精度。研究得到以下結論:
1)應用RFR模型對研究區水稻產量估算時需要對特征變量進行選擇,經過優選后的RFR模型比未優選的估算結果精度更高。特征變量的選擇明顯改善了模型估算精度。
2)將優選后的RFR模型應用到農安地區,農安地區的產量估算結果較好,初步驗證了該模型在產量估算上的適用性。
3)優選后RFR模型對水稻產量的估算精度高于多元逐步回歸的估算結果。說明優選后RFR模型能很好的估算農作物產量,為農作物產量估算方法提供新的參考。
通過單一變量對產量進行估算時往往誤差較大,通過圖6可以發現結合多種數據進行分析,進而對農作物產量進行估算可以達到很好的效果,本研究的研究區為九臺和德惠地區,僅對農安地區的采樣點進行了初步驗證,該模型的適用性還有待于進一步驗證。本研究的輸入變量為遙感方法獲取反映植被生長狀態的一些指數數據和氣象網站獲取的氣象數據。然而,影響作物生長的因素眾多。本研究只考慮了部分遙感數據和氣象數據,在一定程度上降低了最終的估算精度。