丁 鵬,徐愛俊,周素茵*
( 1. 浙江農林大學信息工程學院,浙江 杭州 311300;2. 浙江省林業智能監測與信息技術研究重點實驗室,浙江 杭州 311300)
【研究意義】作物產量的精準預測,能夠為國家農業管理和相關政策的制訂提供有效支撐[1],同時在計劃、生產手段、當前決策、運輸、庫存和風險管理等方面都具有非常重要的作用[2-3]。茶葉作為我國的一種重要經濟作物,研究其產量預測模型意義重大。【前人研究進展】Moslem Abdipour等[4]建立以紅花次枝的數量、枝干重、花序中的傘形花序數以及生物學產量為輸入的紅花產量人工神經網絡(artificial neural network,ANN)預測模型和多元線性回歸(multiple linear regression,MLR)模型,結果表明ANN模型的決定系數、平均絕對誤差和均方根誤差均優于MLR。Gniewko Niedbala[5]同樣利用ANN模型,以氣象數據和礦物施肥信息為特征預測冬油菜產量,預測效果良好,但ANN模型的結果可解釋性較低,學習時間較長且參數較復雜;劉峻明等[6]構建多種變量組合的隨機森林冬小麥產量預測模型,各模型預測效果較好,決定系數均基本高于0.75;Yaping Cai等[7]利用衛星反演的遙感植被指數和氣候變量,構建與小麥產量之間的線性方法LASSO以及3種非線性方法,研究表明氣候數據與衛星數據相結合的非線性方法的預測效果均優于線性方法。任建強等[8]基于歸一化植被指數和一元線性回歸模型預測美國各州玉米產量,但一元線性回歸模型的決定系數較低。現有關于作物產量預測的研究雖然較多,但是茶葉產量預測方面的卻較少,主要包括兩類:一是通過建立多元線性回歸分析模型[9-10],實現茶葉產量預測,但氣象特征較少、不全面,且該研究的線性模型僅進行了擬合,并未對模型的預測效果進行驗證與測試;二是通過構建灰色神經網絡預測茶葉產量[11],但該研究僅以非自然因素為輸入特征,研究樣本量較少且難以分析特征變量對產量的影響。總之,現有關于茶葉產量預測的研究存在以下問題:特征構建不全面、不深入,難以反映具體特征變量對產量的影響,樣本規模較小且大多以省市為單位進行產量預測等[9-11]。【本研究切入點】上述關于作物產量預測的研究雖然都選取了多維特征,但基本都未將社會發展特征加入特征集之中,忽略或事先排除了社會發展特征的影響,例如令目標變量為作物單產,排除種植面積的影響,可能會導致模型預測效果受影響,且無法分析社會發展特征對產量所造成的影響以及與其他因素對產量的影響進行對比。另外,茶葉的生長發育環境十分復雜[12],茶葉的產量受到社會技術水平、空間位置、氣象條件等多種因素的影響。梯度提升決策樹是對真實分布擬合最好的機器學習算法之一,它通過學習得到多個弱分類器并進行多次迭代來提升模型的性能[13],具有預測精度高、構建過程簡便、能處理非線性、連續和離散數據、結果可解釋等優點[14-17],該算法在電力工程、交通運輸、控制工程[18-20]等多個領域均有應用,但在茶葉產量預測上尚未有相關報道。【擬解決的關鍵問題】因此,本文基于梯度提升決策樹算法,以浙江省為研究區域,結合各茶葉主產區的茶葉年產量數據、空間氣象數據和社會發展特征,選擇不同特征或不同茶區建立茶葉估產模型,并分析不同特征或不同茶區對預測結果的影響,以期確定影響茶葉產量的決定性和輔助性因素,為茶葉生產管理提供指導意見,并為預測區域茶葉產量提供新思路。
浙江省位于中國東南沿海,東經118°01'~123°10',北緯27°02'~31°11'之間,屬亞熱帶季風氣候,四季分明,年氣溫適中,光照較多,降水充足,空氣濕潤。年平均氣溫15~18 ℃,年平均降水量在1500~2000 mm,年平均日照時數1710~2100 h。根據氣候、自然條件、山脈以及行政區劃等,可將浙江省劃分為浙西北、浙東、浙南和浙中四大茶區[21],茶葉產量依次分別約占全省茶葉的35%、45%、5%和15%。
本研究的茶葉產量數據和社會發展要素分別來自《浙江省統計年鑒》[22]記載的主要茶葉產區(縣級行政區)的茶葉年產量資料和社會發展資料,覆蓋了1995-2016年間連續為茶葉主產區的24個縣(市區)的共528個有效數據,這24個茶葉主產區均不屬于浙南茶區。茶葉主產區的空間位置數據從各縣(市區)的氣象觀測站獲得,分布情況如圖1。氣象數據源于《中國地面氣候資料日值數據集(V3.0)》[23],提取浙江省內各茶葉主產區1995-2016年間的逐日氣象數據,并通過空間插值方法[24]填充缺失的氣象數據。
1.3.1 GBDT模型構建 (1)特征集構建。本研究模型的特征集共分為兩類:空間氣象特征集和社會發展特征集。空間氣象特征集中的空間特征包括各茶葉主產區的經度、緯度、高程3個特征;根據浙江省茶樹主栽品種和茶葉生產現狀,將茶葉生育期大致劃分為春梢(3-5月)、夏梢(6-8月)和秋梢(9-11月)3個生長期[25]。冬季的氣候和極端天氣情況等也顯著影響茶葉的產量,為了體現不同時期的氣象要素對茶葉產量的影響,根據茶葉生育期按季節進行劃分,其中12、1、2月為冬季,3-5月為春季,6-8月為夏季,9-11月為秋季。茶葉的產量受氣溫、相對濕度、降水量、日照等氣象要素的影響[18],空間氣象特征集中的氣象特征如下:首先,以年為單位,提取浙江省每年(起始月份為前一年12月)的年均氣溫、年均相對濕度、年降水量、年日照時數,共4個特征;其次,以月為單位提取浙江省每年各季節的氣象特征,其中月平均氣溫、月平均相對濕度、月日照時數、月降水量、月最大風速、月最高氣壓為各月均有的共6個氣象特征。此外,冬季特有的氣象特征為月負積溫、月日最低溫不高于零下4 ℃的總天數,冬季氣象特征共計24個;春季特有的氣象特征為月日平均氣溫在10~25 ℃之間的總天數、日平均氣溫不低于10 ℃的活動積溫,春季氣象特征共計24個;夏季特有的氣象特征為月日最高溫不低于35 ℃的總天數,夏季氣象特征共計21個;秋季特有的氣象特征為日平均氣溫不低于10 ℃的活動積溫,秋季氣象特征共計21個。最終,確定空間氣象特征共計97個。
社會發展特征主要是指茶葉的種植規模、社會技術等影響茶葉產量的因素,具體包括茶園面積、農業機械總動力、有效灌溉面積、農村用電量、化肥施用量(折純)5個特征。其中后4個特征在茶葉產業中的數據均未有文獻記載且難以搜集,所以本文選取縣(市區)整體的指標數據為特征變量,雖然不能完全代表茶葉產業,但是能反映農作物生長的總的社會環境和條件,提高茶葉產量預測的精度。
(2)GBDT模型。梯度提升決策樹是一種Boosting算法[26](圖2),其基分類器一般選用分類回歸樹(classification and regression tree,CART),通過多輪迭代,每輪產生一個弱分類器, 最終將所有弱分類器加權求和后即得到集成模型,具體描述如下:
(1)
式中,Τ(x;Φm)為決策樹,Φm為決策樹參數,x為樣本數據,M為決策樹個數,ωm為決策樹的權重,模型共迭代M次,其中第m次的模型為:
Fm(x)=Fm-1(x)+ωmΤ(x;Φm)
(2)
式中,Fm-1(x)為當前模型,利用最小化損失函數來確定下一輪決策樹參數:
(3)
L[yi,Fm-1(xi)+ωmΤ(xi;Φm)]=[yi-(Fm-1(xi)+ωmΤ(xi;Φm))]2
(4)
1.3.2 特征重要度計算 特征重要度反映了不同特征變量對目標變量[各縣(市區)茶葉年產量]的影響程度,GBDT模型對不同特征變量重要性的計算的基本思想是:首先計算特征變量j在單棵決策樹中的重要度,如式(5)所示。
(5)

(6)

GBDT模型效果的評價指標采用:決定系數(coefficient of determination,R-Squared)、均方根誤差(root mean square error,RMSE)和平均絕對誤差(mean absolute error,MAE),三者的計算方法分別如式(7)、(8)和(9)所示。
(7)
(8)
(9)

以1995-2011年的數據作為訓練樣本,分別使用97個空間氣象特征、5個社會發展特征以及全部特征變量作為特征集訓練GBDT產量預測模型,多次試驗使各個模型參數均達到最優。從圖3中可以看出以空間氣象特征做特征集的模型的預測效果較差,趨勢較平緩,R-Squared僅為0.44,RMSE高達3454 t,MAE高達2074 t,樣本分布比較松散,預測結果大部分遠低于實際值;以社會發展特征做特征集的模型的預測效果較好,R-Squared達到0.80,RMSE為2037 t,MAE為1388 t;以全部特征變量做特征集的模型的預測效果最佳,R-Squared達到0.90,RMSE為1492 t,MAE為1050 t,樣本分布于1∶1線附近,預測結果相較于另外兩個特征集表現出更小的偏差。
僅使用空間氣象特征預測茶葉產量時,由于未考慮茶園面積增加、技術進步等重要的影響茶葉產量的社會發展因素,導致預測結果的偏差較大;而僅使用社會發展特征預測茶葉產量的預測精度高,說明社會發展特征對茶葉總體產量的影響很大;當空間氣象特征與社會發展特征結合預測茶葉產量時,預測精度再次提升,說明這兩類特征對茶葉的預測都有貢獻,只是空間氣象特征的貢獻比較小。因此,在對茶葉產量進行預測時,需要重點考慮社會發展特征,同時也要考慮空間氣象特征的影響。
為探究不同季節對茶葉產量和模型預測精度的影響,并通過某一季節的數據預測整年的茶葉產量,以1995-2011年的數據作為訓練集,2012-2016年的數據作為驗證集,分別建立春季、夏季、秋季、冬季四個季節的空間氣象特征和各季度的社會發展特征結合的特征集,并進行模型的訓練與驗證。由圖4可知,4個季節的預測精度均較高,R-Squared均達到0.85以上,RMSE和MAE的值均較低,其中春季和冬季的預測精度比另外兩個季節高。由于浙江省春茶的產量占了極大的比重,其次霜凍是茶葉生產中最常見的一種自然災害,低溫又是引起霜凍的主要原因,而霜凍和低溫多發生于冬季和早春時節,會使茶芽受到凍害,導致茶葉產量下降,另外春季適宜的氣溫和積溫會加快茶芽的萌動與發育,使得茶葉產量上升,故冬季與春季的氣象要素對茶葉產量的影響較大。而夏季與秋季的茶葉產量占比較小,其中夏季茶葉產量主要受到高溫天氣的影響,秋季的氣象要素對茶葉產量的影響較小。綜上所述,利用春季或冬季的空間氣象特征和社會發展特征建立GBDT模型可達到較好的茶葉估產效果。
各茶區氣候條件、空間位置、技術發展等均有差異,為了探究分茶區預測茶葉產量是否會提升預測效果,以1995-2011年的數據作為訓練集,2012-2016年的數據作為驗證集,將研究數據按茶區進行劃分,即將浙江省24個茶葉主產區進行劃分(浙西北茶區共包含8個縣(市區)、浙東茶區共包含9個縣(市區)、浙中茶區共包含7個縣(市區)),并分別將各茶區的空間氣象特征和社會發展特征作為特征集,進行模型的訓練與驗證,結果如圖5-a~c所示。再以所有茶葉產區的空間氣象特征和社會發展特征作為特征集,并訓練模型,驗證模型階段需對不同茶區的茶葉產量數據分別進行驗證,結果如圖5-d~f春茶的產量占了極大的比重,其次霜凍是茶葉生產x測各茶區茶葉產量的模型的R-Squared分別為0.78、0.93、0.81,RMSE分別為1611、1452、1698 t,MAE分別為1014、1094、1116 t;以所有茶區的數據來預測各茶區茶葉產量的模型的R-Squared分別為0.86、0.94、0.80,RMSE分別為1312、1374、1724 t,MAE分別為978、996、1211 t。可見雖然中茶區的估產模型的預測效果略有降低,但整體上后者估產效果更好,東茶區的估產模型的預測效果略有提高,西北茶區估產模型的預測效果提高較明顯,R-Squared提高0.08,RMSE降低299 t,MAE降低36 t。
特別地,可以發現無論是以西北茶區的數據還是以整個茶區的數據作為特征集,西北茶區的茶葉產量預測模型的R-Squared的值雖然不高,但是RMSE和MAE值都相對偏低,可能原因是其預測值與實際值比較相近,預測誤差較低,但是預測值的變異度較低,與實際值的平均值差距不大,導致西北茶區的茶葉產量預測模型的可靠度相對略低。
另外,根據茶葉主產區的茶葉年產數據可知,浙西北茶區和浙東茶區的茶葉產量分布比較均衡,而浙中茶區的茶葉產量總體偏低,均分布于15 000 t以下且集中分布于5000 t以內,所以預測浙中茶區茶葉產量時,由于同個茶區內地理位置相近,樣本特征比較相似,易令預測值靠近訓練樣本分布集中的方向。浙西北茶區和浙東茶區的茶葉產量預測精度較高,預測值與實際值相比并無明顯偏向,而浙中茶區的茶葉產量預測精度較低,實際產量較高時往往會被低估。
綜上,若分茶區進行預測,雖然將樣本進行了劃分,但不同茶區樣本之間的差異不足以降低模型的預測效果,反而會使樣本量減少、樣本的覆蓋面和模型的泛化能力降低,導致驗證樣本與訓練樣本有較大差異時,預測效果變差。因此,無需按茶區分別構建估產模型對各茶區的茶葉產量進行預測,擴大特征集的樣本容量,利用所有茶區的數據所構建的估產模型可達到更好的產量預測效果。
利用1995-2016年浙江省茶葉的特征數據和產量數據分別進行基于GBDT的特征重要度分析和特征變量與產量之間的相關性分析,按重要程度由高到低排序。從表1中可以發現排名前3的均為社會發展特征,依次為茶園面積、農村用電量、有效灌溉面積,其重要度遠高于其他特征變量,且它們的|r|極顯著,值也較大。經統計,5個社會發展特征的重要度共高達0.708,其中茶園面積的重要度更是高達0.501,說明社會發展特征對茶葉產量的影響起著主導作用,決定了產量的基本數值。

表1 特征變量的重要度及與產量之間的相關性分析
第4~10位的特征變量均為空間氣象特征,重要度較低,分布于0.02~0.06之間,第10位之后的特征變量重要度基本都低于0.01。經統計,97個空間氣象特征的重要度共達0.292,表明空間氣象特征對茶葉產量的影響起著輔助作用。其中空間特征的重要度共達0.062,年氣象特征的重要度共達0.035,春、夏、秋、冬季氣象特征的重要度分別達0.051、0.047、0.043、0.054,春季和冬季氣象特征的重要度相對較高,這與2.2節中的研究結果相一致。另外,氣象要素中年(月)平均氣溫、年(月)平均相對濕度等具有相對較高的重要度,分別達到0.048和0.055,平均氣溫會影響茶芽的萌動、生長狀況(旺盛、抑制、停止)等,茶葉喜濕,所以平均相對濕度也影響著茶葉的產量,這與以往研究結果相一致[27-28]。上述結論再一次印證了之前的研究結果,即社會發展特征對茶葉產量的影響起著決定性作用,而空間氣象特征對茶葉產量的影響作用較小。
從|r|可以看出,社會發展特征的重要度與|r|基本呈正相關關系,而空間氣象特征的重要度與|r|并無明顯關系,例如前10位中的3月平均氣溫和1月負積溫的|r|并不顯著,其余空間氣象特征|r|值也基本只在0.11~0.15之間,而后10位中的4月平均濕度和3月降水量的|r|卻十分顯著,|r|值也分別達到0.211和0.134。另外,11~91位的空間氣象特征的|r|值大致分布在0~0.2之間,顯著性也無明顯分布規律。說明單個空間氣象特征與茶葉產量的相關性不太具有參考意義,其原因可能是:現代種植技術以及品種的提升會削弱氣候、位置等要素對產量所帶來的影響。所以多維、全方位的特征更加適合茶葉產量的預測。
若選取各縣(市區)茶機(采茶機械和修剪機械)擁有量、茶機總動力、茶園面積、茶園有效灌溉面積等與茶葉產量更加密切相關的社會發展要素作為特征,可能會進一步提升模型的預測效果,但是以各縣(市區)為單位的與茶機或茶園相關的數據(除茶園面積)并未記載也難以收集,故本研究只能選取有記載的、較宏觀卻適宜的數據,例如農機總動力替代茶機總動力、縣(市區)的有效灌溉面積替代茶園有效灌溉面積等。另外,由于資料記載有限,主要茶葉產區數和總樣本數偏少,且茶葉主產區中未包含茶葉總產量最少的浙南茶區的縣(市區),樣本數據不全面,可能會降低估產模型的泛化能力。
茶葉產量會受到諸多要素的影響,所以其產量預測是一項復雜的研究工作,不僅需要選取適宜的特征變量、預測精度高,而且需要結果可解釋性高。本文引入社會發展特征是為了確切地分析社會環境對茶葉產量的影響,同時能對比分析不同類型特征變量對產量的影響程度,確定影響程度較大的因素,為茶葉的生產管理提供指導意見。因此,關于多特征的非線性茶葉產量預測模型的研究是具有一定意義的且是以后的研究重點。
本文基于梯度提升決策樹算法,結合浙江省地面氣候資料數據、空間特征、社會發展特征與茶葉年產量數據,建立茶葉產量預測模型,并探討各個特征的重要度以及其對茶葉產量的影響。
(1)相較于空間氣象特征或社會發展特征,以空間氣象特征和社會發展特征為特征集的模型的預測效果最佳,其決定系數R-Squared達到0.90,RMSE為1492 t,MAE為1050 t。另外,社會發展特征對產量預測效果具有巨大貢獻,其模型的R-Squared達到0.80。
(2)利用春季和冬季的氣象特征預測茶葉產量,效果要優于夏季和秋季,R-Squared均達到0.89,而利用秋季的氣象特征估產的精度最低,R-Squared達到0.86,說明春、冬兩季的氣候因素對茶葉產量的影響更大,秋季的影響最小。
(3)通過計算特征重要度發現,除社會發展特征外,空間氣象特征中空間特征、年氣象特征、春季氣象特征、冬季氣象特征對產量影響較大,氣象因素中年(月)平均氣溫、年(月)平均相對濕度對產量影響較大。另外,社會發展特征的重要度與|r|呈正相關關系,空間氣象特征的重要度與|r|不具有明顯關系。