








摘" 要:玉米是我國種植面積最廣、產量最高、食用最多的3種主要農作物之一,掌握科學預測玉米產量的技術,可以為農業的種植規劃、糧食儲存加工、市場調控提供技術支持。該文兼顧氣象因素和土壤因素,建立BP神經網絡模型、RBF徑向基神經網絡模型、GBDT梯度提升決策樹模型,對吉林省各縣市玉米產量進行回歸分析,對比分析其誤差。實驗結果中,GBDT模型預測的產量和真實產量間的擬合程度較高,R2達到0.92,可以在吉林省各縣市玉米產量預測中表現出較好的效果。結果表明該模型對吉林省40個縣市玉米產量進行預測的可行性,數據易于獲取,能夠幫助政府農業部門制定相關政策和方針指導生產。
關鍵詞:玉米產量;GBDT;預測模型;氣象因素;回歸分析
Abstract: Corn is one of the three main crops with the widest planting area, the highest yield and the most eaten in China. Mastering the technology of scientific prediction of corn yield can provide technical support for agricultural planting planning, grain storage and processing, as well as market regulation. Taking into account meteorological factors and soil factors, this paper establishes BP neural network model, RBF radial basis neural network model, and GBDT gradient lifting decision tree model; then, the paper makes a regression analysis of corn yield in various counties and cities of Jilin Province, and a comparative analysis of their errors. In the experimental results, the fitting degree between the predicted yield and the real yield of GBDT model is high, R2 is up to 0.92, which can show a good effect in the prediction of corn yield in various counties and cities of Jilin Province. The results show that the model is feasible to predict the corn yield of 40 counties and cities in Jilin Province, and the data are easy to obtain, thereby can guide the agricultural departments of the government to formulate relevant policies and guidelines to guide production.
Keywords: corn yield; GBDT; forecasting model; meteorological factors; regression analysis
吉林省又被稱為“黑土地之鄉”,土壤肥力高,是適合玉米種植生長的黃金地帶,提前預測玉米產量可以對吉林省農業活動、貿易進行指導。
人工智能算法在作物估產方面展示出了極強的問題解決能力,不需要外部指令就可以在計算機內輸入的數據中找到規則[1-3]。Cheng等[4]將機器學習算法與多指標相結合,采用隨機森林回歸(RFR)和梯度提升決策樹(GBDT)機器學習方法來預估玉米產量。周修理等[5]利用GA-RF模型探究不同深度的土壤堅實度對大豆產量的影響。
由于氣象因素和土壤因素易于獲取,耗費的時間和人力成本低,因此更適用于大田作物。Christopher等[6]預測季風天氣對水稻收獲面積的影響,再通過水稻收獲面積預測產量。Nishigandha等[7]利用多元線性回歸和ANN天氣模型預測印度油菜籽和芥末產量。丁鵬等[8]分析97個氣象特征和5個社會發展特征等多種特征變量的組合對茶葉產量預測的影響,建立基于梯度提升決策樹算法的多特征非線性回歸模型。Nyéki等[9]比較了CP-ANN算法、XY-F算法、XGBoost算法的優劣,建立玉米產量與氣象、土壤因素之間的機器學習模型,結果表明XGBoost算法能夠有效預測中高產區玉米產量。
通過上述文獻梳理可知,人工智能模型大量應用于作物的產量預測,因其可以通過對以往經驗進行運用,自動優化改良算法,是產量預測的最佳方法之一。本研究利用人工智能模型提前預測吉林省各縣市的玉米產量,輔助政府調整生產計劃,保障糧食市場的穩定供應,指導資源合理配置。
1" 數據來源及數據預處理
1.1" 數據來源
本實驗中涉及吉林省40個縣市2005—2021年間的氣象因素、土壤數據及產量信息。氣象數據選取各年度5—9月的月均數據,包括地面氣壓、氣溫、降水量、相對濕度、蒸發量、風速和總太陽輻射度等,來自歐洲中期天氣預報中心(ECMWF)的ERA5數據集。土壤數據包括植被指數、蒸散量、10~100 cm濕度土壤和10~100 cm土壤溫度,其中植被指數來自美國國家航空航天局地球觀測網站(NASA Earth Observations),其余來自美國國家航空航天局的GES DISC網站。產量數據來自吉林省各縣市統計局發布的統計公告,包括農安縣、長嶺縣、乾安縣等40個縣市的玉米產量。
1.2" 數據填補
對于數據中存在的部分缺失,本文采用回歸估計法插補產量數據缺失值,利用輔助變量與已知的數據建立回歸模型,使用服從正態分布的殘差作為隨機項,對缺失值進行估計。
1.3" Pearson相關性分析
由于影響產量的氣象、土壤因子較多,需要分析特征變量與產量之間的相關性程度。Pearson相關性分析可以判斷2個變量之間的相關性,篩選出影響玉米產量的關鍵影響因子。與最終產量相關性較高的影響因子見表1。
1.4" 數據歸一化
模型建立過程中使用的數據間量綱的差異巨大,直接進行建模會造成結果偏差較大,因此本文使用數據歸一化方法將數據統一映射將數據轉換到[0,1]的區間中。
2" 模型構建
2.1" BP神經網絡
BP(Back Propagation)神經網絡是由David Rumelhart 和 J.McClelland提出的一種誤差逆向傳播的神經網絡,通過反向傳播不斷調整權值和閾值以減小模型的誤差平方和。
根據影響玉米產量的影響因子建立相應的神經元個數,輸出因子為玉米產量,具體隱含層神經元個數通過公式(1)計算。
(1)
式中:Ns為訓練集樣本數,Ni為輸入層神經元個數,No為輸出層神經元個數,α為2~10間常數,經過不斷測試微調可得到最優的隱含層神經元個數。
2.2" RBF徑向基函數神經網絡
RBF網絡是一種單隱含層前饋神經網絡,對非線性輸入輸出映射進行局部逼近,效率高、結構簡單、訓練速度快,主要結構包括輸入層、隱含層、輸出層,其中隱含層使用徑向基函數作為激活函數。RBF徑向基函數神經網絡模型結構如圖1所示。
圖1" RBP神經網絡算法的網絡結構
RBF徑向基函數神經網絡的基函數通常使用高斯函數,其激活函數如公式(2)所示。
(2)
式中:‖xp-ci‖為歐幾里得范數,σ為高斯函數方差,ci為高斯函數的中心。
2.3" GBDT梯度提升決策樹
GBDT是一種基于boosting集成學習的不斷擬合殘差的迭代決策樹算法,是提升樹利用加法模型和前向分步算法實現學習優化的過程。適用于稠密數據,可并行計算,計算速度快且泛化能力強。GBDT是M棵樹組合成的一個加法模型,采用的基學習器是決策樹,使用的是CART回歸樹,具體算法流程如下。
初始化弱學習器,見公式(3)估計使損失函數最小化的常數值 。
(3)
迭代訓練m=1,2,…,M棵樹。
對每個樣本i=1,2,…,N,計算損失函數的負梯度在當前模型的值,即殘差,如公式(4)所示。
(4)
將上步得到的殘差rim作為樣本新的真實值,并將數據(xi,rim),i=1,2,…N作為下棵樹的訓練數據,得到一顆新的回歸樹fm(x),其對應的葉子節點區域為Rjm,j=1,2,…,Jm。其中J為回歸樹的葉子節點的個數。
對葉子區域j=1,2,…J計算最佳擬合值,具體公式如公式(5)所示,使損失函數極小化,其中γjm是Rjm的平方損失最小值。
(5)
更新強學習器,I是指示函數,若x∈Rjm則I=1,否則I=0,其計算過程如公式(6)所示。
(6)
3" 結果與分析
3.1" 模型對比
為了對比不同模型的精度,在對比分析時使用MAE平均絕對誤差(Mean Absolute Error)、MAPE平均絕對百分比誤差(Mean Absolute Percentage Error)、RMSE均方根誤差(Root Mean Squard Error)及R2(確定系數)共4個評價指標。3個模型的模型評價指標見表2。
由表2可以看出,在吉林省40個縣市的玉米產量預測結果中,GBDT模型的R2達到0.92。GBDT模型的平均絕對誤差MAE比BP神經網絡小41.271%,比RBF神經網絡小34.688%;均方根誤差RMSE比BP神經網絡小52.862%,比RBF神經網絡小75.202%。
對比3個模型的預測結果,分別進行相應擬合系數圖的分析,驗證其預測性能,如圖2所示。散點圖顯示,不同預測模型的擬合程度依次為GBDT模型大于BP模型大于RBF模型。
3.2" 結果驗證
在玉米產量模型構建完成后,將2020、2021年2年間的數據單獨做驗證,對比玉米產量的預測值和真實值,如圖3所示,進一步證明模型的可靠性。
4" 結束語
本研究結合吉林省實際情況,針對玉米復雜生長過程中的氣溫、降水等氣象因素和土壤溫度、土壤濕度等土壤因素,建立GBDT模型對玉米產量進行預測。實驗結果表明,基于氣象、土壤等因素的GBDT模型的預測誤差R2達到0.92,BP、RBF模型的R2分別為0.803、0.677,說明GBDT模型具有較高的準確性,對玉米的產量預測具有一定的參考意義,未來將考慮應用于更多地區及作物種類。
參考文獻:
[1] 路思恒,尹紅.基于BP神經網絡對云南省糧食產量的預測模型[J].農業裝備與車輛工程,2023,61(1):39-43.
[2] PIEKUTOWSKA M, NIEDBA?覵A G, PISKIER T, et al. The application of multiple linear regression and artificial neural network models for yield prediction of very early potato cultivars before harvest [J]. Agronomy, 2021,11(5):885.
[3] 顧麗麗,劉勇,王亮.基于ASSA-GRNN的施肥量預測與控制實現[J].農機化研究,2021,43(10):1-6.
[4] CHENG M, PENUELAS J, MCCABE M F, et al. Combining multi-indicators with machine-learning algorithms for maize yield early prediction at the county-level in China [J]. Agricultural and Forest Meteorology, 2022,323:109057.
[5] 周修理,張萍萍,秦娜,等.基于GA-RF模型土壤堅實度對黑土區大豆產量的影響[J].東北農業大學學報,2022,53(10):67-75.
[6] CHRISTOPHER B, TIMOTHY F, BEN P. Identifying links between monsoon variability and rice production in India through machine learning [J]. Scientific reports, 2023,13(1):2446.
[7] NISHIGANDHA K, LOCHAN D R, PARISHMITA D, et al. Forecasting yield of rapeseed and mustard using multiple linear regression and ANN techniques in the Brahmaputra valley of Assam, North East India[J].Theoretical and Applied Climatology,2022,150(3-4):1201-1215.
[8] 丁鵬,徐愛俊,周素茵.基于梯度提升決策樹多特征結合的茶葉產量預測[J].西南農業學報,2021,34(7):56-63.
[9] NY?魪KI A, KEREPESI C, DAR?譫CZY B, et al. Application of spatio-temporal data in site-specific maize yield prediction with machine learning methods[J].Precision Agriculture,2021(22):1397-1415.
基金項目:吉林省科技發展計劃項目(YDZJ202201ZYTS692)
第一作者簡介:徐子曦(2000-),女,碩士研究生。研究方向為農業信息化等。
通信作者:唐友(1979-),男,博士,教授。研究方向為農業信息化等。