關鍵詞:Stacking集成算法;糧食產量;中國南方;預測
中圖分類號:F326.11;S126 文獻標識碼:A
文章編號:0439-8114(2025)05-0155-05
DOI:10.14088/j.cnki.issn0439-8114.2025.05.024 開放科學(資源服務)標識碼(OSID):

Grain yield prediction in southern China based on Stacking ensemble algorithm
MADian-jing',ZHAO Jia-song1,YAN Wei-yu1,DUANGuang-jun1,LIU Zhen-yang2,WU Shao-tian’ (1.School of Big Data,Yunnan Agricultural University,Kunming 65O2O1,China; 2.School of Data Science and Engineering,Kunming City College,Kunming 65Oo32,China)
Abstract:Basedonthe grainyielddataand11-dimensionalrelevantactorsfromAnhui,Hubei,Hunan,Jiangsu,andSichuanprov inces insoutherChinabetwen1998and2O22,theBP-SVR-Stacking grainyieldpredictionmodelbasedonthe Stacking ensemble algorithmwasdevelopedandcomparativelyanalyzedwiththeBPneuralnetwork modelandSVRmodel.Theresultsindicatedthatthe mean absolute error ( MAE )and mean absolute percentage error ( MAPE )of the BP-SVR-Stacking model were significantly lower than thoseof theBPneuralnetworkmodelandSVRmodel,hichdemonstratedthesuperiorpredictioncapabilityoftheBP-SVR-tacking modeloversingle machinelearningmodels.ComparedwiththeBPneuralnetworkmodelandSRmodel,thecoeficientofdetermination ( R2 )of the BP-SVR-Stacking modelincreasedby0.124and0.122 respectively,suggesting thatthe BP-SVR-Stacking model possessed excellent fiting capability and prediction performance.
Key Words:Stacking ensemble algorithm;grain yield;southern China;prediction
糧食產量是一個涉及生態學、社會學、經濟學和統計學的復雜問題,其產量受環境、科技、經濟、政策和勞動力等多重因素的影響[1。近年來,中國存在糧食生產重心不斷北移,區域性供需矛盾凸顯,耕地數量減少,政府抓糧動力不足和農民種糧積極性減弱等問題2。中國南方作為主要糧食生產區,其氣候條件復雜多樣,農業生產的集約化程度較高,降水量和溫度變化劇烈,因此,提升南方地區糧食產量預測的準確性對農業決策具有重要的參考價值。
國內外在糧食產量預測方面的方法及研究成果較為豐富,主要包括回歸模型、灰色預測模型及神經網絡模型等。蔡承智等3運用ARIMA模型對中國水稻單產水平進行預測,通過時間序列反映影響因素及投入變量的變化趨勢,提出改良中低產稻田的建議。李修華等4利用遺傳算法優化BP神經網絡模型,并對廣西某地的甘蔗產量進行預測,GA-BP模型的預測精度明顯優于BP神經網絡模型。趙桂芝等5采用混沌理論進行相空間重構優化輸入,結合粒子群算法優化支持向量機(SVM),實現對某省糧食產量的精準預測,該方法與傳統的灰色GM(1,1)模型相比有較大改進。Khaki等使用卷積神經網絡和循環神經網絡構建CNN-RNN模型,對美國的玉米和大豆產量進行預測。劉峻明等7采用隨機森林算法結合長時間序列的氣象數據,對冬小麥的產量進行早期預測,以氣象產量和相對氣象產量為目標變量構建組合模型,其預測效果優于單一模型。
上述研究為糧食產量預測提供了重要的理論和實踐基礎,但仍存在一些問題。由于南方地區農業生產的特點和氣候環境的復雜性,單一模型難以有效應對多個省份不同地理環境及生產條件的挑戰;雖然BP神經網絡和SVR模型可以解決一些多維、非線性映射及小樣本數據的問題,但也存在一些缺點,如過擬合、容易陷入局部最優解及收斂速度慢等問題[8]。因此,將多種模型進行集成,構建新的預測模型。Stacking模型具有異質組合優勢和K折交叉驗證的自適應性,能夠大幅提高預測性能,尤其在處理復雜、高維度的數據集時效果更為明顯[9]。
近年來,基于Stacking集成的模型被用于電力負荷預測[10.]交通流量預測[12]、火災預測[13]、圖像識別4等領域,取得較好的效果,但該模型在糧食產量預測領域中的應用較少。因此,本研究綜合考慮中國統計年鑒以及南方地區的產糧情況,以1998—2022年安徽省、湖北省、湖南省、江蘇省和四川省5個省份的糧食產量及影響產量的11個特征變量為數據源,基于Stacking集成算法建立BP-SVR-Stack-ing模型,分析對比BP神經網絡模型、SVR模型和BP-SVR-Stacking模型在南方地區糧食產量預測方面的精度及預測誤差,以期為糧食生產的整體管理措施調整及決策提供技術支撐。
肥料施用數據 氣象數據 農業生產數據特征變量 → 4 L 5 1V V氮肥 磷 鉀 復合肥 降水量 濕度 水庫 機械 水土 播種肥 肥 溫 總動 流失 面積力 治理面積
1.2 數據預處理
使用最小-最大歸一化方法將所有數據轉換為0\~1。通過歸一化公式將數據集中的最小值映射為0,最大值映射為1,其他數據點則根據其相對位置進行線性映射,從而消除量綱差異,確保各特征處于同一尺度,便于后續分析與建模。
1.3 預測模型構建
1.3.1BP神經網絡模型BP神經網絡因具有良好的非線性映射能力、自學習和自適應能力,成為目前應用最多的神經網絡之一。BP神經網絡是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,能夠模擬生物神經系統真實世界與環境之間的交互反應,計算過程由正向計算和反向計算組成[15]。通過正向傳播將信號從輸入層傳輸到隱藏層,并在隱藏層中計算。將隱藏層計算的結果傳輸到輸出層并輸出。將結果與期望值進行比較,通過反向傳播(即回溯)對誤差進行修正[16]。BP神經網絡結構如圖2所示[17],輸入層為 X1~X11 ,輸出層為Y。

1 數據與方法
1.1 數據來源
研究區位于中國南方糧食的主產區,包括安徽省、湖北省、湖南省、江蘇省和四川省。數據來源于1998一2022中國統計年鑒的肥料施用數據、氣象數據及農業生產數據。選取氮肥、磷肥、鉀肥、復合肥、氣溫、降水量、濕度、水庫、機械總動力、水土流失治理面積和播種面積11個指標作為影響糧食產量的特征變量,如圖1所示。以1998—2019年的數據作為訓練集,用于模型的訓練,以2020一2022年的數
1.3.2SVR模型SVR是一種基于結構風險最小化原理的用于解決小樣本、非線性及高維問題的機器學習方法,其核心思想是利用核函數將非線性函數從低維空間映射到高維空間,使其變為線性函數,然后進行線性擬合[18]。支持向量機回歸旨在通過構建多元回歸函數,基于給定數據集預測未知對象的輸出屬性[19]。神經網絡模型的訓練結構由輸入層、隱藏層和輸出層組成,通過輸入層與隱藏層之間的非線性變換,最終在輸出空間實現線性回歸。因此,當隱藏層維度足夠大時,支持向量回歸能夠逼近任意非線性映射關系,其基礎模型[20]如下。
f(x)=ωTφ(x)+b
式中 ?,f(x) 為線性回歸函數; φ(x) 為映射函數;ωT 為 ω 的轉置; ω 與 b 為未確定的參數。支持向量回歸原理如圖3所示。

1.3.3Stacking集成模型Stacking是目前機器學習領域熱門研究方向,是一種把初級預測器的預測結果作為第二層學習器輸入的方法,稱為學習法。主要包括兩種學習器,分別為初級學習器(又稱基學習器)與次級學習器(又稱元學習器),此算法能將多個模型的規則進行結合并使用某種規則將初級學習器的結果進行再訓練。基學習器的質量和多樣性非常重要,直接影響最終集成模型的性能。不同學習器可使用多折交叉檢驗拆分訓練集,在訓練數據上進行訓練并使用多個預測器來做預測,得到多個預測結果。集成模型的測試過程分為兩層,第一層中訓練好的模型用于對測試數據進行預測,以獲取測試集的預測特征;第二層中利用這些預測特征進行預測,獲得最終的預測結果[21]。不同學習算法的假設空間和模型能力可能存在差異,而Stacking集成學習方法通過組合異構弱學習器來提升模型性能[22]。集成模型具有效果好、可解釋性強、適應復雜數據等特點,是模型融合領域中最實用的方法之一。它能夠自動整合不同模型的優勢,有效提升模型性能、準確性及泛化能力,同時避免過擬合問題[23]
BP神經網絡憑借其強大的非線性映射能力,能夠有效實現時間序列數據的建模與預測;SVR模型適合處理小樣本及高維數據。本研究樣本數據較少,但數據維度較多,因而選取BP神經網絡模型和SVR模型作為基學習器。由于第二層特征源自對第一層數據的學習,因此應避免在第二層中包含原始特征,以降低過擬合風險。因此,通常選擇簡單的回歸模型作為元學習器。Stacking集成學習的算法框架如圖4所示。首先,將原始數據集按年份劃分為若干子集,分別輸入到第一層預測模型中,通過各基學習器進行訓練得到第一層模型的輸出結果。然后,將該預測結果再輸入到第2層模型,并利用該層的元學習器模型進行訓練,得到最終的預測結果。
訓練Stacking集成模型主要包括3個步驟[24]
1)原始數據集的劃分和學習器的確定。對于糧食數據集,其中 X1~X11 代表樣本的特征向量,Y為樣本對應的預測值,采取自主劃分的方式,將數據集劃分為訓練集(Traindata)和測試集(Testdata),同時確定基學習器個數為2,元學習器個數為1。
2)基學習器訓練。首先,將訓練集數據通過交叉驗證分成 K 個子集。將其中1個子集作為驗證集,剩余的 K-1 個子集合并為訓練集,進行模型訓練,并生成子集對應的預測值,重復這個過程直到每個子集生成相應的預測值。其次,將基學習器的預測值合并成新的訓練集,把合并后的訓練集作為元學習器的訓練集,并將基學習器中的 K 組測試集取平均值,將其作為元學習器的測試集。為避免過擬合且生成更穩定的元特征,本研究采用5折交叉驗證方法,將訓練集劃分為5個子集來訓練BP神經網絡模型和SVR模型,如圖5所示。
3)元學習器訓練。把第一層學習器的預測值作為元學習器LR模型的輸人訓練元學習器,得到融合模型,并對元學習器進行檢驗和判斷評價。
Stacking融合方式的最大特征在于充分考慮第1層算法的特征,并通過第2層的結合策略發現第1層模型中各類算法的預測誤差并及時糾正,從而對模型的整體預測精度進行改善。


2 結果與分析
2.1 模型評估指標
用平均絕對誤差 (MAE) )、平均絕對百分比誤差(MAPE)和決定系數 (R2)3 個指標來評價模型的估產性能,計算式如下。



式中, yi 為實際值;
為預測值;
為實際值的平均值; n 為樣本總數。
R2 越大, MAE 和MAPE越小,說明模型預測性能越好。
2.2 模型預測性能對比分析
本研究基于中國南方地區安徽省、湖北省、湖南省、江蘇省和四川省1998—2019年的糧食產量數據進行建模,分別構建BP神經網絡模型、SVR模型和BP-SVR-Stacking模型。為了評估BP-SVR-Stack-ing模型的預測精度,以2020年、2021年和2022年作為驗證年份。由圖6可知,3種模型的預測值均與真實值的走勢相似,且BP-SVR-Stacking模型的預測結果與真實值最為貼近,整體效果最優。
南方地區受季風氣候影響顯著,水資源利用壓力大,病蟲害頻發,同時由于不同省份在生產投入、土壤條件等方面存在差異,導致各地區模型的預測精度有所不同。總體來說,BP-SVR-Stacking模型的預測精度均較高,3種模型對5個糧食主產區糧食產量預測結果的平均絕對百分比誤差如圖7所示。BP-SVR-Stacking模型在5個省份中的表現存在一定的差異,其中安徽省和湖北省預測的平均絕對百分比誤差較大,而模型在湖南省、江蘇省和四川省的預測中表現出較高的精度和穩定性,其預測誤差均小于0.03。
3種模型在糧食產量預測中的性能如表1所示。BP-SVR-Stacking模型的MAE和MAPE均明顯低于BP神經網絡模型和SVR模型,說明BP-SVR-Stack-ing模型的預測能力優于單一的機器學習模型。從R2 可以看出,BP-SVR-Stacking模型相較于BP神經網絡模型和SVR模型分別提高了0.124和0.122,說明BP-SVR-Stacking模型具有良好的擬合能力和預測性能。
3小結與討論
準確、及時的糧食產量預測對于確保國家糧食安全和促進農業可持續發展至關重要。本研究選取


南方地區5個省份25年的糧食產量數據,為模型訓練提供了準確且充足的數據支持。根據BP神經網絡、SVR和BP-SVR-Stacking這3種模型在南方地區5個省份糧食產量的預測結果,BP-SVR-Stacking模型的預測性能優于BP神經網絡模型和SVR模型,體現在較小的平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE),以及更高的決定系數 (R2) 。BP神經網絡模型在數據量較大且特征是非線性關系的情況下表現較好,適用于需要深度學習模型捕捉微妙變化的場景。然而,其對噪聲的敏感性可能導致在實際應用中的預測失準,尤其是在數據質量不高或特征選擇不當的情況下。SVR模型在處理高維特征和小樣本數據時能夠有效應對數據中的異常值和噪聲,但在數據量較大時,它的計算復雜性和訓練時間將會增加。BP-SVR-Stacking模型融合了BP神經網絡和SVR的優勢,在處理復雜的非線性關系和高維特征時,能夠更有效捕捉數據中的潛在模式,該模型在面對復雜的農業環境時,能夠更好地適應特征變化,實現更穩定的預測性能。
然而,模型也存在一些局限性。從數據層面分析,僅從部分天氣和肥料施用的角度考慮了輸入變量,未使用糧食種植產區的土壤數據和近年來糧食產量預測中流行的遙感數據。土壤理化性質是糧食產量的關鍵因素。遙感數據具有概要視圖、多時間覆蓋、易獲取和成本效益等優點,非常適合大空間區域的糧食產量預測。未來的研究可引入土壤和遙感數據,以進一步豐富和完善糧食產量預測的信息[25]。數據僅以年份為單位進行處理,因而其樣本數量有限,在未來研究中可以擴充數據量以提高集成模型的預測精度。從模型層面來看,未來在集成模型中選擇基學習器時,可通過全面的數據分析篩選更適配的基模型,并引入高效的優化算法,進一步提升模型的預測精度。同時,BP-SVR-Stacking模型雖然結合了BP神經網絡和SVR模型的優點,但在實際應用中仍可能受到樣本數據質量、模型參數設置等因素的影響。為了進一步提高模型的預測性能,未來研究可以加強對樣本數據的預處理和特征選擇工作,同時優化模型參數設置方法,以充分發揮集成模型的優勢。
參考文獻:
[1]劉浩然,吳克寧,宋文,等.黑龍江糧食產能及其影響因素研究[J].中國農業資源與區劃,2019,40(7):164-170.
[2]宋洪遠,江帆.基于穩產視角的糧食安全:現實基礎、主要問題和對策建議[J].中國工程科學,2024,24(5):178-189.
[3]蔡承智,楊春曉,莫洪蘭,等.基于ARIMA模型的中國水稻單產預測分析[J].雜交水稻,2018,33(2):62-66.
[4]李修華,李婉,張木清,等.基于田間環境及氣象數據的甘蔗產量預測方法[J].農業機械學報,2019,50(S1):233-236.
[5]趙桂芝,趙華洋,李理,等.基于混沌-SVM-PSO的糧食產量預測方法研究[J].中國農機化學報,2019,40(1):179-183.
[6]KHAKIS,WANGLZ,ARCHONTOULISSV.ACNN-RNNframe-work for crop yield prediction[J].Frontiersinplant science,2019,10:1750.
[7]劉峻明,和曉彤,王鵬新,等.長時間序列氣象數據結合隨機森林法早期預測冬小麥產量[J].農業工程學報,2019,35(6):158-166.
[8]于珍珍,鄒華芬,于德水,等.融合田間水熱因子的甘蔗產量GA-BP預測模型[J].農業機械學報,2022,53(10):277-283.
[9]鄭穎穎,李鑫,陳延旭,等.基于Stacking多模型融合的極端天氣短期風電功率預測方法[J].高電壓技術,2024,50(9):3871-3882.
[10」史佳琪,張建華.基于多模型融合Stacking集成學習方式的負荷預測方法[J].中國電機工程學報,2019,39(14):4032-4042.
[11]HEYY,XIAOJL,ANXL,etal.Short-termpowerload proba-bility density forecasting based on GLRQ-Stacking ensemblelearning method[J]. International journal of electrical power andenergysystems,2022,142:108243.
[12]HANKGODO,OMAIRMS.CARD-B:A stacked ensemblelearn-ingtechnique forclassificationofencrypted network traffic[J].Computercommunications,2022,190:110-125.
[13]QUN,LIZZ,LIXX,etal.Multi-parameter firedetection meth-od based on feature extraction and stacking ensemble learningmodel[J].Fire safety journal,2022,128:103541.
[14]KARTHIKR,MENAKAR,KATHIRESANGS,etal.Gaussiandropout based stacked ensembleCNN forclassification ofbreast tu-morinultrasound images[J].IRBM,2022,43(6):715-733.
[15]李想,戴維,高紅菊,等.基于BP神經網絡的糧食產量與化肥用量相關性研究[J].農業機械學報,2017,48(S1):186-192.
[16]曾慶揚,丁楚衡,谷戰英,等.基于BP神經網絡的油茶產量預測模型構建[J].經濟林研究,2022,40(3):87-95.
[17]竇文豪,孫三民,徐鵬翔.基于Stacking集成學習的棗樹智能灌溉系統設計與試驗[J].中國農機化學報,2024,45(6):270-276.
[18]張海洋,張瑤,李民贊,等.基于BSO-SVR的香蕉遙感時序估產模型研究[J].農業機械學報,2021,52(S1):98-107.
[19]孟春陽,謝劭峰,魏朋志,等.利用AO-SVR模型預測 PM2.5"濃度[J].大地測量與地球動力學,2023,43(3):269-274.
[20]李晉澤,趙素娟,李寧,等.基于主成分分析的果蠅算法優化支持向量機回歸的紅棗產量預測[J].科學技術與工程,2024,24(4):1425-1432.
[21]YUJH,PANRS,ZHAOYM.High-dimensional,small-sam-pleproduct quality prediction method based on MIC-Stacking en-semblelearning[J].Applied sciences,2022,12(1):23.
[22]WUTA,ZHANGW,JIAOXY,etal.Evaluation of stackingandblendingensemblelearningmethodsforestimatingdailyrefer-enceevapotranspirationJ].Computersand electronicsin agricul-ture,2021,184:106039.
[23]王德營,胡威,吳通,等.基于Stacking集成學習的CANDU堆通道功率預測研究[J].核動力工程,2024,45(S1):72-77.
[24]史佳琪.區域綜合能源系統供需預測及優化運行技術研究[D].北京:華北電力大學,2019
[25]姜 宇,馬廷淮.基于CNN-LSTM-Attention網絡的河南省冬小麥產量預測[J].麥類作物學報,2024,44(10):1352-1359.
(責任編輯 雷霄飛)