doi:10.11835/j.issn.1000-582X.2025.04.009
引用格式:黃威,賈若然,鐘坤華,等.基于XGB-KF模型的農業溫室溫度預測[J].重慶大學學報,2025,48(4): 108-114.
中圖分類號:TP399 文獻標志碼:A 文章編號:1000-582X(2025)04-108-07
Agricultural greenhouse temperature prediction based on the XGB-KFmodel
HUANG Wei'2, JIA Ruoran, ZHONG Kunhua', LIU Shuguang'2 (1.Chogqing Institute of Green and Intelligent Technology, Chinese Academy of Sciences,Chongqing 400714, P.R.China; 2. University of Chinese Academy of Sciences,Beijing 10o049, P.R.China; 3.Iflytek Co., Ltd., Hefei 230031, P.R. China)
Abstract:To addess the challenge of agricultural greenhouse temperature measurement being highly susceptible to noise,which limits direct prediction accuracy, this study proposes an integrated prediction model, XGB-KF, combining XGBoost and the Kalman filter.First, the model estimates the current greenhouse temperature using XGBoost.Then,the Kalman filter dynamicall adjusts the estimated result to refine the prediction.Numerical experiments are conducted using sensor data from a greenhouse in Zhuozhou, with root mean square error (RMSE) as the main evaluation metric. Compared with XGBoost, Bi-LSTM, and Bi-LSTM-KF methods, the XGB-KF model reduces RMSE by 5.22% , 10.85% and 7.45% respectively.
Keywords: integrated model; machine learning; time series; greenhouse temperature
溫度作為農作物生長的重要環境因素,影響著作物的生長速度、產量和質量,如何準確預測和調控溫度成為現代農業的重要問題。溫室大棚擁有可調控的環境,促進作物生長和提高產量。中國溫室建設起步較早,經歷了改良型日光溫室、大型玻璃溫室和現代化溫室3個階段,但受各地區生產狀況和經濟條件的影響,至今各階段不同類型的溫室依然并存。溫室溫度可以直接通過溫度傳感器來測量,但溫室中的各種環境因子對溫度測量會產生干擾,并帶來較多噪聲。農業溫室溫度預測可以看作是一個時間序列預測問題。時間序列預測的方法目前大致可分為4類:傳統時間序列分析法、機器學習法、深度學習法及混合模型方法。
1)傳統時間序列分析方法,如自回歸移動平均模型(autoregressive moving average,ARMA)3差分自回歸移動平均模型(autoregressive integrated moving average,ARIMA)4等;
2)機器學習方法。針對溫室溫度或濕度的預測,極限學習機及其改進方法被研究和使用。Yu等采用粒子群算法對最小二乘支持向量機做優化,在中國農業大學壽光蔬菜產業集團技術應用與示范區的園藝監測和管理系統的數據上進行實驗,結果表明,其對最高和最低溫度的預測比標準支持向量機和反向傳播神經網絡的預測更為準確。
3)深度學習方法。周翔宇等針對淺層神經網絡面對溫室復雜多變環境因子表征能力弱、學習時間長的問題,提出一種基于改進深度信念網絡并結合經驗模態分解與門控循環單元的溫室預測方法。Jung等使用深度學習方法進行溫室預測和管控,在人工神經網絡(artificialneuralnetwork,ANN)、帶外生輸入的非線性自回歸模型(nonlinear autoregressive with exogenous inputs,NARX)以及長短時記憶循環神經網絡(recurrentneural network with long short-term memory,RNN-LSTM)3種方法的對比中,RNN-LSTM取得最好效果。文獻[9-11]則分別基于循環神經網絡(recurrent neural network,RNN)和長短時記憶網絡(long short-termmemory,LSTM)方法對溫室內部的多維元素進行學習。
4)混合模型法。Song等使用結合卡爾曼濾波的長短時記憶網絡(long short-term memory with kalmanfilter,LSTM-Kalman)模型對空氣質量數據進行靜態預測和動態調整,實驗證明加入卡爾曼濾波方法后模型效果更好。Yan等針對厄爾尼諾-南方濤動(ElNino-southern oscilltion,ENSO)超前預測的問題使用了集合經驗模態分解-時間卷積網絡(ensemble empirical mode decomposition with temporal convolutional network,EEMD-TCN),結果表明了方法的優異性。Hu等[使用雙向長短時記憶卷積神經網絡(convolutional neuralnetwork-bidirectional long short-term memory,CNN-Bi-LSTM)對城市供水量進行預測,在與 LSTM、Bi-LSTM、卷積神經網絡(convolutional neuralnetwork,CNN)、堆疊自編碼器(Stacked Autoencoder,SAE)以及長短時記憶卷積神經網絡(convolutional neural network with long short-term memory,CNN-LSTM)4種方法的比較中取得較低誤差和更快收斂速度。
卡爾曼濾波作為一種最優線性狀態估計方法,由卡爾曼在1960年提出[5,可以在諸多不確定性的情況下估計動態系統的狀態,即通過數學方法尋求與觀測數據最佳擬合的狀態向量,預測存在噪聲的數值。
針對農業溫室溫度預測問題,研究提出一種將XGBoost(extreme gradient boosting)和 Kalman filter相結合的集成模型XGB-KF。該模型首先利用溫室內外的相關協變量數據,基于XGBoOst對溫室內當前時刻的溫度進行初步預測,再通過Kalman filter對估計結果進行動態修正。實驗結果表明,XGB-KF法在溫室溫度預測上更準確有效。
1方法理論
1.1 XGBoost
XGBoost是一種基于梯度提升決策樹(gradient boosting decision tre,GBDT)的改進算法。GBDT是集成模型,訓練時每一次迭代都學習一棵CART樹來擬合之前 t-1 棵樹的預測結果與訓練樣本真實值的殘差。已知訓練數據集
},損失函數
),正則化項
,整體函數可以表示為

其中: F(X) 是線性空間上的表達; i 表示第 i 個樣本; k 表示第 k 棵樹;
是第 i 個樣本
的預測值:
表示 k 棵樹的復雜度
表示第 k 棵樹的函數。
由于

則目標函數可以轉化成如下形式

1.2 Kalman filter
卡爾曼濾波適合使用在具有不確定性的動態系統中,基于系統中的觀測值和估計值得到一個比任何依據自身估計更好的結果,從而對系統的下一步走向做出預測。
1.2.1 基本模型


其中:
表示系統狀態矩陣;
表示狀態陣的觀測量; A 表示狀態轉移矩陣; B 表示控制輸入矩陣;
表示外界對于控制系統的輸入; H 表示狀態觀測矩陣;
表示過程噪聲,
表示測量噪聲。
1.2.2 狀態更新
根據上一時刻的最優估計值和控制量得到當前時刻的最優估計值,根據上一時刻最優估計值的協方差得到當前時刻的最優估計協方差[5]


在溫室溫度預測的問題上不存在外部控制量,所以沒有
這一部分。通過卡爾曼增益對估計值和觀測值作加權融合,作出“更可信”的決策,同時更新協方差陣



2 模型及評價指標
2.1 模型流程
XGB-KF模型的流程如圖1所示:

原始數據經預處理后,協變量數據(溫室內、外部濕度、氣壓)作為XGBoost的輸入數據,溫室內部溫度值作為XGBoost的預測目標。訓練好的XGBoost被用于估計當前時刻的溫室內部溫度。與此同時,Kalmanfilter使用溫室內部溫度數據作為輸入,通過數據的歷史觀測值得到當前時刻的單步預測結果。最后,將
KalmanFilter得到的結果作為系統觀測值,將XGBoost得到的結果作為系統估計值,融合這2個值得到最終預測結果。
2.2 評價指標
為評估模型的性能和方法的有效性,實驗采用評價指標:均方根誤差(RMSE)和擬合優度 


3數值實驗
3.1 數據集
數據來自科大訊飛開放平臺提供的中國農業大學逐州實驗站的溫室溫度數據,數據的時間范圍為2019年3月14日1點-2019年4月3日0點,每條數據由時間戳和溫室內、外的溫度、濕度、氣壓構成,采樣頻率為每min1次。實驗中,數據按4:1的比例劃分訓練集和測試集,最終的實驗結果由各方法在測試集上評估得到。
3.2 數據預處理
溫室內、外的溫度變化情況可視化如圖2所示。溫室內、外溫度變化范圍較大,且溫室內部溫度和外部溫度強相關。為更好地獲得預測結果,對溫度進行平穩處理,分別對溫室內、外的溫度取log平滑再進一步做差,處理后溫室內溫度和溫室內、外溫度對數差的變化情況如圖3所示。


刪除溫室內部溫度的缺失數據,以免填充方法不當造成更大誤差,然后采用 3σ 法則檢測氣壓特征數據中存在的異常值,使用前后數據進行線性修正。最后,通過皮爾遜相關系數篩選出相關性較高的3個特征(溫室外部和溫室內部的濕度差值、比值以及濕度的乘積)添加進數據集。
3.3實驗內容及環境
3.3.1 實驗內容
對劃分過的數據集使用XGBoost、Bi-LSTM、XGB-KF以及Bi-LSTM-KF4種方法分別進行實驗,在訓練集上訓練XGBoost和Bi-LSTM單模型,在測試集上使用單模型進行預測。XGB-KF和Bi-LSTM-KF 2種模型則在測試集上對單模型的預測結果使用Kalman filter做進一步的調整和修正,修正后的結果作為集成模型的最終預測結果。
3.3.2 實驗環境
實驗在Windows系統下使用anaconda、jupyter-notebook及 python 進行。其中,anaconda版本4.8.4.jupyter-notebook版本6.0.0,python版本3.7.3。
3.4 結果及對比分析
3.4.1 XGBoost
最佳狀態下,XGBoost單模型取得的均方根誤差(RMSE)為0.21707。預測效果如圖4所示。

3.4.2 Bi-LSTM
Bi-LSTM取得的最低RMSE為0.23077,預測效果如圖5所示。

3.4.3 XGB-KF
加入Kalmanfilter方法對XGBoost的預測結果進行修正,修正后RMSE和
變化趨勢如圖6\~7。選取實驗中的最佳參數運行模型,相較于XGB00st單模型,XGB-KF模型的RMSE值從0.21707降至0.20573,降低5.22% 。
值從 0.97433~0.97694 ,提升 0.27% 。



3.4.4 Bi-LSTM-KF
加入Kalman filter對Bi-LSTM的預測結果進行修正后,Bi-LSTM的RMSE從0.230 77降至0.22229,下降 3.67% 。
從0.99379降至0.97308,下降 2.08% 。RMSE和
的趨勢變化情況如圖8和圖9所示。



3.4.5
對比分析
各方法的指標評估結果如表1所示,考慮到擬合優度
值并不能完全代表模型的預測能力,且這4種方法的擬合優度
值均較高,所以實驗選取均方根誤差(RMSE)作為模型的主要評估指標。最后,在與XGBoost、Bi-LSTM、Bi-LSTM-KF 3種方法的比較中,XGB-KF模型取得了最低均方根誤差(RMSE),證明其在農業溫室溫度預測問題中的有效性。同時,實驗在僅使用CPU運行程序情況下對XGBoost和Bi-LSTM的訓練時間進行記錄和對比,得到XGBoost方法的運行時間為 4.8s ,Bi-LSTM方法的運行時間為108.3s。在約
條數據的訓練集上,XGBoost展現出明顯的速度優勢。

4結語
針對溫室溫度測量受噪聲影響大的問題,提出集成模型XGB-KF。經過在真實數據集上的實驗,模型在與XGBoost、Bi-LSTM、Bi-LSTM-KF方法的對比中取得了最低的均方根誤差。實驗雖然只基于溫室溫度數據,但XGB-KF模型引入協變量預測的思路對時序預測的其他應用場景也有一定參考價值,如區域氣溫預測、城市供水量預測等。在未來的研究中,長短時記憶網絡、時間卷積網絡等優異方法可以被考慮用于時序預測的自回歸問題中,同時它們的改進和組合方法也值得進一步嘗試。
參考文獻
[1]葛志軍,傅理.國內外溫室產業發展現狀與研究進展[J].安徽農業科學,2008,36(35):15751-15753. GEZJ,FU LDevelopment status andresearch progressofthecreenhouse industryathome andabroad[]Jouralof Anhui Agricultural Sciences,2008,36(35):15751-15753.(in Chinese)
[2]周翔宇,程勇,王軍.基于改進深度信念網絡的農業溫室溫度預測方法[J].計算機應用,2019,39(4):1053-1058. ZHOU X Y, CHENG Y, WANG J.Agricultural grenhouse temperature prediction method based on improved deep belief network[J]. Journal of Computer Applications, 2019, 39(4): 1053-1058.(in Chinese)
[3]左志宇,毛罕平,張曉東,等.基于時序分析法的溫室溫度預測模型[J].農業機械學報,2010,41(11):173-177. ZUO Z Y,MAO H P,ZHANGX D,et al. Forecast model of greenhouse temperature based on time series method[J]. Transactions of the Chinese Society for Agricultural Machinery, 2010, 41(11):173-177. (in Chinese)
[4]Wang HHuangJJZhouHetal.Anintegratedvaritionalmodedecompositionandarimamodeltoforecastairemperature[]. Sustainability,2019,11(15):4018.
[5]LiuQ,JinDDShenJetal.AWNbasedpredictiondelofmicroclimateinagreehuseusingextremeleaingappoaches [C]/201618th InternationalConferenceonAdvanced Communication Technology(ICACT).Piscataway:IEEE,206:730-735.
[6]ZouWDYaoFXZhangBHetalerificationandpredictingtemperatureandhumidityinasolargrenhousebasedonnvex bidirectional extreme learning machine algorithm[J].Neurocomputing,2017,249:72-85.
[7]YuHHChenYYHassanSG,etalPredictionofthetemperatureinaChinese solargreenhousebasedonLSSoptimizedby improved PSO[J].Computers and Electronics in Agriculture,2016,122:94-102.
[8]JungDHKimHSJhinCetalTmserialanalysisofdeepuraletwrkmelsforprdictiofclimaticdtinsie a greenhouse[J].Computers and Electronics in Agriculture,2020,173:105402.
[9]Jung DH,KimHJParkSHetal.Recurrentneuralnetwrk modelsforpredictinoftheinsidetemperatureandhumidityin greenhouse[C]/ProceedingsoftheKoreanSocietyforAgriculturalMachineryConference.SouthKorea:Korean Society for AgriculturalMachinery,2017:135-135.
[10]Song YEMoonA,ANSYetalredictionofsart grenhouse temperature-humiditybasedonmulti-dimensionalLSTM[]. Journal of the Korean Society for Precision Engineering, 2019, 36(3): 239-246.
[11]Wang HK,LiLWuYetalRecurrentneuralnetwrkmodelfor predictionofmicrclimateinsolargreehuseEB]018- 09-12)[2021-01-01].https://www.sciencedirect.com/science/article/pi/S2405896318312151.
[12]Song XJHuangJJSong DWAirquality predictionbasedonLSTM-Kalmanmodel[C]//019IEEE8thJointInternational Information Technology and Artificial Intelligence Conference(ITAIC).Piscataway:IEEE,2019:695-699.
[13]YaJuangLZealmputwksforhedncepictofN[cntifis 10(1):8055.
[14]Hu PTong J,Wang JC,etal.AhybridmodelbasedonCNNand Bi-LSTMforurban water demand prediction[C]/9IEE Congress on Evolutionary Computation(CEC).Piscataway:IEEE,2019:1088-1094.
[15]KalmanREAnewaproachtolinearflteringandpredictionproblems[JoualofBasicEngineering,196:-45.
[16]ChenTQGuestrinC,etal.XGBoost[C]//roceedingsof the22ndACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.New York: ACM,2016: 785-794.
(編輯侯湘)