毛曉娟,鮑彤,荀廣連,李德翠,王寶佳,任妮
(江蘇省農業科學院信息中心,南京市,210014)
設施蔬菜生產使用的溫室是典型的小氣候環境,受內外環境的影響,具有強干擾,多耦合,大滯后等特點[1-2]。溫度作為作物生長過程中重要的環境影響因素,直接決定作物的生長發育狀況,不適宜的溫度將導致作物大幅減產甚至絕收。因此,穩定精確地預測溫室溫度,并根據溫度預測值提前調控溫室環境,對溫室大棚內的作物生產意義重大。
目前國內外關于溫室內溫度的預測模型主要分為兩類,一類是機理模型,一類是數據模型。機理模型主要基于流體動力學和能量平衡[3-4],但是其內部關聯參數多,建模難度大。數據模型主要根據溫室內外環境數據進行建模,無需考慮溫室耗散、熱輻射等影響因素。隨著機器學習的快速發展,數據模型在溫室內溫度的預測中得到了廣泛的應用[5-9]。Yu等[10]提出一種基于最小二乘支持向量機(Least Squares Support Vector Machine, LSSVM)的溫度預測模型,采用改進粒子群算法(Improved Particle Swarm Optimization,IPSO)對LSSVM模型進行參數優化,對未來短時的預測效果較好,但在長時間的溫度預測方面還需要進一步研究。任守綱等[11]利用R-BP神經網絡進行多步滾動預測溫室的溫度值,但對溫室外界環境因素考慮不全,預測仍然存在較大誤差。田東等[12]利用移動平均、移動平均差分自回歸模型和遺傳算法優化的支持向量機三種模型相結合的方法進行食用菌溫室溫度預測,該組合模型預測精度比單模型有明顯提高,但其僅基于7月份數據進行預測,模型不具有廣泛適應性。
由于淺層的機器學習算法在處理長時間序列信號上存在不足,數據預測結果存在較大的誤差。深度學習作為機器學習最新的研究成果,它通過學習深層非線性網絡結構,在數據特征和模型挖掘上具有顯著優勢。循環神經網絡(Recurrent Neural Network,RNN)[13]作為深度學習中處理序列問題的典型網絡結構,將時序概念引入到網絡結構設計中,使其在時序建模中具有更強的適應性和更高的預測精度。但是RNN結構隨著序列長度的增加易存在梯度消失或爆炸問題,對于序列長期依賴關系的學習存在一定的困難。Hochreiter等[14]提出了長短期記憶網絡(Long short-term memory network,LSTM),它作為一種特殊的RNN,解決了標準RNN無法建立較長時間跨度的模型預測問題,因此被廣泛應用于時間序列的預測中[15-22]。在溫度預測方面,DaDhja等[23]對比RNN-LSTM、人工神經網絡和自回歸神經網絡對30 min后的溫室溫度等環境因子進行預測,結果表明RNN-LSTM預測效果最好。趙明珠等[24]利用雙向長短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)網絡模型得到了優于LSTM、差分整合移動平均自回歸(Autoregressive Integrated Moving Average,ARIMA)模型的地鐵車站溫度預測結果。智協飛等[25]利用長短期記憶網絡、淺層神經網絡、滑動訓練期消除偏差集合平均和滑動訓練期多模式超級集合方法對地面氣溫進行預報,該集成方法的預報結果比所有單個模式預報更為準確。
綜上,LSTM在諸多時間序列預測上具有很大的優勢,溫室溫度預測作為典型的時間序列問題,使用LSTM方法尤其合適,但LSTM的模型參數依靠人工經驗確定,隨機性較大,易陷入局部最優解。灰狼優化算法(Grey Wolf Optimization,GWO)[26]是近年來提出的一種通過模擬灰狼捕食行為的群體智能優化算法,具有收斂性強、參數少、易實現等優點,比較粒子群算法、蝙蝠算法等有更強的收斂速度與搜索能力,因此被廣泛用于模型參數的調整優化[27-28]。
本文將灰狼優化算法和長短期記憶網絡模型相結合,提出基于GWO-LSTM的設施蔬菜溫室溫度預測模型。將LSTM網絡中隱藏層單元數、學習率和迭代次數等模型參數作為GWO算法中狼群的位置坐標,通過計算適應度值更新狼群位置以獲取模型參數的最優解。利用最優參數搭建LSTM網絡模型對溫室內溫度進行預測。
本文試驗區域為江蘇省農業科學院科研基地陽光板溫室。溫室屋脊為南北走向,跨度棟寬8 m,開間4 m,肩高5.0 m,頂高5.8 m,外遮陽高6.5 m。屋面形狀為一跨二尖頂文洛式,頂部及四周側墻采用8 mm陽光板。溫室配備外遮陽系統、內遮陽系統、保溫系統、交錯頂開窗系統、濕簾風機降溫系統、自動升降式補光系統、控制系統等。溫室內部采用椰糠基質栽培種植櫻桃番茄,試驗期間番茄分別經歷幼苗期、開花期和坐果期生長階段,時間為2020年9月中旬—12月下旬。試驗初期天氣炎熱,溫室通過濕簾、風機和天窗等設備進行降溫,后期天氣變冷采用內保溫、遮陽網等設備進行保溫。試驗期間利用團隊自主開發的設施蔬菜智慧管控平臺對溫室環境實施自動調控,全程保證番茄處于適宜的生長環境中。
溫室內環控設備(風機、濕簾、天窗、補光燈、內保溫、內遮陽、外遮陽)操作歷史狀態通過設施蔬菜智慧管控平臺進行實時自動采集,采集內容包括設備名稱、設備操作類型(開啟、關閉、展開、合攏)和操作時間等。溫室內環境因子通過無線傳感器采集,主要采集室內空氣溫度、空氣相對濕度、光合有效輻射和二氧化碳濃度等環境數據。溫室外通過小型氣象站采集室外空氣溫度、空氣相對濕度、風速和光合有效輻射等環境數據。
由于溫室內環境復雜多變,為了準確地獲取溫室中環境數據的空間分布變化,分別取溫室中4個地塊的中心點(A、B、C、D)作為監測點。在點A、B、C、D處于垂直方向依次布設空氣溫濕度傳感器、二氧化碳濃度傳感器和光合有效輻射傳感器,分別距地面1.5 m、1.6 m、1.8 m。溫室外點E位置布設小型氣象站,溫室內外傳感器布設的俯視圖和剖面圖如圖1所示,溫室內外傳感器設備的型號、量程范圍等參數說明如表1所示。

(a) 俯視圖

表1 傳感器設備說明Tab. 1 Description of the sensor device
本文選取2020年9月23日—12月21日期間試驗數據,采樣間隔為10 min,總共采集12 819條樣本數據。其中設備開啟、展開狀態記錄為1,設備關閉、合攏狀態記錄為0,多個監測點采集的同類環境數據取平均值。對于缺值采用線性插值法進行填充,異常值采用均值法進行替換。由于各類數據單位、量綱的差異,本文對數據采用歸一化處理,歸一化后按照7∶3劃分數據集,前8 967條數據作為訓練樣本集,后3 852條數據作為測試樣本集。數據歸一化公式如式(1)所示。

(1)
式中:y′——歸一化后的轉換值;
y——真實值;
ymax——樣本最大值;
ymin——樣本最小值。
影響溫室內空氣溫度的主要因素包括室內空氣溫度、室內空氣相對濕度、室內光合有效輻射、室外空氣溫度、室外空氣相對濕度、室外光合有效輻射、室外風速和室內環控設備(風機、濕簾、天窗、補光燈、內保溫、內遮陽、外遮陽)運行狀態。本文選取上述14個因子作為模型輸入參數,下一時刻溫室內空氣溫度作為模型輸出參數。
1.3.1 長短期記憶網絡(LSTM)
LSTM網絡通過精心設計的“門”結構,使模型具有長時間的“記憶功能”,避免了標準循環神經網絡產生的梯度消失與梯度爆炸問題。該網絡在結構設計中有遺忘門ft、輸入門it、輸出門ot和一個記憶單元。其內部基本結構如圖2所示。

圖2 長短期記憶網絡內部結構圖
遺忘門主要是控制舊信息的遺忘,計算公式如式(2)所示。
(2)
輸入門主要是控制新的信息輸入,計算公式如式(3)所示。
(3)
記憶單元臨時狀態,計算公式如式(4)所示。
(4)
更新記憶單元,計算公式如式(5)所示。
(5)
輸出門公式如式(6)所示。
(6)
整個隱藏層的計算公式如式(7)所示。
ht=ot×tanh (ct)
(7)
輸出層的計算公式如式(8)所示。
(8)
式中:bf——遺忘門的偏置;
bi——輸入門的偏置;
bc——記憶單元的偏置;
bo——輸出門的偏置;









1.3.2 灰狼優化算法(GWO)
灰狼優化算法是一種受到了灰狼狩獵的啟發而開發的優化搜索方法,灰狼具有嚴格的社會等級層次制度,從高到低分別為α、β、δ和ω,捕食的過程在α的帶領下完成?;依堑尼鳙C包括跟蹤獵物、包圍獵物和攻擊獵物。
灰狼包圍獵物行為的數學模型定義如下。
D=|C·Xp(t)-X(t)|
(9)
X(t+1)=Xp(t)-A·D
(10)
A=2a·r1-a
(11)
C=2·r2
(12)
式中:Xp(t)——當前獵物的位置矢量;
X(t)——當前灰狼的位置矢量;
X(t+1)——下一次迭代后的灰狼的位置矢量;
D——灰狼和獵物之間的距離;
a——收斂因子,隨著迭代次數從2線性遞減到0;
r1、r2——[0, 1]區間上的隨機數。
當灰狼識別出獵物的位置后,α引導β和δ對獵物進行攻擊。選取前三個最優解,其余灰狼根據α、β、δ更新自己的位置。
(13)
(14)
(15)
式中:Dα——α與其他灰狼之間的距離;
Dβ——β與其他灰狼之間的距離;
Dδ——δ與其他灰狼之間的距離;
Xα(t)——α當前迭代次數下的位置矢量;
Xβ(t)——β當前迭代次數下的位置矢量;
Xδ(t)——δ當前迭代次數下的位置矢量;
X1——狼群中某個灰狼向α移動的矢量;
X2——狼群中某個灰狼向β移動的矢量;
X3——狼群中某個灰狼向δ移動的矢量。
1.3.3 GWO優化LSTM模型參數流程
LSTM模型參數的確定大多是基于人工經驗,存在模型調節參數時間長、易收斂于局部最優解等問題。GWO作為一種群體智能優化算法,具有全局搜索能力強、收斂快、易實現等優點,近年來廣泛用于參數優化等領域。
為提高溫室溫度預測模型的預測精度,本文利用GWO對LSTM模型參數進行優化調整,以LSTM網絡中隱藏層單元數、學習率和迭代次數作為狼群位置,通過計算適應度函數,更新狼群位置,獲得LSTM網絡模型參數最優解,利用最優模型參數構建設施蔬菜溫室溫度預測模型。本文提出的基于GWO-LSTM的設施蔬菜溫室溫度預測模型流程如圖3所示。

圖3 基于GWO-LSTM的設施蔬菜溫室溫度預測模型流程圖
根據流程圖,基于GWO-LSTM的設施蔬菜溫室溫度預測模型構建具體步驟如下。
步驟1:將設施蔬菜智慧管控平臺采集的溫室內外環境因子和設備操作狀態原始時間序列樣本數據進行異常值剔除、缺值補充和數據歸一化處理后,按照7:3比例將已處理樣本集劃分為訓練集和測試集。
步驟2:確定GWO的初始數據,包括灰狼種群個數、初始坐標和迭代次數等。將LSTM網絡的隱藏層單元數、學習率和迭代次數轉換為狼群的位置坐標,選擇訓練樣本集對LSTM進行模型訓練。
步驟4:選擇測試樣本集,對上述優化參數的LSTM網絡進行測試,得到最優的LSTM網絡模型,基于最優的LSTM網絡模型預測溫室內空氣溫度值。
1.3.4 模型評價指標
為了驗證本文提出的基于GWO-LSTM模型的預測性能,使用4種性能評價指標,包括均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和決定系數R2。其中,RMSE、MAE和MAPE數值越小,模型預測結果越準確。R2接近1,代表擬合優度越大,模型預測效果越好。
(16)
(17)
(18)
(19)
式中:N——預測樣本數;
yi′——溫室內溫度預測值;
yi——溫室內溫度真實值;
y——真實值的平均值。
本試驗基于編程語言python3.7,利用Anaconda 3環境下的Keras2.4深度學習庫進行模型構建。GWO-LSTM網絡模型由輸入層、隱藏層和輸出層三層網絡組成,采用Adam算法訓練LSTM內部網絡參數,隱藏層中的激活函數設為Relu函數。將LSTM的隱藏層單元數、學習率和迭代次數作為狼群的位置坐標,其中隱藏層單元數取值范圍為[2,100],學習率取值范圍為[0.000 1, 0.01],迭代次數取值范圍為[20, 300],預測時間步長為30 min。灰狼優化算法參數設置為:狼群總數為20,最大迭代次數為10,灰狼α,β和δ的初始坐標均為[0,0,0]。
為了驗證本文提出的GWO-LSTM的模型性能,選擇標準LSTM、BP-ANN進行試驗對照。標準LSTM、BP-ANN均采用和GWO-LSTM網絡模型相同的輸入參數、輸出參數和預測時間步長。其中,標準LSTM網絡和BP-ANN均為三層網絡,隱藏層單元數均設為14,學習率均設為0.01,迭代次數均設為100。
利用GWO對LSTM模型進行訓練,獲得最優模型參數,即隱藏層單元數為33,學習率為0.01,迭代次數為94。利用最優模型參數,將標準LSTM、BP-ANN 和GWO-LSTM三種模型對溫室內空氣溫度進行預測,各模型在測試集上的預測曲線如圖4所示,依次為BP-ANN 預測曲線、LSTM預測曲線和GWO-LSTM預測曲線。圖4顯示,標準LSTM、BP-ANN 預測誤差相對較大,尤其在波峰、波谷和鋸齒波動較為劇烈的附近誤差較大。而本文提出的GWO-LSTM模型預測曲線更接近溫室內空氣溫度的實測值,特別是在曲線波動劇烈處的預測效果更優于其他模型。

(a) BP-ANN預測曲線
為進一步驗證模型的預測精度和模型多步預測能力,選擇RMSE、MAE、MAPE和R2這4個模型評價指標來衡量三種模型預測性能,表2給出在不同預測時間步長下三種模型的溫度預測結果精度分析值。

表2 三種模型不同預測時間步長的溫度預測結果精度分析Tab. 2 Precision analysis of temperature prediction results with different prediction time steps for three models
在預測時間步長為10 min條件下,GWO-LSTM模型的RMSE為0.386 9,MAE為0.164 1,MAPE為0.104 7,R2為0.987 1。與標準LSTM相比,評價指標RMSE、MAE、MAPE分別降低了24.98%、57.02%、37.34%,R2增加了1.02%;與BP-ANN相比,評價指標RMSE、MAE、MAPE分別降低32.63%、62.59%、41.41%,R2增加了1.59%。
在預測時間步長為30 min條件下,GWO-LSTM模型的RMSE為0.677 6,MAE為0.411 4,MAPE為0.168 7,R2為0.960 4。與標準LSTM相比,評價指標RMSE、MAE、MAPE分別降低了3.60%、8.86%、11.64%,R2增加了0.31%;與BP-ANN相比,評價指標RMSE、MAE、MAPE分別降低了30.29%、35.29%、18.62%,R2增加了4.57%。
在預測時間步長為60 min條件下,GWO-LSTM模型RMSE為1.030 2,MAE為0.594 3,MAPE為0.196 3,R2為0.910 8。與標準LSTM相比,評價指標RMSE、MAE、MAPE分別降低了3.85%、11.80%、7.32%,R2增加了1.13%;與BP-ANN相比,評價指標RMSE、MAE、MAPE分別降低了35.33%、46.12%、29.29%,R2增加了16.75%。
從模型評價指標橫向比較結果看出,本文提出的GWO-LSTM模型無論在步長10 min、30 min或60 min 情況下,預測精度都比標準LSTM和BP-ANN 更高。
從預測步長縱向比較來看,針對GWO-LSTM模型,時間步長60 min相較于時間步長30 min,評價指標RMSE、MAE、MAPE分別增加了0.352 6、0.182 9、0.027 6,R2減少了0.049 6;時間步長30 min相較于時間步長10 min,評價指標RMSE、MAE、MAPE分別增加了0.290 7、0.247 3、0.064,R2減少了0.021 3。說明GWO-LSTM在預測未來30 min內的溫度變化相對更精確,在預測未來60 min內的溫度變化方面準確度稍有下降。
為進一步驗證GWO-LSTM模型的連續性預測能力,表3給出2020年11月25日預測時間步長為60 min 時溫室內空氣溫度實際值與各模型預測值的部分數據對比分析,可以看出GWO-LSTM模型在連續6個時間點的最大絕對誤差和平均絕對誤差分別是0.185 3和0.120 9,均小于LSTM和BP-ANN模型的最大絕對誤差和平均絕對誤差。

表3 預測時間步長為60 min的溫度真實值與預測值對比分析Tab. 3 Comparison and analysis between actual value and predicted value in 60 min predicted time step
綜上所述,本文提出的GWO-LSTM能夠較準確地預測溫室內未來60 min的空氣溫度變化,同時避免了人工調參,提高了模型參數調優效率,能夠為智能溫室精準調控提供有效的技術支撐。
1) 目前對設施蔬菜溫室內空氣溫度預測的研究大多僅采用溫室內外部的環境因子數據,未考慮溫室內控制設備的影響,而實際生產中控制設備的調控對溫室氣候的形成起著較大的作用,因此這類僅利用溫室內外部環境因子數據建立的模型無法用于自控型溫室空氣溫度預測。本文基于實際生產中的狀況,實時采集溫室內控制設備的運行狀態,并把設備狀態作為模型輸入的一部分,這種建模方式更符合實際生產中自控型溫室的工作狀態。
2) 本文采用GWO優化算法對LSTM的模型參數進行尋優,解決了根據人工經驗選取模型參數而導致的模型擬合度不夠,模型預測精度低和模型調節參數時間過長等問題。同時本文還對多個時間步長進行預測對照,在未來10 min和30 min預測步長中,GWO-LSTM 預測精度均優于標準LSTM和BP-ANN模型。在未來60 min預測步長中,GWO-LSTM的預測均方根誤差、平均絕對誤差、平均絕對百分比誤差分別為1.030 2、0.594 3、0.196 3,相比標準LSTM降低了3.85%、11.80%、7.32%,說明GWO-LSTM模型在未來60 min預測中仍具有較高的準確性。
3) 目前本文所述實例僅采集到秋季和初冬的溫室氣候環境和設備運行數據,缺乏整個冬季和春季的采集數據。后續將補充采集冬季和春季的溫室氣候環境和設備運行數據,按照季節劃分數據集,進而構建針對不同季節的預測模型,使模型具有普適性,同時將模型應用到實際生產中。