基于SSA-LSTM的日光溫室環(huán)境預測模型研究

2023-03-07 06:22:44祖林祿柳平增趙妍平李天華

農業(yè)機械學報 2023年2期

祖林祿柳平增趙妍平李天華李輝

(1.山東農業(yè)大學機械與電子工程學院，泰安 271018；2.農業(yè)農村部黃淮海智慧農業(yè)技術重點實驗室，泰安 271018；3.山東農業(yè)大學信息科學與工程學院，泰安 271018)

0 引言

我國是世界上溫室面積最大的國家，其類型主要分為塑料大棚、日光溫室、連棟溫室等[1]。2020年底我國溫室面積為1.873×106hm2，其中日光溫室面積占比約30%[2]。適宜的溫室環(huán)境能促進溫室作物的健康高效生長，利用物聯(lián)網(wǎng)精準采集溫室環(huán)境數(shù)據(jù)、設計高精度的環(huán)境預測模型是實現(xiàn)溫室環(huán)境精準調控的關鍵和重要前提[3-5]。

溫室環(huán)境模型主要包括機理模型和數(shù)據(jù)驅動模型兩種[6-7]。其中，機理模型為根據(jù)能量守恒和質量守恒等原理構建的溫室動力學模型，如文獻[8]構建黃瓜溫室的小氣候模型描述能量和物質的傳遞過程，此模型能夠預測自然通風條件下空氣、作物、栽培基質及塑料覆蓋層的溫度，但此類模型不能計算溫室溫度和濕度的分布(空間特征)；文獻[9]通過構建溫室建筑計算流體力學模型，實現(xiàn)溫室環(huán)境因子的多目標、高效率優(yōu)化，其中溫室的結構、材料和熱環(huán)境組件是主要研究對象。這兩種機理建模過程存在大量的物理參數(shù)和變量，建模過程較為復雜。

由于溫室系統(tǒng)存在時間變化緩慢的特點且溫室環(huán)境的時間序列數(shù)據(jù)具有特定的變化趨勢和周期特征，溫室時間序列建模可用于研究數(shù)據(jù)變化的具體規(guī)律。文獻[10]利用物聯(lián)網(wǎng)、云服務和微信平臺相結合的方式，設計開發(fā)了基于差分時間序列模型的溫室環(huán)境監(jiān)測與溫度預測系統(tǒng)；文獻[11]提出基于非線性自回歸動態(tài)神經(jīng)網(wǎng)絡模型進行日光溫室溫度預測；文獻[12]分別構建人工神經(jīng)網(wǎng)絡、非線性自回歸模型和長短期記憶網(wǎng)絡(Long short term memory，LSTM)模型對空氣溫度、濕度和CO2濃度進行預測，基于時間序列算法的非線性自回歸模型和LSTM模型優(yōu)于傳統(tǒng)的人工神經(jīng)網(wǎng)絡模型，論證了基于深度學習的預測模型用于溫室調控的可行性，此研究未詳細討論LSTM超參數(shù)調節(jié)過程，對空氣濕度的預測效果較差。文獻[13]利用LSTM和4個月的溫度數(shù)據(jù)，提前24 h預測溫室內是否會出現(xiàn)極端低溫，預測誤差小于0.8℃，此研究為單變量建模，溫室內其它變量也可能對溫度預測效果產(chǎn)生影響。

以上相關研究主要是針對溫室內空氣溫度和濕度要素的監(jiān)測和預測，而多維溫室物聯(lián)網(wǎng)數(shù)據(jù)存在體量大、計算成本高等特點，傳統(tǒng)的LSTM模型在訓練過程中依靠人工經(jīng)驗手動調節(jié)參數(shù)，通用性差、不確定性高，在處理高維數(shù)據(jù)時收斂速度較慢且容易陷入局部最優(yōu)[14]。麻雀搜索算法(SSA)是由XUE等[15]提出，模擬了麻雀群覓食并逃避捕食者的行為而提出的群智能優(yōu)化算法，其結構簡單，在收斂速度和尋優(yōu)精度等方面有著明顯優(yōu)勢[16]。考慮到溫室物聯(lián)網(wǎng)數(shù)據(jù)龐大、人工經(jīng)驗手動調節(jié)參數(shù)不確定性高特點，本文提出一種基于SSA-LSTM的溫室環(huán)境預測模型，通過物聯(lián)網(wǎng)采集溫室不同區(qū)域的環(huán)境數(shù)據(jù)，將室內小氣候歷史環(huán)境數(shù)據(jù)按照時間序列構造輸入矩陣，輸入到SSA-LSTM模型進行訓練，以實現(xiàn)對日光溫室多維環(huán)境數(shù)據(jù)的精準預測。

1 實驗數(shù)據(jù)獲取與處理

1.1 實驗地點

實驗地點位于山東農業(yè)大學(泮河校區(qū))科技產(chǎn)業(yè)園區(qū)番茄日光溫室(36.174°N，117.166°E)，溫室為下挖式新型日光溫室，墻體采用磚加土壘基水泥加固，溫室東西長70.0 m，南北跨度9.8 m，下挖深度0.5 m，后墻高3.8 m，脊高5 m。

1.2 物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)

構建溫室環(huán)境物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)，實時、準確獲取環(huán)境信息，是實現(xiàn)溫室環(huán)境預測的前提和保障。

物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)主要由CPU、感知模塊和傳輸模塊等構成，感知模塊完成對空氣溫度、相對濕度、CO2濃度、光照強度及土壤溫度和濕度的測量，采用傳感器相關參數(shù)如表1所示；整體系統(tǒng)架構如圖1所示。為保證對溫室環(huán)境的有效監(jiān)測，將多組傳感器均勻布設在溫室內，其布設示意圖如圖2所示：以東西方向14 m、南北方向2.5 m為單位將溫室均勻劃分布設平面，分別在高度0.6、1.8、3.0 m進行傳感器布設；為保證數(shù)據(jù)及時有效處理，布置3套物聯(lián)網(wǎng)系統(tǒng)，如圖2a中1#1為第1套系統(tǒng)的第1個空氣溫濕度傳感器，光1為第1個光照傳感器，以此類推。傳感器現(xiàn)場布設及物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)上位機界面如圖3所示。

表1 物聯(lián)網(wǎng)傳感器參數(shù)

圖1 物聯(lián)網(wǎng)系統(tǒng)架構圖

圖2 傳感器布設示意圖

圖3 物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)

1.3 數(shù)據(jù)預處理

1.3.1實驗數(shù)據(jù)

通過上述物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)，自動采集空氣溫度、空氣相對濕度、土壤溫度、土壤濕度、CO2濃度(體積比)和光照強度6種數(shù)據(jù)，通過GPRS網(wǎng)絡上傳至服務器，采樣時間為2020年8月1日至2021年7月31日，采樣間隔為30 min，部分原始數(shù)據(jù)如圖4所示(以2020年9月空氣溫度為例)。

圖4 部分原始數(shù)據(jù)

由圖4可見，實驗數(shù)據(jù)存在缺失，存在溫度跳變至零的現(xiàn)象。分析實驗數(shù)據(jù)可知，數(shù)據(jù)中的缺失部分主要來自兩方面，一是當天的數(shù)據(jù)記錄存在缺失，二是某些時間段的數(shù)據(jù)存在缺失。

1.3.2缺失數(shù)據(jù)處理

考慮到訓練數(shù)據(jù)、未來的測試數(shù)據(jù)中都可能存在缺失數(shù)據(jù)，而且它們的記錄方式是相同的，避免預處理不同導致數(shù)據(jù)分布不一致問題的出現(xiàn)，同時對它們使用了相同的填充方式。由于存在多種缺失情況，僅使用一種方式填充可能會導致填充出現(xiàn)缺漏，因此本文同時使用了forward fill、backward fill與均值填充相結合的方式以保證填充覆蓋率，填充前后數(shù)據(jù)對比如圖5所示(以2020年9月數(shù)據(jù)為例)。由圖5可見，填充后數(shù)據(jù)變化趨勢保持一致，填充效果較好。

圖5 填充前后數(shù)據(jù)對比

1.3.3數(shù)據(jù)歸一化

為使得不同特征的數(shù)據(jù)規(guī)范到一個統(tǒng)一的范圍，有利于神經(jīng)網(wǎng)絡的反向傳播(假如不進行規(guī)范化，神經(jīng)網(wǎng)絡可能會刻意捕捉不同批次數(shù)據(jù)的變化，而忽視了預測任務本身)，采用Min-Max標準化方法對數(shù)據(jù)進行歸一化處理[17]。

2 SSA-LSTM環(huán)境預測模型

2.1 麻雀搜索算法

SSA是模擬麻雀群覓食并逃避捕食者的行為而提出的群智能優(yōu)化算法[15]。在覓食過程中，位置是麻雀的唯一屬性，覓食麻雀分為發(fā)現(xiàn)者和跟隨者，前者搜索并發(fā)現(xiàn)食物，后者跟隨發(fā)現(xiàn)者覓食；發(fā)現(xiàn)者和跟隨者的身份是動態(tài)變化的，但所占整個種群數(shù)量的比重是不變的。同時，覓食過程還疊加了偵查預警機制，當意識到危險時，群體邊緣的麻雀會迅速向安全區(qū)域移動，以獲得更好的位置。

在模擬實驗中，使用虛擬麻雀進行食物的尋找，假設有n只麻雀，d維待優(yōu)化問題變量，適應度為f，則種群適應度可表示為

(1)

式中Xn,d——第n只麻雀d問題變量的位置

在SSA中，發(fā)現(xiàn)者在種群中搜索具有豐富食物的區(qū)域，提供覓食的區(qū)域和方向，發(fā)現(xiàn)者迭代位置更新公式為

(2)

α——(0, 1]中的均勻隨機數(shù)

nmax——最大迭代次數(shù)

R2——預警值，取[0, 1]中的均勻隨機數(shù)

T——警戒閾值，取[0.5, 1]

Q——標準正態(tài)分布隨機數(shù)

可以看出，當R2≥T時，表示有麻雀發(fā)現(xiàn)了捕食者并發(fā)出了警報，此時所有麻雀都需要飛到安全位置進行覓食；當R2

跟隨者會時刻監(jiān)視發(fā)現(xiàn)者，當它們察覺到發(fā)現(xiàn)者找到了更好的食物，它們會立即離開現(xiàn)在的位置去爭奪食物，跟隨者位置更新公式為

(3)

其中

A+=AT(AAT)-1

式中XP——發(fā)現(xiàn)者占據(jù)的最優(yōu)位置

Xworst——最差位置

A——1行D列的矩陣，其每一維都隨機從{-1,1}中選取

L——元素均為1的1行D列的矩陣

當i>n/2時，表明第i個跟隨者沒有獲得食物，此時需要到其它地方覓食以獲得較多能量；當i≤n/2時，其取值為當前最優(yōu)的麻雀的位置加上該麻雀與最優(yōu)位置每一維距離隨機加減后，將總和均分到每一維上。該過程可以描述為在當前最優(yōu)位置附近隨機找一個位置，且每一維距最優(yōu)位置的方差將會變得更小，即不會出現(xiàn)在某一維上與最優(yōu)位置相差較大，而其他位置相差較小，其值收斂于最優(yōu)位置。

在麻雀覓食過程中，10%～20%的麻雀會進行預警行為，如果有危險發(fā)生，它們會放棄食物而移動到一個新的位置，預警者位置更新公式為

(4)

式中Xbest——全局最優(yōu)位置

fg、fW——全局最佳和最差適應度

fi——當前麻雀適應度

β——符合標準正態(tài)分布的隨機數(shù)

K——麻雀移動方向，屬于[-1,1]中隨機數(shù)

ε——一個較小非零數(shù)(防止分母取值為0)

從式(4)可以看出，fi>fg表示該麻雀不在最優(yōu)位置，容易受到攻擊，它將移動到最優(yōu)位置附近；fi=fg表示當前麻雀處于最優(yōu)位置，它會移動到自身附近的一個位置，具體移動距離取決于自身位置與最差位置之差和自身適應度與最差適應度之差的比值。

2.2 長短期記憶人工神經(jīng)網(wǎng)絡

LSTM來源于遞歸神經(jīng)網(wǎng)絡(Recursive neural network, RNN)[18]，可以學習長期依賴信息，且在一定程度上解決梯度消失和梯度爆炸這兩個問題。

如圖6a所示，RNN是重復單一的神經(jīng)網(wǎng)絡層，在其隱藏塊中只有一個內部操作，例如一個tanh層，作用在于幫助調節(jié)流經(jīng)網(wǎng)絡的值，使得數(shù)值始終限制在-1～1之間。LSTM中的重復模塊則包含4個交互的層，3個Sigmoid 和1個tanh層，并以一種非常特殊的方式進行交互，如圖6b所示。

圖6 RNN和LSTM結構

LSTM擁有遺忘門、輸入門和輸出門3種類型的門結構，來去除或者增加信息到細胞狀態(tài)，其結構如圖7所示[19]。

圖7 LSTM門結構

遺忘門，決定從細胞狀態(tài)中丟棄的信息，即

ft=σ(Wf(ht-1,xt)+bf)

(5)

式中ft——遺忘門輸出值Wf——權值

σ——Sigmoid激活函數(shù)

ht-1——上一個輸出值

xt——當前輸入值bf——偏差

輸入層，用來確定被存放在細胞狀態(tài)中的新信息，包含兩方面，一是Sigmoid層稱“輸入門層”，決定將要更新的值；二是tanh層，創(chuàng)建一個新的候選值向量，會被加入到狀態(tài)中。公式為

it=σ(Wi(ht-1,xt)+bi)

(6)

(7)

式中it——輸入層門輸出值

Wi——輸入層權值bi——輸入層偏差

Wc——候選值權值bc——候選值偏差

細胞狀態(tài)，更新舊細胞狀態(tài)的時間，Ct-1更新為Ct，即

(8)

輸出門，確定輸出的值，即

ot=σ(Wo(ht-1,xt)+bo)

(9)

ht=ottanhCt

(10)

式中ot——輸出層門輸出值

Wo——輸出層權值bo——輸出層偏差

ht——輸出層輸出

2.3 SSA優(yōu)化的LSTM溫室環(huán)境預測模型

在LSTM模型中，神經(jīng)元個數(shù)、迭代次數(shù)、輸入批量和學習率等超參數(shù)選擇對模型擬合能力起著重要作用[20]，而溫室環(huán)境預測模型中輸入數(shù)據(jù)是多維序的，傳統(tǒng)的LSTM靠人工經(jīng)驗進行調參，效率低且準確性差，為使模型的性能達到最優(yōu)，采用局部搜索能力極強，收斂速度較快的SSA優(yōu)化算法對模型超參數(shù)進行迭代選優(yōu)，算法流程圖如圖8所示，具體步驟如下：

圖8 SSA-LSTM流程圖

(1)SSA參數(shù)設置。初始化麻雀種群參數(shù)，包括麻雀種群數(shù)量、初始位置、最佳位置、全局最佳適應度等。將初始化的麻雀位置根據(jù)適應度函數(shù)評估麻雀位置并進行排序，選取前20%作為發(fā)現(xiàn)者，其余為跟隨者，隨機選取10%～20%的麻雀作為警戒者負責警戒和偵查。

(2)根據(jù)麻雀數(shù)目與優(yōu)化參數(shù)(神經(jīng)元個數(shù)、迭代次數(shù)、輸入批量和學習率)形成搜索空間矩陣并初始化相關參數(shù)，設置最大迭代次數(shù)。

(3)根據(jù)條件式(1)～(3)更新發(fā)現(xiàn)者、參與者、偵察者位置，并以邊界函數(shù)約束對LSTM所需超參數(shù)傳參。

(4)將返回結果通過適應度函數(shù)進行位置評估，找出最優(yōu)適應度個體及最劣適應度個體。若本次迭代中麻雀最佳適應度優(yōu)于全局最佳適應度則用其代替，否則不變。

(5)判斷是否滿足設定的達到誤差和最大迭代次數(shù)的停止條件。若符合，則將全局最優(yōu)超參數(shù)組設為LSTM的參數(shù)；若不符合，則返回步驟(3)。

2.4 模型評價指標

為了直觀地表示SSA優(yōu)化后的模型預測能力，分別使用均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)以及擬合指數(shù)Rf作為預測模型性能評價指標[21]。

3 實驗結果與分析

3.1 實驗平臺

訓練所使用的服務器環(huán)境如下：處理器為E5-2673V3*2，內存32 GB，GPU顯卡為NVIDIA GTX3090 24G*2，操作系統(tǒng)64位Windows 10，編程軟件為Matlab R2021a。

3.2 SSA-LSTM模型優(yōu)化及訓練

為更加精準地建立溫室環(huán)境預測模型，采用多組傳感器的平均值作為模型訓練數(shù)據(jù)，實驗數(shù)據(jù)采樣時間為2020年8月1日至2021年7月31日，采樣間隔30 min，單環(huán)境參數(shù)數(shù)據(jù)約為17 520條，按9∶1的比例將其劃分為訓練集和測試集。構建輸入輸出同為6參數(shù)的多維數(shù)據(jù)預測模型，同時對溫室內6種參數(shù)進行訓練和預測。

優(yōu)化訓練參數(shù)設置如下：SSA中麻雀總數(shù)為30，發(fā)現(xiàn)者占比20%，警戒者占比15%；隱含層神經(jīng)元數(shù)m搜索范圍[100, 500]，迭代次數(shù)搜索范圍[10, 200]，輸入批量搜索范圍[128, 1 024]，學習率搜索范圍[10-5, 10-2]；最大訓練輪數(shù)設為100。

訓練過程中，利用SSA優(yōu)化算法不斷地調整LSTM中神經(jīng)元個數(shù)、迭代次數(shù)、輸入批量和學習率4個模型參數(shù)，預測結果的平均絕對百分比誤差作為麻雀適應度，當適應度連續(xù)3輪沒有變化時訓練停止。優(yōu)化結果如表2所示，訓練16輪時達到最優(yōu)適應度。

表2 SSA-LSTM優(yōu)化結果

3.3 預測結果及對比分析

根據(jù)SSA優(yōu)化結果設置LSTM模型參數(shù)，對日光溫室空氣溫濕度、光照強度、CO2濃度及土壤溫濕度分別進行未來21 d預測，預測結果如圖9所示。

圖9 基于SSA-LSTM的溫室環(huán)境預測結果

為了更好地驗證SSA-LSTM模型在多維溫室環(huán)境數(shù)據(jù)預測中的優(yōu)越性，同時利用BP神經(jīng)網(wǎng)絡、LSTM及 GRU模型對溫室環(huán)境預測并對比分析。在相同運算環(huán)境的輸入?yún)?shù)條件下，4種模型環(huán)境預測性能的對比如表3所示。

由表3可知，采用SSA-LSTM模型對溫室空氣溫濕度、土壤溫濕度、CO2濃度和光照強度6種參數(shù)進行預測，對空氣溫度預測擬合指數(shù)最高，為98.2%，平均絕對百分比誤差為2.5%，均方根誤差為0.6℃；受人工灌溉等因素影響，對土壤相對濕度預測擬合指數(shù)相對偏低，為96.8%，其MAPE為3%，RMSE為0.7%。

表3 4種模型預測性能對比

采用了SSA自動進行參數(shù)選優(yōu)方式的SSA-LSTM，使模型預測性能發(fā)揮到極致，SSA-LSTM的平均MAPE降低至2.7%，相比BP、GRU、LSTM分別降低6.3、3.2、3.4個百分點；BP、GRU、LSTM和SSA-LSTM擬合指數(shù)分別為89.5%、93.5%、93.3%和97.6%，對比其它3種模型，SSA-LSTM預測擬合指數(shù)分別提升8.1、4.1、4.3個百分點，模型預測性能最佳。

4 結論

(1)針對農業(yè)物聯(lián)網(wǎng)數(shù)據(jù)體量大、維數(shù)爆炸、計算成本高，傳統(tǒng)的LSTM在訓練過程中依靠人工經(jīng)驗手動調節(jié)參數(shù)，處理高維數(shù)據(jù)時收斂速度慢且容易陷入局部最優(yōu)等問題，本文提出一種基于SSA優(yōu)化的LSTM溫室環(huán)境預測模型，實現(xiàn)了溫室空氣溫濕度、土壤溫濕度、CO2濃度及光照強度6種環(huán)境數(shù)據(jù)的精準預測。

(2)與BP神經(jīng)網(wǎng)絡、GRU及LSTM模型進行溫室環(huán)境預測對比分析。實驗結果表明：BP、GRU、LSTM和SSA-LSTM擬合指數(shù)分別為89.5%、93.5%、93.3%和97.6%，SSA-LSTM的擬合效果明顯提升。證明本研究提出的SSA-LSTM模型在溫室環(huán)境數(shù)據(jù)預測中具有較高的優(yōu)越性。