李偉,匡昌武,胡欣欣
(1.海南省氣象探測中心,海口 570203;2.海南省南海氣象防災減災重點實驗室,海口 570203)
水是一切生命賴以生存的重要自然資源之一,對土壤-植物-大氣連續系統起到紐帶作用。土壤水分是地球表層不同圈層互相影響的關鍵因素,為地表物質循環和能量轉換提供載體和驅動力。土壤水分含量會影響到植物或土壤中微生物的生長,是陸地生態系統的重要控制因子,還與生活環境和經濟發展相關[1-3]。土壤水分含量和變化受土壤特性、地形、氣象因子等環境因素的影響[4]。目前,監測土壤水分數據主要依靠地面專用儀器和衛星遙感反演2 種方法。地面專用儀器監測法主要采用時域反射型儀器(TDR)、電阻儀器、中子水分儀等儀器設備來檢測土壤中水分含量。該方法具有精度高、性能穩定、環境影響較小的優點,但是費用較高,難以滿足觀測數據高時空分辨率的要求。衛星遙感反演法有基于土壤熱慣量、基于溫度和植被、基于微波遙感等檢測方法,具有監測范圍廣、強動態、高時效等優點,但該方法僅能監測到地表范圍內,同時,遙感反演方法前期需要大量準確、可靠的地面觀測數據建立模型。然而,國內現有土壤水分實測數據的時間序列較短,大多以農業旬報為主,存在一定的數據缺測率[5,6]。因此,提升土壤水分數據的完整性和延長時序是當前重點研究工作。土壤水分預測方法主要分為數值模型預測和機器學習法兩類。數值模型預測可分為基于物理機制的模型和基于土壤水分平衡方程的模型等2 類方法,該方法輸入量多、模型結構復雜、計算量冗余,預測的結果差異性大[7]。以氣象、土壤要素為輸入量的機器學習方法具有操作簡單、自適應性學習和擬合能力強的特點,目前廣泛應用于土壤水分數據監測和預報研究中。由于受到多種自然環境因素的影響,土壤水分數據變化規律復雜,受到干旱、暴雨、寒冷等天氣過程的影響呈季節性變化趨勢,也會受到土壤微生物等環境影響呈隨機變化趨勢。基于神經網絡的土壤水分預測方法,具有較高的準確率,能實現精準把握土壤墑情,科學灌溉農作物,對最終實現農業高產具有重要意義[8,9]。
1.1.1 RF 特征選擇 隨機森林(Random forest)是利用多棵樹對樣本進行訓練并預測的一種分類器[10]。隨機森林是一種靈活且易于使用的機器學習算法,即使沒有超參數調優,也可以在大多數情況下得到很好的結果,既可用于分類,也能用于回歸任務。本研究在隨機森林算法的基礎上,利用RF 特征選擇中的平均不純度減少方法(Mean decrease impurity)對影響土壤水分的各種因素進行關聯性分析[11]。
RF 算法生成決策樹步驟如下[12]:
1)對所有影響因素進行遍歷并計算均方誤差,統計可能出現的分類情況。選擇均方誤差最小的分割點s和最優切分變量j。均方差和目標函數可以表示為:
式中,c1、c2表示2 樣本集合R1、R2的平均輸出值,yi為第i個樣本的輸出值。
2)用選定的(j,s)劃分樣本集合,并求得相應的輸出值。根據分割點s分割形成的樣本集合R1和R2為:
樣本集合Rm的輸出值cm的計算公式為:
式中,Nm為樣本集合Rm的總樣本數。
3)重復步驟1 和步驟2,將輸入空間劃分為m個區域,R1,R2,…,Rm,直至樣本集合滿足終止條件。
4)生成決策樹:
式中,I(x)為指示函數。
1.1.2 長短期記憶神經網絡 循環神經網絡(Recurrent neutral network,RNN)能挖掘并分析數據中的時序信息[13]。RNN 的神經單元僅由權重矩陣w、偏置b和激活函數組成,且每個時間片都共享相同的參數,圖1 為循環神經網絡結構。隨著循環神經網絡訓練時長和網絡層數的增多,很容易出現長期依賴、梯度消失和梯度爆炸等問題,從而無法有效地處理較長序列數據信息。

圖1 循環神經網絡結構
長短期記憶神經網絡(Long short-term memory network,LSTM)是具有長期記憶能力的一種時間遞歸神經網絡,引入門機制用于控制信息的流通與丟失,有效解決長期依賴、梯度消失和爆炸問題[14]。LSTM 廣泛應用在機器翻譯、語音識別等領域[15]。LSTM 核心思想是記憶塊,主要包含1 個記憶單元和3 個門(遺忘門、輸入門、輸出門),圖2 為LSTM 模型結構。
1.1.3 雙向LSTM 神經網絡 雙向長短期記憶神經網絡(Bidirectional long short-term memory network,BiLSTM)是傳統LSTM 的擴展,其思想是將同一個輸入序列分別接入向前和先后的2 個LSTM中,然后將2 個網絡的隱含層連在一起,共同接入到輸出層進行預測,BiLSTM 神經網絡結構見圖3[16]。在訓練過程中,通過對輸出神經元的正向和反向傳播來更新LSTM 網絡的權值。前一時刻狀態的輸入和隱含層輸出分別用xt-1和ht-1表示,當前狀態的輸入和隱含層的輸出分別用xt和ht表示,后一時刻狀態的輸入和隱含層的輸出分別用xt-1和ht-1表示(圖3)。

圖3 BiLSTM 神經網絡結構
1.2.1 隨機森林選擇特征 為避免輸入過多變量導致數據冗余,本研究通過隨機森林方法對樣本數據進行特征的重要性度量,挑選出在土壤水分預測過程中關聯性較強的影響因素,具體步驟如下[17]:
1)隨機森林算法在每次建立決策樹時,對訓練集采取隨機且有放回地抽取操作,這類數據稱為袋外數據(OOB),利用袋外數據計算模型的預測錯誤率,稱為袋外數據誤差,記為errOOB1;
2)隨機對袋外數據所有樣本特征X加入噪聲干擾,再次計算袋外數據誤差,記為errOOB2;
3)假設隨機森林中有N棵樹,則計算影響因素X的重要性度量公式為:
4)計算每個影響因素X的重要性W,按照降序進行排序,確定前m個影響因素為神經網絡輸入數據集的特征。
圖4 表示使用隨機森林在土壤水分預測過程中進行特征變量重要性度量的結果。由圖4 可知,在土壤水分預測度量特征重要性的過程中,氣溫、地面溫度、10 cm 地溫、相對濕度、降水量、日照時數、蒸發量7 種氣象因子與土壤水分的關聯性在所有特征中相對更重要,所以輸入變量由上述7 種氣象因子組成,輸入樣本數據集由輸入變量的特征集組成。

圖4 隨機森林選擇特征結果
1.2.2 模型構建流程 基于隨機森林的雙向長短期記憶神經網絡(RF-BiLSTM)土壤水分預測模型結構如圖5 所示[18-20]。首先,對樣本數據進行歸一化和補充缺失數據等預處理工作;其次,使用RF 算法對土壤水分和土壤水分氣象影響因素進行關聯度分析,選出與土壤水分關聯度較高的特征,從而提升模型的訓練速度和準確性;再次,搭建雙向LSTM 神經網絡,在特征數據集上訓練預測模型;最后,再根據設置的評估指標選取最佳預測模型,得到更精確的土壤水分預測值。

圖5 RF-BiLSTM 土壤水分預測模型結構
本研究選取三亞國家氣候觀象臺近6 年(2016—2021 年)小時觀測數據作為樣本數據集,氣象站觀測變量包括氣溫、地面溫度、5 cm 地溫、10 cm 地溫、15 cm 地溫、20 cm 地溫、蒸發量、降水量、日照時數、相對濕度等15 種指標,土壤水分站觀測變量為10 cm 深度的土壤體積含水量數據。數據來源于全國綜合氣象信息共享平臺(CIMISS),部分觀測數據如表1 所示。

表1 部分觀測數據
數據集中存在369 條缺測數據,占比0.70%,通過計算前后均值對缺測數據進行填充處理。每種氣象數據都有著對映的數量級和數量級單位,采用大量的無序化數量規則數據進行模型訓練有可能會出現梯度爆炸,預測結果也會有很大的偏差,為解決上述問題,訓練模型前首先對樣本數據進行歸一化處理[21,22]:
式中,Xmax表示對映影響因素數據的最大值,Xmin為對映影響因素數據的最小值。
采用均方根誤差RMSE、平均絕對誤差MAE、決定系數(R2)作為評價指標[23,24]。
1)均方根誤差(RMSE):
2)平均絕對誤差(MAE):
3)決定系數(R2)
式中,yi為土壤體積含水量觀測值(%)為模型預測值(%)為平均值(%),n為觀測次數。均方根誤差(RMSE)能衡量觀測值與預測值間的偏差,其值越小,表明模型的準確度更高;平均絕對誤差(MAE)反映誤差的真實情況;決定系數(R2)衡量數值間的離散程度[25,26]。
為驗證基于RF-BiLSTM 神經網絡的土壤水分預測模型的優越性,本研究采用三亞國家氣候觀象臺2016—2020 年的氣象和土壤水分觀測數據作為訓練集,為防止連續時間序列對訓練模型造成影響,每一輪訓練,從訓練集中隨機抽取600組,每組128個數據集[27],每個數據集包括前120 h 的氣象觀測數據和土壤體積含水量數據,預測對象則為后6、12、24、48 h 的土壤體積含水量數據。測試集為2021 年整年的氣象和土壤水分觀測數據,并分別在RF-BiLSTM 模型、LSTM 模型、BP 模型對比試驗。
圖6 顯示在訓練和測試過程中,RF-BiLSTM 模型經過50 次迭代的損失函數變化曲線圖[28,29]。由圖6 可知,在訓練集和測試集上,當迭代次數達到25次時,損失函數基本收斂;迭代次數達到40 次后,損失值已降至0.01 以下,并基本無變化,說明RFBiLSTM 模型在訓練集和測試集上均具有較好的效果和超強的泛化能力。

圖6 RF-BiLSTM 模型損失函數曲線
為驗證RF-BiLSTM 模型的預測精度,分別使用RF-BiLSTM 模型、LSTM 模型、BP 模型在測試集上預測每個時次6、12、24、48 h 后的土壤體積含水量值,利用MAE、RMSE、R23 種評估參數對比3 種模型的預測效果,評估結果如表2 所示。隨著預測步長的增加,3 種模型的預測性能均不同程度下降。在4 個預測步長下,RF-BiLSTM 模型的R2值均比LSTM 模型、BP 模型的R2大,RF-BiLSTM 模型的預測精度更高,4 種步長的預測值與觀測值之間具有最小的誤差。

表2 Bi-LSTM、LSTM、BP 模型預測效果
在4 種步長下,3 種模型的預測值均能夠反映該地土壤水分的變化趨勢,RF-BiLSTM 模型的預測曲線最貼近真實值(圖7)。圖8、圖9 和圖10 分別為6、12、24、48 h 下RF-BiLSTM 模型、LSTM 模型、BP 模型預測值與觀測值的比較結果,在較短的預測步長下,RF-BiLSTM 模型預測值與真實值誤差極小;隨著預測步長的增加,3 種模型的預測值均不同程度地偏離真實值,表明預測誤差逐漸變大,但是RF-BiLSTM 模型的R2值仍保持在0.9 以上,表現出較高的相關性,預測效果最好。

圖8 RF-BiLSTM 模型預測值與觀測值對比

圖9 LSTM 模型預測值與觀測值對比

圖10 BP 模型預測值與觀測值對比
范嘉智等[30]利用長短期記憶神經網絡同樣對6、12、24、48 h 后的土壤體積含水量進行預測,RMSE分別為1.171%、1.430%、1.930%、2.371%,其準確率遠低于本研究結果。韋琦等[31]基于非線性回歸與BP 神經網絡模型對土壤水分蒸發量進行預測,平均絕對誤差可達到1.453%,遠高于本研究的0.462%。侍永樂等[32]基于優化的自適應遺傳神經網絡算法對24 h 后的土壤濕度進行預測,一步預測RMSE為3.679%,高于本研究的1.430%。
在土壤水分多時次動態預測的應用中,RFBiLSTM 模型處理長時間序列數據具有強大的擬合能力,比常用的BP 模型和LSTM 模型預測準確度更高,性能更加優越。
神經網絡模型可以通過反復學習,實現輸入和輸出之間的映射。因此,輸入變量必須精簡,訓練數據要充足,否則預測效果不佳。本研究通過RF特征選擇中的平均不純度減少方法[33]對土壤水分的所有影響因素進行關聯性分析,選擇高度相關的8種氣象因子作為輸入變量,從而大大提高模型訓練的速度,降低模型的冗余程度;采用2016—2021 年的氣象和土壤水分觀測數據,保證訓練模型的數據充足,再通過BiLSTM 神經網絡的學習過程對各項輸入進行權重設置,最終形成高效的RF-BiLSTM模型。
本研究提出的RF-BiLSTM 模型為土壤墑情預報預測提供了技術指導,為實現農業灌溉智慧化提供數據支撐,為多變量時間序列的預測和建模提供了指導方向。