











摘要:針對因惡劣環境、電池耗盡、硬件故障等原因導致的土壤溫濕度傳感器數據丟失問題,提出一種基于卷積神經網絡的長短期記憶網絡(CNN-LSTM)填補模型。以閃電河流域2019年土壤溫濕度數據為試驗數據,分別選用CNN、LSTM、TCN、CNN-TCN、CNN-LSTM 5個模型對土壤溫濕度傳感器網絡缺失數據進行填補,并采用Adam算法優化模型,使用決定系數(R2)、均方根誤差(RMSE)、平均絕對誤差(MAE)指數對模型填補結果進行評價。結果表明,采用線性插補算法獲得完整的數據,CNN-LSTM模型的R2為0.999 9,高于其他模型,MAE、RMSE分別為0.001 85、0.019 70,均遠低于其他模型。采用k近鄰插補算法獲得完整的數據,CNN-LSTM模型的MAE、RMSE分別為0.000 12、0.000 12,均遠低于其他模型,R2為0.999 4,高于CNN模型、TCN模型;CNN-LSTM模型對土壤溫濕度傳感器數據缺失值的填補效果最好。CNN-LSTM模型在處理大規模土壤溫濕度傳感器缺失數據問題時具有較好的可行性和精確度。
關鍵詞:CNN-LSTM模型 ;土壤;溫濕度;缺失數據填補算法
中圖分類號:TP389.1" " " " "文獻標識碼:A" " " " "文章編號:0439-8114(2025)02-0179-05
DOI:10.14088/j.cnki.issn0439-8114.2025.02.028 開放科學(資源服務)標識碼(OSID):
Abstract:A convolutional neural network-based long short-term memory network (CNN-LSTM) filling model was proposed to address the problem of soil temperature and humidity sensor data loss caused by harsh environments, battery depletion, hardware failures, and other factors. Using the soil temperature and humidity data from the Shandian River Basin in 2019 as experimental data, five models including CNN, LSTM, TCN, CNN-TCN, and CNN-LSTM were selected to fill in the missing data of the soil temperature and humidity sensor network. The Adam algorithm was used to optimize the model, and the coefficient of determination (R2), mean square root error (RMSE), and mean absolute error (MAE) index were used to evaluate the results of the model filling. The results showed that using the linear interpolation algorithm to obtain complete data, the R2 of the CNN-LSTM model was 0.999 9, which was higher than that of other models. The MAE and RMSE were 0.001 85 and 0.019 70, respectively, which were much lower than those of other models. The K-nearest neighbor interpolation algorithm was used to obtain complete data. The MAE and RMSE of the CNN-LSTM model were 0.000 12 and 0.000 12, respectively, which were much lower than those of other models. The R2 was 0.999 4, which was higher than that of the CNN model, and TCN model;the CNN-LSTM model had the best filling effect on missing values in soil temperature and humidity sensor data. The CNN-LSTM model had good feasibility and accuracy in dealing with the problem of missing data from large-scale soil temperature and humidity sensors.
中國作為農業大國,農田墑情是農田管理的重要指標[1]。農田墑情可以幫助農民合理安排灌溉和施肥,滿足作物的生長需求,農田環境可以感知來自大氣的異常變化,還可將這些信息反饋給大氣,對水資源、農業和生態系統的時空演變有著重要影響[2]。農田環境信息關系到農作物的生長發育和產量,通過監測農田環境,農民可以及時調整農田管理措施,對農作物灌溉計劃作出合理規劃,從而提升農作物產量和質量[3,4]。為及時了解農作物生長狀況,減少因惡劣天氣等因素對農作物生長產生的不利影響,利用傳感器對農田環境進行監測、傳輸和分析,幫助農民評估農田環境分布情況,從而評估土壤的質量和適宜性,這有助于農民選擇適合的作物種植和采取相應的土壤改良措施,提高土壤質量和農田的可持續發展能力[5,6]。由于傳感器本身的網絡結構及節點本身的特點,在采集過程中可能會因為電池耗盡、硬件出現故障等原因而停機,造成數據丟失;由于地下傳感器采用無線方式進行數據傳輸,因此存在信號干擾、通信中斷、網絡失效等問題,造成信息不能及時傳遞或丟包,使獲取的數據集成為不完全數據集[7,8]。
根據應用場景的不同對缺失數據填補方法的選擇也有不同, Little等[9]于1987年對缺失數據類型進行劃分,分別為完全隨機缺失(Missing completely at random,MCAR)、隨機缺失(Missing at random,MAR)、非隨機缺失(Not missing at random,NMAR)。一般情況下,處理缺失數據的3種方法分別為刪除、忽略和填充。對于數據量較少的數據集而言,刪除或忽略缺失數據會導致數據量減少,從而造成數據信息浪費,這將降低數據的可靠性,因此,對缺失數據進行填補才是合適的處理方式[10],根據信息的特征可知,土壤溫濕度數據是按照時間順序記錄的一系列觀測值,每個觀測值代表了特定時間點的傳感器數據。時間序列性質使得觀測值之間存在一定的相關性和依賴關系,由于氣候、植被生長和農業活動等因素的影響,土壤溫濕度數據通常會顯示出明顯的季節性和周期性變化。
目前國內外時序缺失數據的插補方法已經比較完備,許凱凱等[11]就衛星帆板溫度遙測數據缺失問題提出一種基于引入注意力機制的時間卷積網絡(SE-TCN)自回歸預測方法。利用SE-TCN模型將歷史與未來數據的映射進行擬合,從而實現缺失值的插補,有效克服傳統填補方法存在的插值偏差過大以及無法預測實際插值等問題。楊建明[12]結合歷史數據與屬性間關系,以殘差學習的方式處理缺失數據,在LSTM基礎上設計填補單元,為了增強網絡對時序數據的學習能力,還在輸出間增加了短連接。Song等[13]以植物莖干含水量為研究對象,通過對相同數據區間內缺失數據的填充值與不同填充方式的比較檢驗 LSTM模型填充數據的精確度。
本研究針對閃電河流域土壤溫濕度無線傳感器網絡數據集,采用20%的隨機缺失處理方法對隨機缺失后的數據進行預處理,并對數據集進行填補。采用LSTM模型、CNN模型、TCN模型、CNN-LSTM模型、CNN-TCN模型分別對數據集中的土壤溫濕度進行填補和評估。
1 理論基礎
1.1 CNN算法
1998年Lecun等[14]提出卷積神經網絡(Convolutional neural networks,CNN),CNN是一種包含卷積操作的前饋神經網絡,一般情況下其結構包括輸入層、卷積層、池化層和全連接層等[15]。
卷積層作為CNN模型的核心組成部分,輸入信息的特征提取部分都是由卷積核實現,卷積層中的卷積核按照預先設置的滑動步長先從左到右,再從上到下移動,直至完整掃描輸入特征圖。通常每個卷積層含有多個卷積核共同對輸入信息進行運算,提取關鍵特征[16]。池化層主要負責對卷積層抽取的特征重新選擇,既能保持原有的特征,又能降低模型的復雜性,因此池化操作一般發生在卷積操作之后。池化的本質是降采樣,即對特征進行降維,一般池化操作有最大池化和平均池化2種。與卷積層的工作方式不同,池化操作是通過尺寸為n px×n px滑動窗口的移動,求其覆蓋矩陣中的最大值或平均值,而卷積層是做互相關運算。全連接層的主要作用是分類,對前面經由多次卷積和池化操作后得到的特征向量進行整合、降維,獲取深層信息;最后一層的全連接層輸出預測值,通過 Softmax函數對各種分類情況輸出一個概率。
因為傳感器數據的本質為時序數據,是隨著時間推移并按照時間順序進行記錄的數據,因此使用一維卷積神經網絡進行處理會更加有效,一維CNN卷積神經網絡結構如圖1所示。
1.2 LSTM算法
LSTM算法(Long short-term memory)[17]由循環神經網絡(RNN)發展而來,其主要特點是引入了門控機制,解決了傳統循環神經網絡(RNN)在處理長期依賴問題時容易出現的梯度消失或梯度爆炸問題[18,19]。并且LSTM模型為有效處理長期依賴關系問題引入長期記憶單元[20],可以存儲和更新長期記憶,在不同時間步之間傳遞信息。與其他處理時間序列數據的模型相比,LSTM模型不需要估計非線性函數,并且在廣泛的序列建模應用中表現出卓越性能[21]。
LSTM主要由遺忘門、輸入門和輸出門組成[16],遺忘門對上一時刻到當前時刻單元狀態的數量進行把控; 輸入門對當前時刻單元狀態的輸入數量進行把控;輸出門對當前時刻單元狀態的輸出數量進行把控。LSTM模型結構如圖2所示。
2 CNN-LSTM模型構建
2.1 數據集介紹
本研究所用的數據集來自閃電河流域土壤溫濕度無線傳感器網絡(SMN-SDR)34個站點的土壤水分、土壤溫度和降水量的原位測量數據(閃電河流域土壤溫濕度無線傳感器網絡數據集網址:http://poles.tpdc.ac.cn/zh-hans/data/c6504fb2-98dd-42f7-9f0d-b714ca1fafaf/)。該數據集選擇地勢相對平坦的位置布設傳感器網絡,地表覆蓋類型以草地和農田為主。網絡中包含34個站點,分別設置100 km(大尺度)、50 km(中尺度)和10 km(小尺度)3種采樣尺度。站點觀測使用Decagon 5TM 土壤水分傳感器,每站點統一按照5個測量深度(3、5、10、20、" " "50 cm)進行測量。在觀測數據穩定后,對站點各土層進行定期取樣,并對土壤濕度、溫度指標進行校正。2019年6月之前的數據采樣間隔為10 min,2019年6月之后的數據采樣間隔為15 min。
采樣尺度為100 km,測量深度為3 cm,傳感器為Decagon 5TM 土壤水分傳感器,測量數據為2019年3—12月的土壤溫濕度數據。土壤溫濕度數據均為43 231條,完整土壤溫濕度數據如圖3所示。
2.2 數據預處理
對完整的數據集進行20%的隨機缺失,隨機缺失后的土壤溫濕度部分數據如表1所示。
對隨機缺失后的數據集分別利用k近鄰(KNN)填補算法和線性填補算法進行填補操作,作為缺失值填補的非參數化方法,k近鄰填補算法的基本思想是通過查找與缺失樣本最接近的k個鄰居樣本數據來預測缺失值[22]。對填補后的完整數據進行歸一化處理,使用MinMaxScaler將數據歸一化到0~1,歸一化處理是為了消除不同特征間的量綱差異所導致的模型在訓練過程中對特征的權重分配不均勻問題以及避免異常值對模型的影響[19]。通過數據歸一化處理,將不同特征之間的數值范圍映射到相同的尺度上,減小異常值的影響,以便更好地進行模型訓練和預測,使得模型更加穩定[23],計算式如下。
式中,xi、 xin分別為原始值和歸一化后的值;xmax、 xmin分別為序列中數據的最大值和最小值。
數據集劃分為訓練集(80%)和測試集(20%),通過訓練集對模型進行訓練。
2.3 模型結構
卷積神經網絡結構由1個輸入層、1個卷積層,1個池化層和1個flatten層構成。首先創建1個CNN模型輸入層,指定輸入數據的形狀為1×1,適用于處理時間序列數據;一維卷積層接收之前定義的輸入層作為輸入,并輸出經過卷積操作后的特征圖,卷積核數量設置為10,卷積核大小設置為1×1,使用ReLU激活函數解決梯度爆炸和梯度消失問題。隨后創建1個一維最大池化層,接收之前定義的一維卷積層conv1的輸出作為輸入,并指定池化窗口的大小為1,對輸入的格式進行轉換。最后創建1個flatten層,將池化層的輸出作為輸入,并將其展平為一維向量。
LSTM模型包含1個輸入層和2個LSTM層,首先與CNN模型一致,創建1個接受單一時間步上單個數值作為輸入的LSTM模型輸入層,步長和特征維度均設置為1,指定輸入數據的形狀為1×1,將輸入數據通過具有15個隱藏單元的第一個LSTM層進行處理,并將所有時間步的輸出作為第二個LSTM層的輸入,將其作為序列輸入進行處理,然后輸出1個具有25個維度的向量。
CNN-LSTM模型整體包含2個輸入,一個是CNN模型的輸入,一個是LSTM模型的輸入。CNN和LSTM的輸出通過concatenate層合并,使用Dense層創建了1個具有1個神經元的全連接層output,激活函數linear;將連接后的結果merged 作為輸入,并生成1個單一的輸出值。模型使用adam優化器和mse損失函數進行編譯。CNN-LSTM模型可以有效預測數據模式中涉及高波動性和不確定性的非線性單變量時間序列數據[24] ,CNN-LSTM模型結構如圖4所示。為了讓每個模型選擇出合適的超參數,分別對每個模型的超參數進行調整,確定在不同傳感器的時間序列數據集上生成較低預測誤差的單個組合,并且嘗試不同批量大小,在輸入數據集上實現最佳擬合訓練模型,從而減少訓練時間。
3 試驗分析
3.1 評價指標
模型適應度主要分為良好擬合、過度擬合和欠擬合。如果訓練和驗證損失減少并穩定在同一點附近,則被認為是良好擬合模型;如果模型的驗證損失在某個水平上不斷下降,然后開始增加,則被認為是過度擬合模型;如果模型驗證損失高于訓練損失,并且趨于進一步改善,則被認為是欠擬合模型。本試驗用到的評價指標為平均絕對誤差(Mean absolute error,MAE)、均方根誤差(Root mean squared error,RMSE)、決定系數(Coefficient of determination,R2)。
1)平均絕對誤差(MAE)表示預測值與真實值之間的平均偏差程度,是回歸任務中常用的評估指標,MAE越小表示模型預測越準確,計算式如下。
式中,n為樣本數量;y1為預測值;y為真實值。
2)均方根誤差(RMSE)表示預測值與真實值之間的均方根差異,RMSE越小表示模型預測越準確,計算式如下。
3)決定系數(R2)。R2的取值范圍在0~1,越接近1表示模型對數據的訓練擬合程度越好,計算式如下。
3.2 5種模型比較
為了驗證CNN-LSTM模型下土壤溫濕度傳感器缺失數據填補的可行性,分別采用CNN-LSTM、CNN、LSTM、TCN、CNN-TCN 5種模型,以相同時間段的數據集進行訓練和驗證,5種模型使用相同的激活函數RELU、優化函數Adam,使用決定系數、平均絕對誤差、均方根誤差對訓練結果進行評估。由圖5可知,CNN-LSTM模型在處理土壤溫濕度傳感器網絡缺失數據時具有更高的準確度和更好的擬合效果,該模型在數據量較大的情況下,對時序數據缺失值的填補效果較好,隨著模型的訓練損失值趨于穩定,模型逐漸收斂并達到較好的效果。
采用線性插補算法獲得完整的數據,Conv1層卷積核數量為20,LSTM1層單元數為25,LSTM2層單元數為50,輸出層的激活函數為linear,epochs為100。由表2可知,CNN-LSTM模型的R2為0.999 9,高于其他模型,MAE、RMSE分別為0.001 85、0.019 70,均遠低于其他模型。CNN-LSTM模型對土壤溫度傳感器數據缺失值的填補效果最好。
采用k近鄰插補算法獲得完整的數據,Conv1層卷積核數量為10,LSTM1層單元數為50,LSTM2層單元數為100,輸出層的激活函數為linear,epochs為100。由表3可知,CNN-TCN模型的R2較大,但填補模型所需時間比其他模型長;CNN-LSTM模型的MAE、RMSE分別為0.000 12、0.000 12,均遠低于其他模型,R2為0.999 4,高于CNN模型、TCN模型。CNN-LSTM模型對土壤濕度傳感器數據缺失值的填補效果最好。
4 小結
本研究以解決土壤溫濕度傳感器數據缺失問題為背景,以閃電河流域2019年土壤溫濕度數據為試驗數據,利用CNN和LSTM聯合預測模型對土壤溫濕度缺失數據進行填補,通過試驗結果及評價指標(R2、RMSE、MAE)對比發現,CNN-LSTM模型在處理大規模土壤溫濕度傳感器缺失數據問題時具有較好的可行性和精確度,在填補土壤溫度和土壤濕度數據中,CNN-LSTM模型的R2均超過0.999 0。該方法可以提高現有填補模型的擬合程度,提升填補數據的精確度,減小預測值與真實值之間的誤差,其對于農田管理有一定幫助 ,也為日常農業活動中的智能性、準確性提供了數據支持。
參考文獻:
[1] 國務院關于印發全國國土規劃綱要(2016—2030年)的通知[EB/OL].https://www.gov.cn/zhengce/content/2017-02/04/content_516 5309.htm,2017-02-04.
[2] 魏森濤,王澄海,張飛民,等.基于土壤溫、濕度記憶性的土壤濕度預測方法研究[J].干旱氣象,2023,41(5):783-791.
[3] 田宏武,鄭文剛,李 寒.大田農業節水物聯網技術應用現狀與發展趨勢[J].農業工程學報,2016,32(21):1-12.
[4] ONYENEKE R U,AMADI M U,NJOKU C L,et al. Climate change perception an duptake of climate-smart agriculture inriceproduction in EbonyiState, Nigeria [J].Atmosphere,2021,12(11):1503.
[5] AL GHOBARI H M,DEWIDAR A Z.Integrating deficit irrigation into surface and subsurface dripirrigation asastrategy to save water in aridregions[J]. Agricultural water management, 2018,209:55-61.
[6] YAN H,HUI X,LI M,et al.Development in sprink lerirrigation technology in China[J].Irrigation and drainage,2020,69(S2):75-87.
[7] ZHOU J, HUANG Z. Recover missing sensor data with iterative imputing network[A].Workshops at the thirty-second AAAI conference on artificial intelligence[C]. Washington,USA:AAAI Press,2018.
[8] 鄧玉龍.無線傳感器網絡缺失數據填補關鍵技術研究[D].南京:南京郵電大學,2023.
[9] LITTLE R J A,RUBIN D B. Statistical analysis with missing data[M]. NewYork,USA:WileyandSonsInc,1987.
[10] MAO Y C,ZHANG J H,QI H,et al.DNN-MVL:DNN-multi-view-learning-based recover block missing datain adam safety monitoring system[J].Sensors,2019,19(13):2895.
[11] 許凱凱,張 銳.基于SE-TCN的一維低采樣衛星帆板溫度遙測數據插補方法[J].中國科學院大學學報,2023,40(6):810-820.
[12] 楊建明.基于LSTM的不完整時序數據填補方法研究[D].遼寧大連:大連理工大學,2022.
[13] SONG W,GAO C, ZHAO Y, et al. A time series data filling method based on LSTM—Taking the stem moisture as an example[J]. Sensors, 2020, 20(18): 5045.
[14] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[15] 郭蘊穎,丁云峰.基于CNN和LSTM聯合預測并修正的電量缺失數據預測[J].計算機系統應用,2020,29(8):192-198.
[16] 楊 凱.基于CNN和雙向GRU組合模型的短期電力負荷預測研究[D].黑龍江大慶:東北石油大學,2023.
[17] SCHMIDHUBER J,HOCHREITER S. Long short-term memory[J]. Neural Comput, 1997, 9(8): 1735-1780.
[18] CUI Z, KE R, PU Z, et al. Stacked bidirectional and unidirectional LSTM recurrent neural network for forecasting network-wide traffic state with missing values[J]. Transportation research part C: Emerging technologies, 2020, 118: 102674.
[19] 錢 斌,鄭楷洪,陳子鵬,等.基于殘差連接長短期記憶網絡的時間序列修復模型[J].計算機應用,2021,41(1):243-248.
[20] 王子馨,胡俊杰,劉寶柱.基于長短期記憶網絡的電力系統量測缺失數據恢復方法[J].電力建設,2021,42(5):1-8.
[21] SHERSTINSKY A. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network[J]. Physica D: Nonlinear phenomena, 2020, 404: 132306.
[22] KEERIN P, BOONGOEN T.Improved knn imputation for missing values in gene expression data[J]. Computers materials and continua, 2021, 70(2): 4009-4025.
[23] 丁 偉,鄒復民,劉吉順,等.基于CNN-BiLSTM-Attention的電動裝載機電池荷電狀態預測[J/OL].電源學報[2024-04-26].https://kns.cnki.net/kcms2/article/abstract?v=Mw9fkKjKljr47jg-Pr3TVOgdSlbY54upusWPCPIAMrkE2dmCDJfebJAfur6jzHb3HebhDdH2yWLUqS24F7nIZNA7VLO0TXL5BOM-_wHHHLRfiHA-kPj9qmjM49cG2gdnaXzY0Y9NlElCzB2k83Ol1DQx4R5ATa7S5V W9680mdVQapTcOUWmgnZZYuL_URx72amp;uniplatform=NZKPT amp;langu age=CHS.
[24] HUSSAIN S N, ABD AZIZ A, HOSSEN M J, et al. A novel framework based on CNN-LSTM neural network for prediction of missing values in electricity consumption time-series datasets[J]. 2022,18(1):115-129.
收稿日期:2024-07-09
基金項目:科技部科技創新2030重大項目(2022ZD0115800);新疆維吾爾自治區重大科技專項(2022A02011-4)
作者簡介:張瑛進(1999-),女,甘肅武威人,在讀碩士研究生,研究方向為農業信息化,(電話)17393828254(電子信箱)2916497264@qq.com;通信作者,古麗米拉·克孜爾別克(1970-),女(哈薩克族),新疆昌吉人,副教授,主要從事農業信息化研究,(電話)13899939189(電子信箱)glml@xjau.edu.cn。