楊文麗,燕振剛
(甘肅農業大學信息科學技術學院,甘肅蘭州 730070)
受工業革命的影響,全球生產活動不斷增加,大氣中的溫室氣體儲量逐年增長[1],由此導致全球變暖,引起各國和環境組織的高度重視[2]。據統計,每年大氣中有大量的溫室氣體來源于土壤,其中耕地所釋放出的溫室氣體已經超過了人為溫室氣體總量的30%。我國作為農業大國,農業碳排放占溫室氣體排放總量較高,甚至超過了全球平均水平[3-5]。全球氣溫升高會導致一系列嚴重威脅人類自身和社會發展的生態環境問題[6]。因此,對溫室氣體變化的認識和研究在全球變化范圍內顯得尤為重要。
當前,關于農業溫室氣體排放的研究不斷深入,尤其是各種農業措施下的溫室氣體排放[7]。各種生物物理模型被成功開發并用于模擬溫室氣體排放,其中比較著名的有EPIC 模型、DAYCENT 模型、APSIM 模型、DSSAT 模型、DNDC 模型等。這些生物物理模型雖然有效且應用廣泛,但有其自身局限性,主要是因為其要求具備相關農業環境知識,還要根據研究需求輸入各種必要參數,比如氣候數據、土壤數據、農田管理數據等,并且對輸入參數進行校正和檢驗也具有較高的難度。為了克服這些限制,機器學習(Machine Learning)算法可以作為上述生物物理方法的一種替代或補充,特別是模擬和預測溫室氣體排放,以及一般環境現象,現已被廣泛使用[8]。這些模型包括經典回歸模型、淺層學習和深度學習等。機器學習的各種智能算法廣泛應用于農業及其他領域[9],包括產量預測[10]、病蟲害識別[11]、雜草檢測[12]和品種識別[13]等方面,證實了機器學習是具有很高潛力和前景的一種方法。燕振剛等[14]采用BP 神經網絡算法對玉米生產碳排放進行評估并取得了較好成果。紀廣月等[15]利用人工神經網絡模型對中國碳排放進行預測,并對模型有效性進行檢驗。凌瑞瑜[16]采取線性插值的方法生成預測序列,對廣西2020 年和2040 年的農業溫室氣體排放量進行預測。李賽[17]采用灰色預測模型對河北省農業碳排放進行預測。Melesse 等[18]采用氣象和土壤數據等訓練人工神經網絡模擬麥田、草地和森林生態系統的CO2通量。Altikat 等[19]將作物種類、土壤溫度、土壤含水量、光合有效輻射(PAR)和土壤氧交換作為輸入參數,使用多元線性回歸(MLR)、人工神經網絡(ANN)和深度學習神經網絡(DLNN)模擬溫室條件下從土壤排放到大氣的CO2通量。Hamrani 等[20]將環境、農藝和土壤數據作為輸入,采用經典回歸、淺層學習和深度學習3 種機器學習模型預測農田土壤溫室氣體的排放潛力,為機器學習模型在預測環境溫室氣體排放方面的應用提供了新的視角。
國內外研究表明,機器學習模型已經在農業領域應用廣泛,在解決較困難的非線性變化時效果較好,但在機器學習模型下農田土壤CO2排放預測相關研究較少。鑒于此,本文嘗試將生物物理模型的部分參數(土壤溫度、含水量、有機碳、銨態氮、硝態氮含量)作為機器學習模型的輸入參數,建立基于RBF 神經網絡的預測模型,對慶陽市環縣玉米生長期內土壤CO2排放進行預測,并選擇多元線性和非線性回歸模型對該預測模型的有效性進行評估。
研究區位于甘肅省慶陽市環縣(107°16'E,35°42'N),是黃土高原的核心地帶,屬于溫帶大陸性季風氣候,年平均氣溫9.2℃。選取耕地面積介于0.06~0.07hm2的試驗田3塊用來種植玉米,播種量為4kg/畝,施磷肥40kg/畝,氮肥20kg/畝,在每年的4 月下旬進行播種,10 月份收獲。在此次取樣過程中,除必要的耕作措施外,沒有過多的人為參與和動物破壞,整個試驗環境保持自然狀態。
試驗設置于2020 年的5、6、7、8、9 月份進行野外試驗采集樣本,采樣具體時間為每天的7∶00、12∶00 和19∶00,每次抽氣持續時間為10min,將靜態箱置于底座之上,并用水進行密封,分別于第0、10、20、30min 進行取樣。此外,還需采集0~30cm 深的土壤樣本(每10cm 取一次),并將土壤帶回實驗室對其分析測定,每個試驗有3 個重復和一個對照。本文通過對玉米生長期內土壤含水量、溫度、有機碳、銨態氮、硝態氮含量等5 個因素作為輸入信號,將土壤CO2排放量作為輸出信號,建立基于RBF 神經網絡玉米地土壤CO2排放預測模型,形成的函數關系如式(1)所示。

其中,x1-x5分別表示土壤溫度、含水量、有機碳、銨態氮、硝態氮含量,y表示土壤CO2排放通量。
相對于目前應用最廣泛的誤差反向傳播算法,RBF 神經網絡具有結構簡單、收斂速度快等特點,更能夠適合對實時性要求高的場合。該模型由Broomehead& Lowe 根據生物神經元具有局部相應原理,并將徑向基函數引入到神經網絡中得出。該神經網絡被證明對非線性網絡具有一致逼近的性能,并逐步在不同行業和領域得到廣泛應用。
1.2.1 徑向基函數結構
RBF 神經網絡是一種由輸入層、隱含層及輸出層構成的3 層結構的前饋型神經網絡[21]。每一層的作用各不相同,輸入層主要用于存放信號源節點個數;隱含層由徑向基神經元節點組成,并與輸入層之間建立非線性映射連接;輸出層主要存放目標值,并于上一層之間建立線性映射連接。RBF 神經網絡結構如圖1所示。

Fig.1 RBF neural network structure圖1 RBF神經網絡結構
回歸分析法是利用數理統計方法建立的因變量與自變量之間回歸關系的一種函數表達式。回歸預測模型主要通過分析許多不同的自變量和由于各因素而產生的相互關聯性,在各變量之間構造出一個反映具體數量相互關系的一個數學模型,即回歸方程,并用所構造的回歸方程作為預測模型。根據因變量個數和回歸函數類型(線性或非線性)得到函數表達式如式(2)所示。

其中,y為因變量,ai為回歸截距,b1~bn為回歸系數,x1~xn為各因變量。
本文研究借助這兩種回歸預測模型,將土壤溫度、含水量、有機碳、銨態氮、硝態氮含量作為輸入,采用線性回歸和非線性回歸模型預測農田土壤CO2排放通量。具體公式如式(3)、式(4)所示。

式(3)和式(4)分別為線性回歸和非線性回歸方程。其中,y為農田土壤CO2排放通量,x1為土壤溫度,x2為含水量,x3為有機碳含量,x4為硝態氮含量,x5為銨態氮含量。
本文研究選擇Matlab2018Rb 作為實驗環境,用MATLAB 自帶的神經網絡工具箱中的newrb 函數創建一個RBF神經網絡。在RBF 神經網絡創建中,隱含層節點個數是不確定的。根據所設置的誤差目標,對網絡進行不斷訓練,直到所有網絡達到預期誤差要求。
首先設計一個RBF 網絡,具體參數如表1 所示,RBF神經網絡結構如圖2 所示。表1 中,Spread 為徑向基層的散布常數,表示徑向基函數的擴散速度,它的取值直接影響神經元的數量等網絡結構。

Table 1 Parameters of RBF neural network表1 RBF神經網絡參數

Fig.2 RBF network structure圖2 RBF網絡結構
一般而言,隱含層節點個數對神經網絡預測精度有著較大影響,因此需要通過實驗,結合已有經驗,采用反復試湊的方法確定隱含層的神經元個數,最終確定當隱含層節點數為46 的RMSE 和MAE 值均比其他任何節點都小,R2均比其他節點大,分別為0.975(R2)、0.091(RMSE)和0.048(MAE),統計值如表2所示。
將5-9 月份(45 組)的樣本數據劃分為5×45 的輸入矩陣和1×45 的目標輸出矩陣。抽取前4 個月(36 組)數據為訓練樣本,剩余9 月份(9 組)數據為測試樣本。為了對所有樣本進行充分訓練,采用MATLAB 中的插值函數interp2,將36 組樣本數據增加至100 組,然后將36 組訓練樣本輸入向量與對應的目標輸出合并為一個6×36 矩陣,再通過插值得到一個6×100 矩陣,最后將其分別拆分為5×100和1×100的輸入輸出矩陣。

Table 2 Root mean square error(RMSE),Mean absolute error(MAE)and R2 of farmland soil CO2 emission in RBF neural network prediction model with different node numbers表2 不同節點數中RBF神經網絡預測模型農田土壤CO2排放的均方根誤差(RMSE)、平均絕對誤差(MAE)和R2
采用Matlab2018Rb 軟件建立基于RBF 神經網絡的農田土壤溫室氣體預測模型,并對該預測模型有效性進行驗證。
圖3 為預測值與真實值對比圖,圖4 為殘差圖,顯示了真實值和預測值之間的差值。在模型測試時出現了個別數據點異常的情況,可能是由于氣候、農作物干預措施以及實驗過程中出現的不可避免的誤差所致。最終決定將異常點進行剔除,所得結果剛好能夠較好地滿足預測要求。從圖3 中可以明顯看出,預測值和真實值的變化趨勢基本一致,誤差值較小。因此,有理由認為RBF 神經網絡能夠用于土壤CO2排放通量情況預測。

Fig.3 Comparison between predicted value and actual value圖3 預測值與真實值對比

Fig.4 Residual diagram圖4 殘差圖
為了驗證徑向基函數網絡算法對碳排放評估的有效性,本文研究選擇多元線性和非線性回歸模型,與5-46-1結構的徑向基函數網絡算法模型進行比較,將R2、RMSE和MAE 值作為評價標準。結果表明,測試集RBF 神經網絡中RMSE(0.091)、MAE(0.048)值均比其他模型小,并且R(20.975)比其他模型的R2值高,具體值如表3所示。

Table 3 Root mean square error(RMSE),mean absolute error(MAE)and R2 statistics predicted by each model表3 各模型預測的均方根誤差(RMSE)、平均絕對誤差(MAE)和R2統計值
農田土壤溫室氣體排放受區域氣候條件、農作措施、土壤質地等多方面因素的影響,難以用一般的數學模型進行表達,而機器學習模型能夠較好地彌補這些不足。
本文將碳排放預測研究與機器學習模型緊密結合,建立了基于RBF 神經網絡算法的農田土壤CO2預測模型,在碳排放預測模型中,對該預測模型進行了有效性驗證。研究得出,平均相對誤差接近4%,最大相對誤差接近5%。這與陳騰飛等[22]在中國碳排放的智能預測及減碳對策研究中得出的BP 神經網絡和RBF 神經網絡平均預測誤差接近于5%的結果相似。燕振剛等[14]采用BP 神經網絡預測玉米生產碳排放評估,得出該預測模型的平均絕對誤差為0.0513,表明RBF 神經網絡算法預測性能優于其他預測模型。本文研究的相關系數0.975 高于Melesse 等[18]運用人工神經網絡算法預測森林生態CO2通量的相關系數0.94,也高于Hamrani 等[8]采用機器學習模型預測農田土壤溫室氣體排放潛力的相關系數0.86。但是,該研究仍然存在著不確定性,數據來源受人工、大自然等諸多因素影響,機器學習模型還有待進一步驗證。
RBF 人工神經網絡具有諸多優點,且訓練簡潔、學習收斂速度快,用于預測非常適宜。本研究通過采用RBF 神經網絡對農田土壤溫室氣體排放進行預測,并對算法有效性進行評估,通過比較線性、非線性回歸模型和RBF 神經網絡預測模型的MAE、RMSE 和R2值可以得出,5-46-1 的RBF 神經網絡預測模型能夠較好地預測農田土壤CO2排放通量,且圖中(圖3)預測值和實測值曲線走勢擬合較好。由此可知,RBF 神經網絡預測模型是一種精確度較高的預測方法,可以用于土壤溫室氣體排放預測。