徐清風 于茹月 勾宇軒 趙云澤 李 勇 黃元仿*
(1.中國農業大學 土地科學與技術學院,北京 100193;2.自然資源部農用地質量與監控重點實驗室,北京 100135;3.農業農村部華北耕地保育重點實驗室,北京 100193)
土壤有機質是指進入土壤中的各種有機物質,包括來源于動植物、微生物分解殘體和以及人類活動產生的還田秸稈等[1]。其作為陸地生態系統中碳循環的重要源和匯,是土壤的重要組成部分之一,影響土壤的肥力與生產力,并能夠抑制土壤中重金屬污染物的活性[2]。土壤受人類活動影響愈來愈頻繁,其有機質成分和結構易受到農業生產活動和土地利用變化等因素的影響,具有高度的空間異質性[3-4]。因而探索不同土層土壤有機質空間變異規律,對農業生產管理及生態環境保護均具有重要意義。Campbell等[5]于1978年首先將地統計學方法應用于土壤特性空間變異研究中之后,Burgess等[6]、Webster等[7]運用普通克里金插值等地統計學方法對土壤各類屬性值的空間變異進行了大量研究,推動了土壤屬性空間變異研究的進展。雖然克里金插值在土壤屬性的預測上得到了廣泛的應用,但由于克里金插值的平滑效應與不同土層土壤屬性值的復雜多變相悖,因此使用普通克里金插值研究不同土層土壤空間變異性質的準確性并不理想。后BP神經網絡逐漸被應用于土壤屬性空間變異研究,其結果與普通克里金插值結果相比,預測的準確性得到了一定提高[8-10]。BP神經網絡采用沿梯度下降的算法,也存在著對初始權值敏感、易陷入局部極小等問題[11],在此基礎上,一些研究運用遺傳算法優化BP神經網絡的權值計算過程[12],原因是遺傳算法訓練神經網絡對其初始權值不敏感,因而非常適用于神經網絡參數優化,然而,其交叉與變異概率隨機生成,易破壞優良個體結構、限制弱勢個體進化速度,故仍存在精度不高的問題[13]。
黃淮海平原作為我國重要的糧食生產基地,年糧食總產量為近2億t,提高土壤有機質預測精度對評估其未來生產潛力具有重要意義。本研究擬以黃淮海旱作區為研究對象,利用云模型云滴的隨機性和穩定傾向性的特點[14],將云模型與遺傳算法相結合,采用云發生器優化遺傳算法中的交叉、變異操作構建基于云遺傳模型的BP神經網絡,探究基于云遺傳BP神經網絡、BP神經網絡和GABP神經網絡3 種方法對不同土層的土壤有機質預測能力,對比得出具有較高預測精度的方法,為調整耕地管理措施及提高土壤質量水平等方面提供依據。
黃淮海旱作區的界定以地形坡度<5°,1 km2網格內旱地占耕地比>40%作為劃分依據,共包括北京、天津、河南、山東、河北與安徽6 個省市的274個區縣,面積總計28.12萬km2。黃淮海旱作區屬大陸性溫帶季風氣候,年均溫度14~16 ℃年降雨量在400~1 100 mm,主要降水時間多集中在夏季,主要土壤類型為潮土、棕壤及褐土等。
采樣布點的方案設計采用網格布點與分層抽樣相結合,抽樣時綜合考慮面積大小和集中程度,每種主要土類至少布設20 個采樣點,每個亞類盡量布設有采樣點,盡量保證每個黏粒等別上均有采樣點,每個區縣盡量保證有1 個采樣點。根據上述布設和抽樣規則,共確定265 個采樣點。采樣時間為2017年(不同區縣采樣時間上略有差異),利用GPS定位在半徑5 m范圍內采集3~5 點不同土層(0~40 cm)土樣混合,四分法取1.0~1.5 kg土樣進行分析,采用重鉻酸鉀外加熱法計算樣點土壤有機質的值。
為了檢驗神經網絡對土壤有機質的預測精度,將265 個采樣點隨機劃分,隨機將其中80%作為訓練樣點、20%為驗證點[15],使得訓練樣本與測試樣本空間分布均勻(圖1)。
1.3.1云模型
云模型是由李德毅院士在模糊數學和概率論兩者的基礎之上,通過特定的結構算法所形成的定性概念與其定量表示之間的轉換模型[16]。主要反映了客觀事物中概念的模糊性和隨機性,為定性與定量相結合的信息處理提供了有力手段[17]。

圖1 研究區訓練樣點和檢驗樣點分布圖Fig.1 Distribution of training samples and test samples in the study area
1.3.2基于云遺傳BP神經網絡的構建
基于BP神經網絡的土壤有機質空間預測以空間自相關理論為基礎,根據已知采樣點對曲面進行擬合,所求的函數表達式為:
z=f(x,y,A1,A2,…,An)
(1)
式中:z為預測樣點的土壤有機質質量分數;x與y分別為預測樣點的經度與緯度;A1,A2,…,An依次為距預測樣點距離最近的土壤樣點所測得的土壤有機質質量分數;參考已有研究經驗[26],選取n的數值為5。
基于云模型與遺傳算法優化的BP神經網絡法首先采用標準BP神經網絡試探得到最佳的隱層結點數,沿用傳統遺傳算法的初始化種群、選擇操作,后基于正態云模型X條件云生成算法實現對遺傳算法中交叉與變異方法的優化,經過不斷迭代選擇生成最優個體。根據得到的最優個體對BP神經網絡的權值和閾值進行賦值,從而得到具備全局最優解的BP神經網絡預測值。
1)隨機產生一個初始群體,編碼方法采用實數編碼,每個個體的基因位編碼長度由輸入層神經元、隱藏層神經元與輸出層神經元個數決定,其中的每一個實數均視為1 個基因位。
2)分別將每個個體作為BP神經網絡的初始權值與閾值,使用訓練數據訓練BP神經網絡得到預測輸出值,根據預測輸出值與實際值間的誤差平方和的倒數作為適應度函數,個體適應度F計算公式如下:
(2)

3)選擇操作采用輪盤賭方式進行,每個個體被選擇遺傳至下一代的幾率與其自身的適應度大小成正比,每一代中染色體的總數保持不變。
4)相較于原始的不同個體隨機交叉,云模型優化后的交叉概率pc由2 個個體間的最大適應度所決定,其計算公式為

(3)
式中:f1、f2分別為2 個個體的適應度值;f為每代個體中的平均適應度值;fmax為每代個體的最大適應度值,En與He分別為每代個體的熵與超熵;En′為以En為期望;He為標準差的正態隨機數;c1為控制云陡峭程度的常數,根據“3En”原則,通常取值為3,c2為控制云層厚度的常數,通常取值為10[11]。k1、k2可取0~1的常數,實驗過程中可根據具體情況調節參數的值,從而避免高適應度個體的基因因交叉操作丟失、增加低適應度個體的交叉幾率以改善神經網絡的預測精度。執行交叉操作時,雙方個體隨機選擇一段相同長度的染色體互換。
5)變異操作與交叉操作同理,變異概率由2 個個體間的最大適應度所決定,計算方法與交叉概率算法相同。執行變異操作時,每個個體隨機改變1個基因位。
上述過程均在Matlab2018中借助其神經網絡工具箱實現。
1.3.3預測精度評價
通過比較土壤有機質預測值與實際值的平均絕對誤差(MAE)和均方根誤差(RMSE)來進行預測精度評價。其中平均絕對誤差反映估計值的實測誤差范圍,均方根誤差主要反映預測值的極值效應,其計算公式為
(4)
(5)
式中:yi為樣點土壤有機質實測值;xi為對應樣點土壤有機質的預測值;n為參加檢驗的土壤樣本點總數。
運用Excel軟件進行研究區265個采樣點不同土層土壤有機質描述性統計分析,結果表明:研究區0~10 cm土層土壤有機質的變幅最大,變幅在4.96~38.95 g/kg;研究區不同土層土壤有機質含量的平均值隨著土壤深度增加而降低,0~10、10~20、20~30、30~40 cm土層土壤有機質平均值分別為20.38、14.73、9.93、8.01 g/kg;數據分布方面,各土層土壤有機質含量偏度與峰度均大于0,數據分布與正態分布相比存在著不同程度的向右偏移,研究區不同土層土壤有機質的變異系數在32.20%~43.18%,均屬于中等程度變異[27](表1)。

表1 黃淮海旱作區不同土層土壤有機質描述統計Table 1 Description of soil organic matter in different soil layers in Huang-Huai-Hai dry farming area
運用GS+7.0軟件對研究區不同土層土壤有機質地統計學參數分析,以決定系數接近于1、殘差趨向于0為最佳標準選擇,不同土層土壤有機質的最優理論模型均為指數模型,結果見表2。由表2可見:不同土層土壤有機質指數模型的決定系數在0.79~0.93,表明模型擬合均具有較高的合理性[28];不同土層土壤有機質均具有較高的塊金值與基臺值,表明研究區不同土層土壤有機質存在著一定程度的空間變異,不同土層土壤有機質塊基比的值在46.96%~51.19%,則進一步說明結構因素(如土壤母質等)與隨機因素(如土壤耕作培肥等人為措施)的影響程度對空間變異的影響基本一致[29]。不同土層土壤有機質變程值在1.17~9.56 m,變程較低,表明其空間自相關性較弱[30]。

表2 研究黃淮海旱作區不同土層土壤有機質地統計學參數Table 2 Results of soil organic matter statistical parameters in different soillayersin Huang-Huai-Hai dry farming area
首先將BP神經網絡調至最佳參數,后分別使用云遺傳模型BP神經網絡、普通BP神經網絡和遺傳優化的GABP神經網絡3 種方法對研究區土壤有機質含量分別進行30 次預測,對各方法的土壤有機質預測值與實際值的平均絕對誤差(MAE)與均方根誤差(RMSE)進行方差分析,結果見表3。
結果表明:云模型與遺傳算法結合的BP神經網絡對變異系數最小的0~10 cm土層土壤有機質的預測優化效果最為明顯,其預測結果的平均絕對誤差與均方根誤差與其余二者相比均有顯著下降(P<0.05),具有最高的預測精度。BP神經網絡的平均絕對誤差與均方根誤差值均為最大,預測精度相對較低;結合遺傳算法的BP神經網絡的平均絕對誤差與均方根誤差值相對BP神經網絡有所降低,未與BP神經網絡的各項預測誤差值相比未有顯著下降(P>0.05)。云模型與遺傳算法結合的BP神經網絡對10~20 cm土層與20~30 cm 土層的土壤有機質預測優化效果次之,其預測結果的均方根誤差與BP神經網絡相比顯著下降(P<0.05),但與結合遺傳算法的BP神經網絡相比各項計算誤差未有顯著下降(P>0.05)。而在變異系數最大的30~40 cm土層土壤有機質預測方面,云模型與遺傳算法結合的BP神經網絡預測結果的平均絕對誤差與均方根誤差與其余二者相比均未有顯著下降(P>0.05),未有顯著的優化效果。

表3 基于云遺傳-BP神經網絡與其他BP神經網絡預測能力對比Table 3 Comparison of forecasting ability between cloud genetic-BP neuralnetwork and other BP neural networks
相較于傳統遺傳算法中交叉概率與變異概率隨機生成,由X條件云發生器生成的自適應交叉概率和變異概率,能夠一定程度上避免適應度大的個體結構遭到破壞,同時加快適應度較低的個體的進化速度,從而擁有更佳的預測能力,這與吳立鋒、張琛等人的預測結果相一致[13,31]。
在土壤有機質的預測研究方面,未來綜合考慮成土母質、土地利用類型等影響不同土層土壤有機質值的非定量環境因子及其他輔助變量因子將會成為提高神經網絡預測精度的重要突破口;而在云模型與遺傳算法對神經網絡的性能優化方面,可以從數據的變異系數、數據分布方式等方面進一步探討其適用范圍,從而為進一步提高神經網絡的預測精度提供思路。
本研究運用云模型結合遺傳算法對BP神經網絡進行優化,以黃淮海旱作區為例,探究黃淮海旱作區不同土層土壤有機質分布狀況,并分析結合云模型與遺傳算法的BP神經網絡對黃淮海旱作區不同土層土壤有機質分布的能力,結論如下:
1)研究區不同土層土壤有機質值的數據分布與正態分布相比具有不同程度的向右偏移,頂峰較為陡峭、兩尾分布更廣,均屬于中等程度變異。
2)研究區不同土層土壤有機質的半方差函數最優擬合模型均為指數模型,研究區不同土層土壤有機質的結構因素與隨機因素對空間變異的影響大小基本一致,空間分布趨向于破碎。
3)結合云模型與遺傳算法的BP神經網絡對0~10、10~20、20~30 cm土層土壤有機質的預測精度均得到了一定提升,而對30~40 cm土層土壤有機質的預測精度沒有明顯的提升,這可能是由于30~40 cm土層土壤有機質變異系數超過了一定范圍造成的。