張 鑫,楊 超,劉洪斌,武 偉
1. 西南大學資源環(huán)境學院,重慶市北碚區(qū)天生路2號 400715
2. 重慶市煙草科學研究所,重慶市北碚區(qū)天生路2號 400715
3. 西南大學計算機與信息科學學院,重慶市北碚區(qū)天生路2號 400715
土壤是煙草生長的物質(zhì)基礎。作為土壤性質(zhì)的關鍵指標,土壤有機質(zhì)(Soil organic matter,SOM)和土壤全氮(Soil total nitrogen,STN)受到母質(zhì)、氣候、植被、地形和人類活動的影響而具有高度的空間異質(zhì)性[1-2]。此外,SOM和STN含量(質(zhì)量分數(shù))對土壤肥力和煙草植株的生長發(fā)育至關重要[3-8]。因此,明確SOM和STN含量及其空間分布,對煙區(qū)土壤肥力評估和養(yǎng)分管理有重要意義。近年來,隨著信息技術的快速發(fā)展,機器學習算法如隨機森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和極端梯度提升(Extreme Gradient Boosting,XGBoost)由于模型參數(shù)較少,計算簡單且不容易過擬合而被廣泛應用于土壤屬性空間分布預測與制圖研究中[9-12]。盧宏亮等[13]利用RF模型對安徽省土壤有機碳、土壤容重和土壤黏粒含量進行了空間分布預測和制圖。郭澎濤等[14]基于多源環(huán)境變量并使用RF算法對海南島橡膠園土壤全氮含量進行預測,預測值與實際測定結(jié)果接近。Ottoy等[15]比較了多種機器學習模型對土壤有機碳含量的預測性能,發(fā)現(xiàn)GBDT模型預測精度最佳。Chen等[16]通過使用RF和XGBoost混合模型對全中國表層土壤pH進行預測并取得了較好效果。然而使用機器學習方法在煙區(qū)進行SOM和STN含量預測和制圖還鮮有報道。重慶市巫山縣篤坪鄉(xiāng)是重要的煙葉產(chǎn)區(qū)之一,具備發(fā)展優(yōu)質(zhì)煙葉的氣候和土壤條件。目前,該區(qū)域SOM和STN含量的空間變化情況及主導環(huán)境因子仍不清楚。為此,比較了RF、GBDT和XGBoost模型對SOM和STN含量的預測性能,并基于最優(yōu)模型進行SOM和STN含量預測和制圖,旨在確定影響SOM和STN含量空間變化的主要環(huán)境因素。
研究區(qū)位于重慶市巫山縣篤坪鄉(xiāng),地理坐標為110°1′~110°10′E,30°49′~30°59′N,總面積132 km2。地勢西高東低,海拔高度在190~1 891 m之間,平均海拔1 364 m(圖1)。亞熱帶季風濕潤氣候,四季分明。年均溫度12℃,年均降雨量1 200 mm。成土母質(zhì)主要是三疊系大冶組灰?guī)r和二疊系梁山組灰?guī)r(圖2)。

圖1 研究區(qū)DEM及樣點分布圖Fig.1 Distribution of DEM and sampling sites in the research area

圖2 研究區(qū)環(huán)境因子的空間分布Fig.2 Spatial distribution of environmental factors in the research area
于2017年煙葉采收后進行土壤樣本采集,遵循均勻、具有代表性的原則,每個種植單元(8 hm2)取1個樣品,共采集180個土壤樣品(0~20 cm)。土壤樣品登記編號后帶回實驗室,經(jīng)自然風干、去雜、過篩后備測。分別采用重鉻酸鉀氧化容量法和自動定氮儀法測定SOM和STN含量(質(zhì)量分數(shù))[17]。
小尺度范圍內(nèi)土壤性質(zhì)與地形和成土母質(zhì)間關系密切。基于30 m×30 m的數(shù)字高程模型(Digital Elevation Model,DEM)并運用SAGAGIS 2.2.7軟件[18]提取地形因子。為防止自變量共線而影響制圖精度,在SPSS 25軟件中對地形因子進行方差膨脹因子檢驗(Variance Inflation Factor,VIF),最終選出通過共線性診斷VIF≤10[19]的8個地形因子:海拔(Ele)、坡度(Slp)、坡向(Asp)、地形濕潤指數(shù)(TWI)、山谷深度(VD)、距河網(wǎng)垂直距離(VDCN)、坡高(SlpH)和中坡位(Midslp),見表1。成土母質(zhì)從1∶50 000重慶地質(zhì)圖中提取。

表1 研究區(qū)環(huán)境變量的選取Tab.1 Environmental variables of the research area
采用RF,GBDT和XGBoost模型對SOM和STN含量的空間分布特征進行預測。其中,3個模型的基本原理參見文獻[20-22]。此外,RF模型有4個重要參數(shù):樹的數(shù)量(n tree)、分割節(jié)點的預測變量數(shù)(m try)、樹深(TD)和葉片最小數(shù)量(nodesize)。GBDT模型有3個重要參數(shù):樹數(shù)(TN)、學習率(LR)和樹深(TD)。XGBoost模型也有3個重要參數(shù):樹數(shù)(TN)、學習率(LR)和樹深(TD)。
模型均在Python 3.8環(huán)境下運行。為評價模型性能,從原始的180個數(shù)據(jù)集中隨機抽取20%的數(shù)據(jù)作為驗證集。采用平均絕對誤差(Mean Absolute Error,MAE)、均方 根誤 差(Root mean Squared Error,RMSE)和決定系數(shù)(Correlation of Determination,R2)評價模型。其中,MAE和RMSE越小表示預測精度越高。R2表示模型對預測變量變異的解釋度。計算公式:

式中:xi表示實測值;yi表示預測值;x表示實測值均值;n表示實測樣本數(shù)量。
研究區(qū)SOM和STN含量的描述性統(tǒng)計結(jié)果見表2。可以看出,SOM和STN含量平均值分別是32.40 g/kg和2.01 g/kg,變化范圍分別為10.28~77.15 g/kg和0.71~4.93 g/kg。整體來看,驗證集的SOM和STN含量平均值高于訓練集。另外,SOM和STN含量均為中等程度變異(25%~75%),偏度均大于1,經(jīng)對數(shù)轉(zhuǎn)換后數(shù)據(jù)符合正態(tài)分布。

表2 研究區(qū)采樣點SOM和STN含量的描述性統(tǒng)計分析Tab.2 Descriptive statistics of SOM and STN of sampling sites
SOM和STN含量與地形因子間的相關性見表3。表3結(jié)果表明,SOM和STN含量呈極顯著正相關。SOM含量與海拔呈正相關,與其他地形因子均呈負相關。STN含量與所有地形因子均呈負相關,其中與海拔和坡度呈顯著負相關,與坡向呈極顯著負相關。

表3 SOM和STN含量與地形因子間的相關性①Tab.3 Correlations between SOM or STN contents and topographic factors
兩種成土母質(zhì)下SOM和STN含量均值比較見表4。結(jié)果表明,成土母質(zhì)為二疊系梁山組灰?guī)r發(fā)育的土壤SOM(39.95 g/kg)和STN(2.59 g/kg)含量顯著高于三疊系大冶組灰?guī)r發(fā)育土壤。

表4 兩種母質(zhì)SOM和STN含量比較①Tab.4 SOM and STN contents in two parent materials
為提高預測精度,對各模型進行參數(shù)調(diào)整與優(yōu)化。經(jīng)多次驗證后得到各個模型的參數(shù)。對于RF模型,預測SOM含量最合適的n tree、m try、TD和nodesize分別是500、2、5和6,預測STN含量的參數(shù)分別是500、2、5和7。對于GBDT模型,預測SOM含量的參數(shù)(TN、LR和TD)設置為120、0.02和3,預測STN含量的參數(shù)設置為100、0.04和3。XGBoost模型的參數(shù)在兩種土壤指標預測中均設置為100、0.05和3。
模型的預測性能如表5和圖3所示。對于SOM含量的預測,RF、GBDT和XGBoost在驗證集中的R2分別為0.583 7、0.616 7和0.554 3。同時,GBDT模型 的MAE(4.81 g/kg)高于RF(4.7 g/kg)和XGBoost(4.78 g/kg)模型,RMSE(5.94 g/kg)低于RF(6.16 g/kg)和XGBoost(6.41 g/kg)模型。對于STN含量的預測,GBDT模型的R2(0.746 8)也高于RF(0.722 0)和XGBoost(0.686 1)模型,而MAE(0.25g/kg)和RMSE(0.34 g/kg)均 低 于RF和XGBoost模型。整體上,GBDT模型預測誤差較小且解釋了SOM和STN含量空間變異的61.67%和74.68%,可作為預測最佳模型。

表5 不同模型的預測性能比較①Tab.5 Predictive performances of different models

圖3 基于GBDT模型的SOM(a)和STN(b)含量實測值和預測值散點圖Fig.3 Scatter plots of measured and predicted contents of SOM(a)and STN(b)based on GBDT models
圖4是各個環(huán)境變量的重要性(百分比)排序,重要性大于10%表明該變量在一定程度上影響著SOM和STN含量的空間分布。圖4結(jié)果表明,影響SOM含量的主要環(huán)境因子是Par(22.49%)、Ele(17.86%)、TWI(15.10%)和VD(14.78%),影響STN含量的主要環(huán)境因子是Par(32.71%)、SlpH(17.76%)和Ele(10.32%)。總體上來看,成土母質(zhì)和地形因子均在一定程度上影響著SOM和STN含量的空間分布。

圖4 基于GBDT模型的SOM(a)和STN(b)的環(huán)境因子重要性Fig.4 Importance of environmental factors for SOM(a)and STN(b)based on GBDT models
基于GBDT模型的SOM和STN含量在旱地的空間分布預測結(jié)果見圖5。由圖5可見,SOM預測值的變化范圍為19.76~66.14 g/kg,STN預測值的變化范圍為1.04~4.43 g/kg,其空間分布均受到成土母質(zhì)的影響。從同種母質(zhì)的空間分布來看,二疊系梁山組灰?guī)r發(fā)育的土壤SOM和STN含量在高海拔區(qū)較高,低海拔區(qū)較低。三疊系大冶組灰?guī)r發(fā)育的土壤SOM和STN含量整體偏低。

圖5 基于GBDT模型的SOM(a)和STN(b)含量空間分布預測Fig.5 Spatial distribution predictions on SOM(a)and STN(b)contents based on GBDT models
通過對比3種機器學習模型對植煙區(qū)SOM和STN含量的預測性能發(fā)現(xiàn),RF和GBDT模型表現(xiàn)出較好的預測性,而XGBoost模型則在訓練集上表現(xiàn)出過擬合。這說明RF和GBDT模型在預測SOM和STN含量方面較為穩(wěn)定,避免了模型過擬合,這與前人的研究結(jié)果一致[14,23-24]。但相較于RF模型,GBDT模型運行速度更快,學習效率更高,最終表現(xiàn)出的預測精度更高且對SOM和STN含量空間變異的解釋能力也更強。說明在小尺度的植煙區(qū)域,GBDT模型對SOM和STN含量的預測有較好的效果。
本試驗中發(fā)現(xiàn),成土母質(zhì)對SOM和STN含量的預測最為重要,這與前人的研究結(jié)果基本相符[14,25]。本研究中SOM和STN含量在兩種母質(zhì)中出現(xiàn)較大差異,其空間分布預測也與研究區(qū)母質(zhì)的空間分布基本一致。是因為該區(qū)域三疊系地層下的巖石主要是灰?guī)r、白云巖、礫巖和石英砂巖,而二疊系地層下的巖石主要是灰?guī)r、頁巖和硅質(zhì)巖。灰?guī)r、頁巖和硅質(zhì)巖受化學溶解風化的影響,形成的土壤顆粒較細、黏粒含量高,有利于有機肥等的吸收利用[26-27]。本研究中解釋了SOM和STN含量空間變異的61.67%和74.68%,考慮到制圖的準確性,需要進一步對模型進行優(yōu)化,同時考慮在兩種成土母質(zhì)附近采集更多樣點以增強SOM和STN含量空間預測的準確性。
基于3種機器學習模型(RF、GBDT和XGBoost)對SOM和STN含量進行數(shù)字土壤預測制圖,通過在重慶典型植煙區(qū)巫山縣篤坪鄉(xiāng)的應用結(jié)果表明:①RF、GBDT和XGBoost模型對SOM含量的預測的R2分別為0.583 7、0.616 7和0.554 3,對STN含量預測的R2分別為0.722 0、0.746 8和0.686 1。GBDT模型可以解釋SOM和STN含量空間變異的61.67%和74.68%,可作為植煙區(qū)SOM和STN含量預測的最優(yōu)模型。②環(huán)境因子對SOM含量影響的排序依次為成土母質(zhì)>海拔>地形濕度指數(shù)>山谷深度,對STN含量影響的排序依次為成土母質(zhì)>坡高>海拔。成土母質(zhì)均排名首位,顯著影響研究區(qū)SOM和STN含量的空間變異。