









摘" 要:隨機森林是數字土壤屬性制圖的重要方法,該文考慮數據不平衡性和環境變量多重共線性問題,對隨機森林制圖方法預處理階段開展優化處理研究。該研究以河南省鄧州市2007年表層土壤樣點的pH推測制圖為例,針對pH數據分布的不平衡性,采用SMOGN算法確保pH推測范圍符合實際分布情況。針對環境變量的多重共線性問題,對比分析膨脹因子,主成分分析和逐步回歸等方法的制圖精度,并給出消除多重共線性的方法。當顧及數據不平衡性和消除多重共線性后,全部樣點的平均絕對誤差和均方根誤差精度指標均獲得提升。土壤pH范圍更廣,對pH的極端值也能夠進行推測。該文方法可有效保障pH推測值的分布范圍更符合實際情況,并提升隨機森林方法的pH推測精度。
關鍵詞:數字土壤屬性制圖;土壤pH;隨機森林;數據不平衡性;多重共線性
中圖分類號:S159-3" " " 文獻標志碼:A" " " " " 文章編號:2096-9902(2025)05-0041-05
Abstract: Random forest is an important method for digital soil attribute mapping. In this paper, considering the data imbalance and multicollinearity of environmental variables, an optimization study is carried out in the pretreatment stage of random forest mapping method. This study took the pH prediction mapping of surface soil sample points in Dengzhou City, Henan Province in 2007 as an example. In view of the imbalance of pH data distribution, SMOGN algorithm was used to ensure that the pH prediction range was in line with the actual distribution. Aiming at the problem of multicollinearity of environmental variables, the mapping accuracy of methods such as dilation factor, principal component analysis and stepwise regression is compared and analyzed, and a method to eliminate multicollinearity is given. When data imbalance is taken into account and multicollinearity is eliminated, the average absolute error and root-mean-square error accuracy indicators of all sample points are improved. Soil pH have a wider range, and extreme pH can also be speculated. The method in this paper can effectively ensure that the distribution range of estimated pH is more in line with the actual situation, and improve the accuracy of pH estimation by the random forest method.
Keywords: digital soil attribute mapping; soil pH; random forest; data imbalance; multicollinearity
土壤pH值是衡量土壤酸堿度的重要指標,準確評估其對農業生產至關重要[1-2]。數字土壤制圖基于土壤-景觀關系理論,利用地貌、地形和植被等環境因素推測土壤屬性,提供精準土壤信息[3]。近年來,非線性機器學習方法成為數字土壤制圖的主流[4],其中隨機森林因抗過擬合能力強而廣泛應用[5]。龐龍輝等[6]在青海省的研究中成功利用隨機森林實現高精度土壤制圖,解釋了47%以上的土壤屬性空間變異。Deng等[7]利用隨機森林估計表層土壤有機碳儲量,結果優于參數統計模型。楊陽等[8]研究顯示隨機森林在滇東紅壤制圖中展現了更好的泛化能力和抗過擬合能力,能詳細展現空間變化。楊珺婷等[9]利用衛星數據和機器學習模型估算土壤有機碳和總氮,隨機森林的估測效果最佳。在實際應用中,數據不平衡、高維度環境變量和多重共線性等數據預處理階段的問題也會影響到隨機森林方法的制圖精度[10]。然而,現有研究對隨機森林的預處理階段考慮不足。針對這些問題,本文以河南省鄧州市表層土壤pH為研究對象,基于地形、遙感和氣象等環境變量,運用SMOGN算法合成新樣本以平衡數據分布,并采用膨脹因子、主成分分析和逐步回歸以消除環境變量之間的多重共線性,從而優化訓練樣本和環境變量,提高鄧州市土壤pH的推測精度,為鄧州市土壤和農業生產等提供理論指導和數據支撐。
1" 材料與方法
1.1" 研究區概況
鄧州市(111°37'E~112°20'E,32°22'N~32°59'N)地處河南省西南部南襄盆地中部偏西區域。位于黃河中游平原腹地,氣候帶處于北暖溫帶向北亞熱帶過渡地帶,屬于北亞熱帶大陸型半濕潤氣候。鄧州市地形起伏較小,整體呈現平原和丘陵相間的特點,海拔較低,四季分明,是一個適宜農業生產的地區。全市總面積2 369 km2,占河南省總面積的1.41%,總耕地面積253萬畝(1畝約等于667 m2),是河南省耕地面積最大的縣級市之一。
1.2" 實驗數據集情況
1.2.1" 環境數據來源
表1為各環境數據的空間分辨率以及數據來源。
1.2.2" 樣點數據
本研究所使用表層樣點數據集是由鄧州市農業農村局提供的2007年測土配方施肥項目數據,數據共包含4 677份土壤樣本點,取表層土壤pH作為數字土壤制圖對象。由于樣點采集和分析化驗過程中的不確定性,對樣點數據集進行異常值檢驗,對樣點值不在總體均值5倍標準差之外的異常值進行剔除。
1.3" 環境數據
本研究所使用的環境數據包括遙感數據、地形數據、氣候數據和地理坐標。遙感數據選用Landsat 5 TM(2007年5月—2007年8月)研究區含云量最少的影像,對其進行鑲嵌、幾何校正和大氣校正等預處理操作。地形數據提取環境變量前進行拼接和填洼處理。土壤濕度數據由孫昊等[11]基于XGBoost算法,生成1982—2020年中國CCI土壤濕度逐月數據集。
經過預處理,共選擇23種環境變量用于研究區土壤pH制圖。遙感影像數據使用ENVI 5.3軟件進行波段組合計算和紋理信息提取,得到11個環境變量,包括歸一化水體指數(NDWI)、歸一化植被指數(NDVI)、第一主成分(PC1)。對第一主成分進行紋理特征提取,包括均值(mean)、方差(variance)、協同性(homogeneity)、對比度(contrast)、相異性(dissimilarity)、信息熵(entropy)、二階性(secondmoment)和相關性(correlation)。
地形數據對30 m空間分辨率的DEM處理,得到高程、坡度、坡向、平面曲率、剖面曲率、水流強度指數SPI、地形位置指數TPI和地形濕度指數TWI等指標。其中,年均降雨數據由年降水量柵格數據生成,土壤濕度數據通過2007年逐月數據生成年均土壤濕度。
1.4" 基于隨機森林的數字土壤屬性制圖
1.4.1" 隨機森林土壤屬性圖制圖方法
隨機森林(Random Forest,RF)是一種基于多個不同結構決策樹的引導聚集(Bagging)算法。在訓練過程中,對原始數據集進行有放回的隨機抽樣,這有助于增加模型的多樣性,從而提高隨機森林的泛化能力。在推測時,隨機森林整合每棵樹的推測結果,通常通過投票或取平均值得出最終結果,使得整體模型具有較高的精確度和抗過擬合性。隨機森林建模的2個重要參數是決策樹的數量和節點分裂數。本研究使用交叉驗證的網格搜索算法確定最佳組合參數。
1.4.2" 數據不平衡性分析及其消除
數據不平衡指數據集中不同類別樣本數量的非均勻分布,這會增加模型在預測少數類別樣本時的精度不足風險[12]。SMOGN算法(Synthetic Minority Over-Sampling Technique for Regression with Gaussian Noise)[12]是一種針對回歸問題的數據不平衡過采樣方法。其主要思想是通過合成少數類樣本來平衡類別分布。該方法首先計算每個少數類樣本的K個最近鄰,然后根據樣本與鄰近樣本的相對距離和密度計算插值參數,調整以保持數據的連續性和分布特性。最后,在特征空間中生成合成樣本,使其分布與原始數據相似。經過多次迭代,SMOGN算法能夠有效處理回歸問題中的類別不平衡,提高模型對少數類樣本的預測性能。
1.4.3" 環境變量多重共線性判斷及其消除
1)方差膨脹因子。方差膨脹因子(Variance Inflation Factor,VIF)[13]是衡量自變量間多重共線性程度的指標。在回歸分析中,自變量之間的多重共線性會影響模型的穩定性和可靠性,導致回歸系數的估計不準確。計算VIF的方法是將每個自變量作為因變量,其余自變量作為自變量進行線性回歸分析(式(1))。若某個自變量的VIF較大(一般VIFgt;10),則表明該自變量可能存在嚴重的多重共線性問題。
式中:R2是該自變量與其他自變量之間的決定系數。
2)主成分分析。主成分分析(Principal Component Analysis,PCA)通過線性變換將原始數據轉換成一組各維度之間相關性較小的新變量,這些新變量被稱為主成分。通過主成分分析,可以將原始的高維數據轉換為低維的主成分,這些主成分是原始變量的線性組合,彼此之間是正交的,即不相關。因此,通過PCA降維后的數據可以減少自變量之間的相關性,有助于緩解多重共線性問題。
3)逐步回歸。逐步回歸(Stepwise Regression,SR)在一定程度上可以幫助消除多重共線性。通過逐步選擇與pH最相關的自變量,并排除不必要的變量。在每一步中,逐步回歸算法會根據AIC(赤池信息)準則評估模型的性能,從而決定是否添加或移除變量。這個過程有助于減少模型中不相關或高度相關的變量,從而降低多重共線性的影響。
1.5" 模型精度評價方法
平均絕對誤差(MAE,用EMA表示)表示推測值與實測值偏差的算術平均值(式(2));均方根誤差(RMSE,用ERMS表示)表示推測值與實測值偏差的平方和觀測次數比值的平方根(式(3))。EMA和ERMS越趨于0,說明模型估算精度越高[14]。選取以上2個模型精度指標評價模型推測結果。公式如下
2" 結果與分析
2.1" 環境變量重要性選擇
本研究運用隨機森林模型中的基尼系數,對環境變量進行重要性排序,結果如圖1所示。經過對比多次交叉驗證結果,最終選擇模型中變量重要性排序前70%的環境變量能夠提升模型的性能。所選環境變量分別為:經度、年均降水、高程、PC1、NDVI、緯度、SPI、均值、剖面曲率、相關性、協同性、二階矩、信息熵和TWI。
2.2" 顧及數據不平衡性和不顧及數據不平衡性的實驗對比
根據原始樣點屬性pH分布情況(圖2(a)),可以看出pH范圍為6.0~8.0,但是兩邊極端值范圍內的樣點數較少,導致在隨機森林模型訓練過程中數據表現不佳。對此運用SMOGN算法生成新的合成數據集(圖2(b))。
對不顧及和顧及數據不平衡性的樣點數據分別使用隨機森林模型進行土壤pH的推測制圖。結果如下:由圖3看出,不顧及數據不平衡性(RF)土壤pH范圍集中在6.7~7.0,土壤均為中性,這與實際情況顯然有偏差,導致土壤pH不再出現偏酸和偏堿的現象,影響了農業管理的正常決策。而顧及數據不平衡性(SMOGN_RF)的土壤pH范圍在6.4~7.7均有分布,更符合實際情況。
2.3" 顧及多重共線性和不顧及多重共線性的實驗對比
通過對重要性排序后的環境變量進行多重共線性檢驗,結果表明環境變量之間存在多重共線性問題。為避免多重共線性對模型精度造成影響,通過計算膨脹因子VIF、主成分分析(PCA)和逐步回歸(SR)3種方法,消除環境變量之間的相關性,從而解決多重共線性問題。
計算所有環境變量的膨脹因子VIF,對VIFgt;10的環境變量由大到小逐次刪除。最終選擇如下10個環境變量:經度、緯度、DEM、剖面曲率、NDVI、TWI、PC1、相關性、協同性和二階矩。
對環境變量進行KMO和巴特利特球形檢驗,結果為0.605(gt;0.5)且sig值顯著。故可開展主成分分析。依據特征值大于1的原則,共提取5個主成分,累計貢獻率達78.97%。而由表2可知第6個主成分特征值接近1,且累計貢獻率達85.24%,因此選為第6個主成分,能基本代表環境變量絕大部分信息。
逐步回歸分析中,設置進入和除去的概率為0.05、0.10,最終選擇如下8個環境變量:經度、緯度、DEM、TWI、SPI、剖面曲率、相關性和NDVI。
對上述3種消除多重共線性與存在多重共線性的環境變量分別構建顧及數據不平衡性下的隨機森林模型,并對比其土壤PH分布(圖4)。由表3可以看出在顧及數據不平衡性的情況下VIF(SMOGN_
RF-VIF)、主成分(SMOGN_RF-SR)以及逐步回歸(SMOGN_RF-PCA)消除多重共線性土壤pH變化分別是6.52~7.60、6.52~7.64和6.59~7.51。且主成分下土壤pH基本統計特征與表層樣點數據最相似。
依據式(2)和式(3),表4在顧及數據不平衡性情況下,運用3種消除多重共線性方法,對30%的獨立樣本進行精度驗證。結果如下:平均絕對誤差SMOGN_RF-PCAlt;SMOGN_RF-VIFlt;SMOGN_RFlt;SMOGN_RF-SR,范圍為0.300 9~0.314 9,均方根誤差SMOGN_RF-PCAlt;SMOGN_RF-VIFlt;SMOGN_RFlt;SMOGN_RF-SR,范圍為0.380 1~0.396 4。主成分分析推測精度均高于其余2種方法推測精度。
由上文結果可知,顧及數據不平衡性下主成分分析精度最高,因此將其與原始數據集進行總樣本精度驗證,原始數據集精度EMA為0.300 8,ERMS為0.380 0,而顧及數據不平衡性下主成分分析精度EMA為0.283 4,ERMS為0.356 9。平衡數據下主成分分析精度與原始數據集相比較EMA提高了1.74%,ERMS提高了2.31%。
3" 討論
鄧州市是河南省的農業大市,土壤pH直接影響植物生長和養分轉化,范圍為6.0~8.0,涵蓋酸性、中性和堿性反應。使用隨機森林方法進行推測時,由于數據不平衡,結果僅顯示中性反應,與鄧州市實際土壤pH變化存在差異,這可能對農業產生重大影響。通過SMOGN算法增加稀少數據的采集概率,推測結果包括酸性、中性和少量堿性反應,更符合實際情況。總樣本檢驗顯示,不平衡數據的精度高于原始數據,反映了土壤pH的真實空間分布。
本研究中,隨機森林不僅用于推測制圖,也評估環境變量的重要性。經過重要性排序和膨脹因子檢驗,發現重要性得分較高的變量之間存在多重共線性,影響模型穩定性和準確性。周洋等[15]在環境變量選擇時同樣考慮到多重共線性對模型精度的影響,但是僅計算了所有環境變量的方差膨脹因子(VIF),并去除了VIFgt;10的變量。本文采用膨脹因子、主成分分析和逐步回歸方法處理環境變量,優化模型,保留對推測影響最大的變量,減少共線性影響,提高模型精度和穩健性。
4" 結論
本研究以河南省鄧州市土壤pH的數字土壤屬性制圖為對象,優化了隨機森林方法的預處理階段。通過SMOGN算法,有效減弱了數據分布的不平衡性;主成分分析則消除了環境變量的多重共線性。將這2種優化手段結合后,實驗結果顯示,隨機森林的推測精度顯著提升。本文提出的預處理優化方法更好地反映了鄧州市土壤pH的空間分布。實采土壤樣本數據顯示,東北部土壤偏堿,東南部土壤偏酸,推測圖中的pH分布與實際情況一致,呈現出東部和東北部偏堿、西北部和東南部偏酸的空間分布規律,推測值更符合實際,精度更高。
參考文獻:
[1] 趙明松,陳宣強,徐少杰,等.基于MGWR的土壤pH值空間建模及其影響因素分析[J].環境科學,2023,44(12):6909-6920.
[2] 溫皓天,董秋瑤,王攀,等.桐柏山北麓土壤pH值空間分布特征及其影響因素[J].土壤通報,2023,54(2):295-305.
[3] 朱阿興,楊琳,樊乃卿,等.數字土壤制圖研究綜述與展望[J].地理科學進展,2018,37(1):66-78.
[4] 梅帥,童童,應純洋,等.基于機器學習的數字土壤制圖研究進展[J].農業資源與環境學報,2024,41(4):744-756.
[5] 楊雨菲,韓浩武,陳榮,等.數字土壤制圖的推理方法對比研究[J].土壤通報,2020,51(5):1016-1023.
[6] 龐龍輝,劉峰,趙霞,等.青海省表層土壤屬性數字制圖[J].土壤通報,2019,50(3):505-513.
[7] DENG X ,CHEN X ,MA W , et al.Baseline map of organic carbon stock in farmland topsoil in East China[J].Agriculture, Ecosystems and Environment,2018(254):213-223.
[8] 楊陽,葉江霞,王艷霞,等.基于空間大數據及機器學習的紅壤數字制圖研究[J].西部林業科學,2021,50(6):31-39.
[9] 楊珺婷,李曉松.應用哨兵2號衛星遙感影像數據和機器學習算法對錫林郭勒草原土壤表層有機碳及全氮的估算[J].東北林業大學學報,2022,50(1):64-71.
[10] 呂紅燕,馮倩.隨機森林算法研究綜述[J].河北省科學院學報,2019,36(3):37-41.
[11] HAO SUN, XU QIAN, ZHIYU ZHAO. Monthly gap-filled CCI soil moisture over region of China (Combined Product)[DS/OL]. V1. Science Data Bank, 2023[2024-05-09].https://cstr.cn/31253.11.sciencedb.07849.CSTR:31253.11.sciencedb.07849.
[12] BRANCO P, TORGO L, RIBEIRO R P. SMOGN: a pre-processing approach for imbalanced regression[C]//First international workshop on learning with imbalanced domains: Theory and applications. PMLR, 2017: 36-50.
[13] 馬良玉,程東炎,梁書源,等.基于LightGBM-VIF-MIC-SFS的風電機組故障診斷輸入特征選擇方法[J].熱力發電,2024,53(1):154-164.
[14] 劉傲,趙東保,魏義長,等.顧及時空特征的參考作物蒸散量集成學習估算[J].排灌機械工程學報,2024,42(2):179-186,193.
[15] 周洋,趙小敏,郭熙.基于多源輔助變量和隨機森林模型的表層土壤全氮分布預測[J].土壤學報,2022,59(2):451-460.
基金項目:國家自然科學基金(41971346);四川省科技計劃項目重點研發項目(2022YFN002)
第一作者簡介:王鳳儀(1999-),女,碩士研究生。研究方向為數字土壤制圖。
*通信作者:趙東保(1979-),男,博士,教授。研究方向為空間數據融合、空間數據挖掘。