付平凡,楊曉靜*,蘇志誠,屈艷萍,馬苗苗
基于集成學習的土壤含水量預測研究——以遼西地區為例①
付平凡1,2,楊曉靜1,2*,蘇志誠1,2,屈艷萍1,2,馬苗苗1,2
(1 中國水利水電科學研究院,北京 100038;2 水利部防洪抗旱減災工程技術研究中心,北京 100038)
準確高效地預測土壤含水量(SMC)對田間水分管理至關重要。本研究利用在遼西地區自建的3個站點2018—2021年10 ~ 40 cm土壤水分自動觀測小時數據集,分析研究隨機森林(random forest,RF)和梯度提升機(gradient boosting machine,GBM)算法在SMC預測方面的適用性,驗證不同時間尺度SMC的預測結果。同時引入SHAP(shapley additive explanations)方法表征5類(降水、日照時數、平均相對濕度、風速、平均氣溫)輸入變量對SMC預測結果的影響,并制定區間劃分規則識別變量最大貢獻閾值區間。研究結果表明:年尺度下,SMC 預測GBM模型和RF模型2分別為0.982和0.888,氣溫貢獻最大,最大貢獻區間是21 ~ 23℃;季尺度下,2種模型2分別為0.935和0.863,日照時數貢獻最大,最大貢獻區間為2 ~ 4 h。該研究創新應用SHAP方法于機器學習輸入變量貢獻度分析,同時驗證了2種機器學習算法對SMC預測研究的準確性,可為SMC相關研究提供參考。
集成學習;土壤含水量預測;梯度提升機;隨機森林;遼寧西部;SHAP值
土壤水分是區域水循環、農業灌溉管理和氣候變化的特征要素之一,其在水文、氣象、農業等學科中也具有重要的作用[1]。土壤含水量(soil moisture content,SMC)是地表植被吸收水分的主要來源,其對作物的生長發育至關重要[2]。因此,準確預測土壤含水量對作物增產和糧食安全具有重要意義。
目前主要的土壤水分預測方法有經驗模型法[3]、土壤水動力學法[4]、時間序列模型法[5]以及機器學習算法[6]等。近年來,隨著計算機技術的快速發展,機器學習算法已成為一種重要的預測土壤含水量的手段[7]。集成學習(ensemble learning)是通過構建并結合多個機器學習器來完成任務,具有較強的泛化能力[8]。由于集成學習模型相比傳統機器學習模型在性能上表現更為出色,目前集成學習中的隨機森林(random forest,RF)和梯度提升機(gradient boosting machine,GBM)模型已在農業干旱監測、驟發性干旱研究等領域有所應用[9-10]。Cai等[11]結合GBM與RF模型系統論證了這兩種方法預測凈生態系統碳交換的有效性;Prodhan等[12]也將RF和GBM進行非線性集成,利用ISI-MP作物模型定量分析了未來干旱對作物產量的影響。以上研究都表明,RF和GBM模型具有較好的實用性,但此類方法在土壤含水量預測的適用性研究上亟待進一步深入。
由于機器學習模型是黑箱模型,現有的多數研究主要基于評估指標來對模型的結果進行評價,而針對輸入變量對預測結果影響的研究還相對較少。為解決這一問題,Lundberg和Lee[13]在2017年提出了SHAP(shapley additive explanations)方法,該方法基于合作博弈理論定量化表征每個特征對最終預測值的影響,增加了模型的可解釋性。近年來,已有研究利用SHAP方法解釋機器學習模型,王鑫等[14]融合LightGBM模型與SHAP方法分析得出了血清胰島素、葡萄糖濃度和年齡是患者是否患有糖尿病的關鍵因素;Kannangara等[15]利用RF模型和SHAP方法,分析了9個輸入變量對隧道開挖引起沉降的影響,結果表明土壤類型的影響最大。目前SHAP方法已應用于金融欺詐、污水處理、電力系統緊急控制等領域輸入變量對預測結果的貢獻研究[16-18],但在土壤水分預測方面上的應用還相對較少。因此,將SHAP方法應用于土壤含水量預測研究,可定量識別輸入變量對土壤含水量的貢獻程度,為缺省輸入因子情況下的變量選擇提供依據。
本文擬將集成學習中的RF、GBM算法應用到土壤含水量預測研究,拓展驗證2種算法在土壤含水量模擬預測中的適用性;且為解釋各變量對于預測模型的影響,引入SHAP方法定量評估集成學習模型輸入變量的貢獻程度,并基于制定的區間劃分規則識別特征敏感閾值區間,為解釋輸入變量對預測值的影響和土壤含水量預測方法的選擇提供新的參考。
研究區為遼西地區(119.70° E ~ 122.53° E,40.35° N ~ 42.24° N),包括阜新、朝陽、葫蘆島和錦州4市,屬于溫帶大陸性季風氣候,多年平均降水量約為450 ~ 700 mm,其中夏季降水量約占全年降水量的2/3。全年四季分明,雨熱同期,日照豐富,年均溫7.2 ~ 8.3℃。根據2021年遼寧省統計年鑒的結果,遼西地區主要的糧食作物為玉米,占全省糧食作物種植面積的41.2%。區域內含遼西走廊和遼西北部低山丘陵2個區域,地勢呈現西北高、東南低的空間分布態勢[19]。研究所選墑情站點均位于玉米種植區,其空間分布如圖1所示。凌海站位于低山丘陵區的凌海市東部,土壤類型為棕壤;孫家灣站位于朝陽市東北部大凌河干流附近,地形為黃土丘陵,土壤類型為褐黃土;葉柏壽站位于朝陽市建平縣南部,地形為丘陵坡地,土壤類型為褐黃土。
1.2.1 數據來源 研究應用的數據主要包括小時土壤含水量數據集和氣象要素數據集。
1)小時土壤含水量數據集來源。2018年7月在遼西地區選址(大凌河出口的凌海站,干流中部附近的孫家灣站,支流的葉柏壽站)并安裝3套土壤墑情自動監測系統。該系統所使用的土壤水分傳感器長期埋設在野外大田的測點中,并基于時域反射原理(time domain reflectometry,TDR)對不同深度土壤進行土壤體積含水量測定。站點的數據時間序列始于2018年7月,10 ~ 40 cm深度傳感器實時接收間隔為1 h的土壤墑情數據。為驗證數據的有效性,分季節進行7次人工取土實驗,利用烘干法將測定的土壤含水量與自動監測站監測結果進行對比,對比結果表明各深度土壤含水量同步監測差值小于10%。
2)氣象要素數據集來源。由于墑情站點的數據序列起始時間為2018年7月,為匹配對應日期的墑情數據,選擇2018—2021年氣象數據作為模型輸入變量,氣象數據來源于中國氣象數據網(http://data. cma.cn/)。3個氣象站點氣象要素包括逐日的降水、日照時數、平均相對濕度、風速、平均氣溫。
1.2.2 數據質量控制 為降低異常數據對模型預測結果準確性的擾動,從兩個方面對數據進行質量控制。

圖1 研究區和3個試驗站點示意圖
1)數據有效性控制。為保證數據集的有效性,將墑情站和氣象站空值數據剔除后,孫家灣站共有數據1 099條,葉柏壽站共有數據1 202條,凌海站共有數據1 177條。
2)數據量綱控制。為避免不同輸入變量之間數量級別和量綱的影響,將輸入和輸出數據進行歸一化處理,計算公式如下:

式中:x為歸一化后的樣本集;為原始樣本集;min為原始樣本集最小值,max為原始樣本集最大值。將每日8:00的土壤墑情數據作為當日值,并按照8︰2的分配原則進行訓練集和測試集的劃分。
1.3.1 集成學習 集成學習是一種融合多個機器學習模型的集成模型,通過某種融合策略常可獲得比單一模型顯著優越的泛化性能。集成學習不僅能夠實現模型之間的優勢互補,還能減少對訓練所需數據的依賴程度[20]。常用的融合策略有3種:Bagging、Boosting和Stacking。本研究采用Bagging中的RF、Boosting中的梯度提升決策樹(GBDT)算法,所使用的2種方法的建模過程均在Python語言環境下加載scikit-learn實現。
梯度提升機(gradient boosting machine,GBM)是由Friedman[21]提出的一種流行機器學習的集成方法。為了解決回歸和分類問題,GBM通常是以決策樹弱模型組合的形式,周期性地構造出一個魯棒模型。Gradient Boosting與一般的Boosting算法一樣,也是一個迭代的過程,Gradient Boosting每個新的模型是沿著前面模型的殘差減少的梯度方向上建立,每次的訓練是為了改進上一次的回歸結果。為了減少模型的殘差(residual),通常采用牛頓–拉弗森方法(Newton- Raphson method)在殘差減少的梯度(Gradient)方向擬合一個新的模型[22]。由GBM構建的梯度提升回歸模型有5個需要優化的參數,分別為學習率(learning_rate)、損失函數(loss)、決策樹的數量(n_estimators)、決策樹的深度(max_depth)和建立決策樹時選擇的最大特征數目(max_features)。利用GridSearchCV方法[23]進行超參數隨機匹配擇優,經過調參后,n_estimators=300,max_depth=10,max_features=2,loss='huber'函數,learning_rate=0.1為最優參數。
隨機森林(random forest,RF)算法是一種通過集成大量的決策樹來改進分類和回歸的方法。Breiman[24]引入的RF是一種基于bootstrap聚合的決策樹集合,通過隨機選取廣泛應用于回歸問題的預測器子集,計算預測變量并基于預測變量的數據分割,得到因變量的均方根誤差(RMSE)最佳估計。在RF回歸中,引入的RF算法將自動創建隨機決策樹群,通過從訓練數據集中選擇隨機變量集,并采用隨機有放回抽樣的方法來構建每棵樹,最后通過對所有樹的均衡化結果來計算觀測值的預測值。RF模型有3個需要優化的參數:決策樹的數量(n_estimators)、決策樹的深度(max_depth)和建立決策樹時選擇的最大特征數目(max_features)。利用GridSearchCV方法進行超參數隨機匹配擇優,經過調參后,n_estimators= 900,max_depth=15,max_features=5是最優參數。
1.3.2 模型評價指標 選用平均絕對誤差(MAE)、決定系數(2)[25]和均方根誤差(RMSE)3種指標分別對GBM、RF預測模型進行預測效果評估。評價指標計算公式如下:



1.3.3 SHAP方法 SHAP方法是一種直觀的、合理的解釋模型的方法,該方法通過計算每個特征對預測值的貢獻來解釋特征,所使用的值(SHAP值)可定量化表征各個特征對預測值的貢獻,SHAP值越大表明該特征對于預測值的貢獻越大。SHAP方法是以合作博弈理論為基礎計算SHAP值,特征值的SHAP值是對所有可能的特征值組合進行加權求和,其公式如下:

式中:是模型中使用的特征的子集,表示這些特征不包括在集合中;是特征的數量;val()是對集合中特征值的預測;表示val第個特征的貢獻。
選取2018—2021年土壤10 ~ 40 cm深度含水量數據進行訓練,基于RF、GBM算法構建土壤含水量預測模型。對比2種模型測試集的預測結果(表1)發現,10 ~ 40 cm深度預測精度相差較小,2差值都在0.1以內。GBM模型預測精度較高,10 ~ 40 cm深度2值均大于0.94,MAE和RMSE均值均小于0.006和0.026;RF模型預測精度略差,10 ~ 40 cm深度2均值范圍為0.881 ~ 0.891,MAE和RMSE均值均小于0.054和0.071。

表1 年尺度下不同站點不同深度土壤含水量RF和GBM模型預測精度比較
以孫家灣站為例,2種模型10 ~ 40 cm深度測試集土壤含水量樣本預測值與實測值基本都在1∶1線附近,2值均超過0.86,GBM模型的預測值明顯更加接近實測值,如圖2所示。綜上所述,對比2種模型方法的評價指標,RF模型和GBM模型年尺度下均能精準地預測土壤含水量,但GBM模型表現更佳。

圖2 孫家灣站10 ~ 40 cm深度土壤含水量預測值與實測值
本研究中,季節劃分標準為:春季3—5月、夏季6—8月、秋季9—11月、冬季12月—次年2月。季節尺度的預測結果(表2)表明,GBM模型和RF模型在不同季節預測土壤含水量均具有較高的精度。GBM模型10 ~ 40 cm深度各季節2均值范圍為0.931 ~ 0.938,MAE值均小于0.026,RMSE值均小于0.065;RF模型10 ~ 40 cm深度各季節2值范圍為0.816 ~ 0.894,MAE值均小于0.073,RMSE值均小于0.095,精度略低于GBM模型。

表2 不同季節土壤含水量2種模型預測精度比較
對比分析多時間尺度模型預測結果表明:GBM模型和RF模型在年、季尺度下均有較好的預測結果(2均大于0.816),GBM模型的預測精度略高(2均大于0.868)。年尺度上,2種模型在3個站點不同土層的2均值皆大于0.881,RMSE均值皆小于0.071,MAE均值皆小于0.054;季節尺度上,2種模型在春季、夏季和秋季的預測結果則更好,春季、夏季和秋季2均大于0.835,RMSE均小于0.094,MAE均小于0.072。
為探究不同時間尺度、不同深度各輸入特征要素對預測的土壤含水量的貢獻度,將預測結果較好的GBM模型與SHAP方法進行融合。分別計算年、季尺度下降水、日照時數、平均相對濕度、風速、平均氣溫這5個輸入變量的SHAP值,并基于SHAP值大小判斷輸入特征對土壤含水量的貢獻。
年尺度上,孫家灣站、葉柏壽站和凌海站10 ~ 40 cm深度特征要素貢獻排序基本一致,均是平均氣溫貢獻最大,降水貢獻最小。其中葉柏壽站10、20和40 cm深度的特征要素貢獻排序從高到低分別為平均氣溫、日照時數、相對濕度、風速和平均氣溫;30 cm深度則為平均氣溫、相對濕度、日照時數、風速和平均氣溫,如圖3所示。孫家灣站和凌海站特征要素貢獻排序與葉柏壽站一致。
為對比4個不同深度、不同季節5個輸入特征對預測土壤含水量的整體貢獻度,利用特征的SHAP值之和(整體SHAP值)來對比不同深度和季節的結果。
年尺度上,4個土層深度輸入的5個氣象要素對于預測10 cm和20 cm土層的土壤含水量貢獻較大,且更適用于預測20 cm深度的土壤含水量。孫家灣、葉柏壽和凌海站10 cm和20 cm深度的整體SHAP值分別為7.99、8.07和7.98,比30 cm和40 cm深度分別增加了10.66%、12.08% 和1.01%。各站點20 cm深度輸入變量的整體SHAP值分別為8.48、8.43和8.53,比10 cm深度分別增加了12.96%、14.48% 和14.79%,其中葉柏壽站SHAP值如圖3所示。
由于年尺度20 cm土層整體SHAP值最高,因此季節尺度上選擇20 cm土層為代表性土層進行分析。孫家灣站和葉柏壽站貢獻最大的特征要素是日照時數,凌海站為平均氣溫,所有站點對預測結果貢獻最低的變量均為降水。夏季整體SHAP值高于其余3個季節,其中葉柏壽站春季、秋季和冬季整體SHAP值相比夏季分別降低36.5%、18.8% 和46.2%;凌海站分別降低47.9%、10.8% 和5.8%;孫家灣站春季整體SHAP值比夏季增加2.6%,秋季和冬季分別降低39.6% 和26.6%,具體結果見表3。

圖3 葉柏壽站10 ~ 40 cm土壤預測含水量的特征要素貢獻分布
在年、季尺度上降水貢獻均最低,可能有以下兩個方面的原因:①遼西地區年降水量區間為400 ~ 700 mm,且全年2/3的降水集中在夏季。孫家灣、葉柏壽和凌海站夏季降水量分別為319.3、357.2和474.43 mm;②無降水日數占比較高。孫家灣、葉柏壽和凌海站年內無降水日數的數據占比分別為81.1%、79.4% 和79.5%;盡管降水集中在夏季,但無雨日數仍高于60%(孫家灣、葉柏壽和凌海站占比分別為61.8%、62.0% 和62.3%)。

表3 20 cm深度土壤預測含水量不同季節特征要素貢獻統計
集成學習預測結果的準確性與樣本數量和數值變化區間成正比,因此在相同數量樣本條件下,較多的無降水日數可使降水貢獻小于其他要素。雖然5個特征中降水的貢獻最低,但對比季節貢獻結果可以看出,降水對土壤含水量的貢獻度與降水量成正比關系。遼西地區夏季降水最多,貢獻度也是四季最高,如圖4所示。
綜上所述,遼西地區降水對土壤含水量貢獻較低的主要原因是年內、季節內降水分布不均。已有的研究也表明,降水對于土壤含水量的貢獻較小。Clewley等[26]利用RF分析了高程、坡度和降水等對土壤水分的影響,結果表明降水影響最小;Karthikeyan和Mishra[27]利用XGBoost算法分析了海拔、土壤質地、歸一化植被指數(NDVI)和降水對于土壤水分的影響,結果表明降水影響最小。以上研究利用了不同的算法、輸入了不同的變量來預測土壤含水量,但結果都表明降水對于土壤水分的影響最小。

圖4 2018—2021年不同季節累積降水量和SHAP值
為定量識別不同輸入特征要素對應的有效閾值區間,制定區間識別劃分規則為:①篩選出SHAP值大于0的點,提取點所在的區間;②將區間等分,分別計算每個區間SHAP均值;③比較劃分后的區間與原區間SHAP均值的大小,最終定量識別不同輸入特征對土壤含水量貢獻最大的區間。各個特征SHAP值大于0的區間分別為降水0 ~ 10 mm、日照時數0 ~ 8 h、相對濕度60% ~ 80%、風速1 ~ 3 m/s、氣溫22 ~ 24℃,如圖5所示。

圖5 特征要素貢獻依賴圖
孫家灣站和葉柏壽站對土壤含水量貢獻最大的特征區間一致,都是日照時數貢獻最大,最大區間為2 ~ 4 h;降水貢獻最小,貢獻最大區間為0 ~ 5 mm。凌海站卻是降水貢獻最大,貢獻最大的區間為5 ~ 10 mm;風速貢獻最小,貢獻最大的區間為1 ~ 2 m/s。各站點特征區間SHAP均值見表4。

表4 3站點各個特征要素區間SHAP均值
注:表中加粗部分即各個特征要素貢獻最大值,所在區間為貢獻最大區間。
本研究結果表明,GBM模型在年、季尺度上的預測精度均高于RF模型(2均大于0.816)。融合SHAP方法的GBM模型不僅定量計算出了不同土層、不同季節輸入變量對土壤含水量的貢獻,而且基于區間劃分規則識別了特征最大貢獻區間。為驗證該模型在預測土壤含水量上的優勢,從以下兩方面進行討論。
1)與神經網絡中最常用的多層感知機(MLP)進行對比驗證。目前利用神經網絡預測土壤含水量的研究較多[28],為了驗證GBM模型和RF模型在預測土壤含水量上的優勢,采用神經網絡中最常用的MLP模型進行對比驗證。利用optuna方法[29]對MLP進行10次參數擇優后,最終確定神經網絡隱藏層分別為70、60和20,最優參數分別為activation='relu',solver='lbfgs',max_iter=1400,alpha=0.04。基于參數優選后的結果預測各站點不同深度土壤含水量結果,3個站點的MAE介于0.065 ~ 0.110,RMSE介于0.086 ~ 0.146,2介于0.423 ~ 0.871,具體結果見表5。MLP模型的預測精度明顯低于本研究中構建的2種土壤含水量預測模型,GBM模型在3個站點的2均值分別提升了0.226、0.176和0.459;RF模型在3個站點的2均值分別提升了0.124、0.084和0.371。上述結果表明,本研究使用的集成學習模型相較于MLP模型具有顯著的優勢。
2)與國內外同類研究結果對比。已有的研究也表明,GBM模型和RF模型在土壤含水量預測方面擁有更加良好的表現。Chen[8]等基于RADARSAT-2和Sentinel-2數據,使用支持向量回歸機(SVR)、RF和梯度提升決策樹(GBDT)這3種機器學習方法在加拿大安大略省西南部對冬小麥種植區0 ~ 5 cm土壤水分進行預測,結果表明,RF模型結果最優(2為0.94),GBMT模型次之(2為0.77),SVR模型結果最差(2為3.06)。

表5 MLP模型對10 ~ 40 cm深度土壤含水量的預測結果
目前針對特征貢獻的研究還相對較少。Clewley等[26]采集了位于加拿大馬尼托巴省南部SMAP實驗點2012年6—7月間13 d現場數據,利用RF算法計算了各輸入特征的重要度,結果表明,貢獻最大的變量是高程,貢獻最小的變量是降水;Cai等[30]分析了各輸入特征與土壤含水量的相關性,結果表明,相對濕度相關性最大,降水相關性最小。本研究利用SHAP方法不僅判斷出不同時間尺度下最大貢獻的特征要素,而且制定了區間劃分規則識別輸入特征最大貢獻區間,從方法應用范圍上進行了提升和改進。
本文基于集成學習Bagging中的隨機森林(RF)、Boosting中的梯度提升機(GBM),研究了2種算法在遼西地區預測土壤含水量的適用性。在土壤含水量預測的基礎上,引入SHAP方法定量計算輸入特征變量對土壤含水量的貢獻,并基于制定的區間劃分規則識別特征最大貢獻的閾值范圍,實現了高精度可解釋的土壤水分預測。
1)從模型適用性方面,GBM模型更適合遼西地區的土壤含水量預測。年、季尺度下,GBM模型和RF模型均適用于遼西地區土壤含水量預測。年尺度下GBM模型和RF模型10 ~ 40 cm深度2分別為0.982、0.888;季節尺度下2分別為0.935、0.863。
2)對比分析降水、日照時數、平均相對濕度、風速、平均氣溫5個輸入要素的貢獻度,氣溫和日照時數貢獻較大,其中氣溫貢獻最大范圍21 ~ 23℃;日照時數貢獻最大范圍為2 ~ 4 h。年尺度下,氣溫貢獻最大,降水貢獻最小;季節尺度下,夏季對于土壤含水量預測的貢獻最大,貢獻最大的特征要素為日照時數,貢獻最小的特征要素為降水。
3)與傳統的MLP模型結果相比,GBM模型和RF模型10 ~ 40 cm深度土壤含水量的預測結果均優于MLP模型。孫家灣站、葉柏壽站和凌海站GBM模型的2均值相較于MLP模型分別提升了0.226、0.176和0.459,RF模型較之提升了0.124、0.084和0.371。
4)本研究首次將集成學習算法中的GBM模型和RF模型應用到遼西地區的土壤含水量預測,驗證了2種模型在年、季尺度上的有效性。創新引入SHAP方法,定量化表征輸入特征要素貢獻度,并基于制定的區間劃分規則計算了區間SHAP均值,識別了輸入特征最大貢獻區間,可為其他地區的土壤含水量預測研究提供新的參考與借鑒。
[1] Zhang D J, Zhou G Q. Estimation of soil moisture from optical and thermal remote sensing: A review[J]. Sensors (Basel, Switzerland), 2016, 16(8): 1308.
[2] 程諒, 焦雄, 邸涵悅, 等. 不同整地措施坡面土壤水分時空分布特征[J]. 土壤學報, 2021, 58(6): 1423–1435.
[3] Hummel J W, Sudduth K A, Hollinger S E. Soil moisture and organic matter prediction of surface and subsurface soils using an NIR soil sensor[J]. Computers and Electronics in Agriculture, 2001, 32(2): 149–165.
[4] 周良臣. 利用土壤水動力學模型預測麥田土壤水分的研究[J]. 節水灌溉, 2007(3): 10–13, 17.
[5] 白冬妹, 郭滿才, 郭忠升, 等. 時間序列自回歸模型在土壤水分預測中的應用研究[J]. 中國水土保持, 2014(2): 42–45, 69.
[6] 聶紅梅, 楊聯安, 李新堯, 等. 基于PCA-SVR的冬小麥土壤水分預測[J]. 土壤, 2018, 50(4): 812–818.
[7] Padarian J, Minasny B, McBratney A B. Machine learning and soil sciences: A review aided by machine learning tools[J]. SOIL, 2020, 6(1): 35–52.
[8] Chen L, Xing M F, He B B, et al. Estimating soil moisture over winter wheat fields during growing season using machine-learning methods[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 3706–3718.
[9] Zhang L Q, Liu Y, Ren L L, et al. Analysis of flash droughts in China using machine learning[J]. Hydrology and Earth System Sciences, 2022, 26(12): 3241–3261.
[10] Feng P Y, Wang B, Liu L D, et al. Machine learning-based integration of remotely-sensed drought factors can improve the estimation of agricultural drought in South-Eastern Australia[J]. Agricultural Systems, 2019, 173: 303–316.
[11] Cai J C, Xu K, Zhu Y H, et al. Prediction and analysis of net ecosystem carbon exchange based on gradient boosting regression and random forest[J]. Applied Energy, 2020, 262: 114566.
[12] Prodhan F A, Zhang J H, Sharma T P P, et al. Projection of future drought and its impact on simulated crop yield over South Asia using ensemble machine learning approach[J]. Science of the Total Environment, 2022, 807: 151029.
[13] Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. December 4 - 9, 2017, Long Beach, California, USA. New York: ACM, 2017: 4768–4777.
[14] 王鑫, 廖彬, 李敏, 等. 融合LightGBM與SHAP的糖尿病預測及其特征分析方法[J]. 小型微型計算機系統, 2022, 43(9): 1877–1885.
[15] Kannangara K K, Zhou W H, Ding Z, et al. Investigation of feature contribution to shield tunneling-induced settlement using Shapley additive explanations method [J]. Journal of Rock Mechanics and Geotechnical Engineering, 2002, 14(4): 1052–1063.
[16] Zhang K, Xu P D, Zhang J. Explainable AI in deep reinforcement learning models: A SHAP method applied in power system emergency control[C]//2020 IEEE 4th Conference on Energy Internet and Energy System Integration (EI2). October 30 - November 1, 2020, Wuhan, China. IEEE, 2021: 711–716.
[17] Wang D, Thunéll S, Lindberg U, et al. Towards better process management in wastewater treatment plants: Process analytics based on SHAP values for tree-based machine learning methods[J]. Journal of Environmental Management, 2022, 301: 113941.
[18] Fukas P, Rebstadt J, Menzel L, et al. Towards explainable artificial intelligence in financial fraud detection: Using shapley additive explanations to explore feature importance[C]//Advanced Information Systems Engineering: 34th International Conference, CAiSE 2022, Leuven, Belgium, June 6-10, 2022, Proceedings. New York: ACM, 2022: 109–126.
[19] 王笑歌. 遼西地區干旱評價及預測研究[D]. 沈陽: 沈陽農業大學, 2019.
[20] 余東行, 張保明, 趙傳, 等. 聯合卷積神經網絡與集成學習的遙感影像場景分類[J]. 遙感學報, 2020, 24(6): 717場727.
[21] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189–1232.
[22] 萬倫軍. 基于梯度提升模型的負相關學習算法的研究與應用[D]. 合肥: 中國科學技術大學, 2014.
[23] Memon N, Patel S B, Patel D P. Comparative analysis of artificial neural network and XGBoost algorithm for PolSAR image classification[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2019: 452–460.
[24] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5–32.
[25] 蔡慶空, 李二俊, 陶亮亮, 等. 基于改進作物散射模型的陜西楊凌區麥田土壤水分反演研究[J]. 土壤, 2020, 52(4): 846–852.
[26] Clewley D, Whitcomb J B, Akbar R, et al. A method for upscalingsoil moisture measurements to satellite footprint scale using random forests[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(6): 2663–2673.
[27] Karthikeyan L, Mishra A K. Multi-layer high-resolution soil moisture estimation using machine learning over the United States[J]. Remote Sensing of Environment, 2021, 266: 112706.
[28] 范嘉智, 譚詩琪, 羅宇, 等. 長短期記憶神經網絡在多時次土壤水分動態預測中的應用[J]. 土壤, 2021, 53(1): 209–216.
[29] Akiba T, Sano S, Yanase T, et al. Optuna: A next-generation hyperparameter optimization framework[C]// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. August 4 - 8, 2019, Anchorage, AK, USA. New York: ACM, 2019: 2623–2631.
[30] Cai Y, Zheng W G, Zhang X, et al. Research on soil moisture prediction model based on deep learning[J]. PLoS One, 2019, 14(4): e0214508.
Prediction of Soil Moisture Content Based on Ensemble Learning—A Case Study of Western Liaoning Province
FU Pingfan1,2, YANG Xiaojing1,2*, SU Zhicheng1,2, QU Yanping1,2, MA Miaomiao1,2
(1 China Institute of Water Resources and Hydropower Research, Beijing 100038, China; 2 Research Center of Flood Control, Drought Relief, and Mitigation Engineering, Ministry of Water Resources, Beijing 100038, China)
Accurate and efficient prediction of soil moisture content (SMC) is vital for field water management. In this study, two types of ensemble learning models (RF and GBM) were used to compare their applicability in SMC prediction based on the automatic hourly SMC data at 10–40 cm during 2018—2021 from three self-built sites in the western Liaoning area, the prediction results were also compared and verified at annual and seasonal scales. The SHAP (Shapley Additive Explanations) method was introduced to quantitatively characterize the effects of five input variables (precipitation, sunshine hour, average relative humidity, wind speed and average temperature) on SMC prediction. Interval division rules were developed to identify the interval of maximum contribution threshold of variables. The results show that2of GBM and RF models are 0.982 and 0.888 respectively on annual scale, temperature is the most important factor with the maximum contribution range of 21–23℃, whileRof the two models are 0.935 and 0.863 respectively on seasonal scale, sunshine hour is the most important factor with the maximum contribution range of 2–4 hours. This study innovatively applied SHAP method to analyze the contribution rates of input variables of machine learning, and verified the results of RF and GBM methods in SMC prediction, which can provide reference for related study on SMC.
Ensemble learning; Soil moisture content forecasting; Gradient boosting machine; Random forest; Western Liaoning; SHAP value
S152.7
A
10.13758/j.cnki.tr.2023.03.025
付平凡, 楊曉靜, 蘇志誠, 等. 基于集成學習的土壤含水量預測研究——以遼西地區為例. 土壤, 2023, 55(3): 671–681.
江西省“科技+水利”聯合計劃項目(2022KSG01002)和中國水利水電科學研究院防洪抗旱減災工程技術研究中心青年創新人才推進項目資助。
(yxj@iwhr.com)
付平凡(1998—),男,河南信陽人,碩士研究生,主要從事干旱監測研究。E-mail: fupf123456@163.com