李彬楠,樊貴盛
(太原理工大學水利科學與工程學院,太原 030024)
土壤水分特征曲線是土壤水吸力與含水率的關系曲線,反映土壤水數量與能量的關系。針對土壤水分特征曲線國內外的專家學者們進行了大量的研究,趙雅瓊[1]等研究了土體的粒徑狀況對土壤水分特征曲線的影響;譚霄[2]等分析土壤鹽分對水分特征曲線的影響,分析得到隨著含鹽量的增加偏移幅度減少且鹽分種類對土壤水分特征曲線的影響沒有明顯規律;高慧嫣[3]等對重土壤、中土壤和輕土壤等5種不同質地土壤的水分特征曲線進行比較分析,得到了其土壤水分特征曲線及其參數的變化規律。同時專家們也提出不少表征土壤水分特征曲線的模型,常用經驗模型有Gardner模型[4]、Gardner-Russo模型[5]、Frdlund and Xing模型[6]、Van-Genuchten模型[7]等。目前由于Van-Genuchten模型適用于多種質地的土壤、模型穩定性強、預測精度高,因此被人們廣泛應用。
1995年Cortes等人提出支持向量機,是基于統計學習理論的VC維理論和結構風險最小原理。支持向量機有其特有的優勢,因此在諸多領域中被廣泛應用。李曉婷[8]等運用支持向量機模型進行土壤重金屬污染評價并與Hakanson指數法和內梅羅綜合污染指數的評價結果進行對比,得到支持向量機的評價結果更為準確;劉文霞[9]等討論了基于相似日的支持向量機電動汽車日負荷預測方法,結果表明與其他預測方法相比,此法具有較高的預測精度和穩定性;黃化堅[10]采用支持向量機計算高土石壩壩坡穩定可靠度,結果表明該方法簡便,精確度高,實用性強,結果具有較高的工程應用價值。但是,鮮有文獻運用支持向量機對土壤水分特征曲線進行預測,因此本文借助此方法建立以黃土高原區土壤基本理化參數為輸入變量,以土壤水分特征曲線Van-Genuchten模型參數為輸出變量的支持向量機預測模型,為研究土壤水分特征曲線提供了更多的理論基礎。
試驗區域位于山西省交城縣、臨縣及離石區等多個縣區。試驗區的土壤質地、干容重、有機質、全鹽量等土壤理化參數指標豐富多樣,建模的數據庫具有代表性,選取試驗點的土壤理化參數見表1。

表1 試驗區內各項土壤理化參數表
(1)試驗測定項目:土壤質地、容重、有機質含量、全鹽量、土壤水分特征曲線的測定。
(2)主要試驗器械:1500F型壓力膜儀(美國制)、Rise-2022型激光粒度分析儀、化學試驗器材。
(3)試驗方法:土壤質地使用激光粒度分析儀測定;人為配制1.0~1.7 g/cm310個不同梯度的密度;有機質含量用重鉻酸鉀容量法進行測定;鹽分用化學法進行測定;土壤水分特征曲線使用壓力膜儀測定,將裝有土樣的環刀放到壓力膜儀中,加入水使土樣吸水飽和,24 h以后對進行土樣飽和含水率的測定。然后按照0.3、0.6、1、3、6、8、12和15 bar壓力值對土樣進行加壓,土樣由于受壓將水排出,并且每隔同樣的時間測定土樣的重量。8個壓力值完成后測定干容重值并計算體積含水率,最終獲得不同水吸力值下的土壤含水率得到土壤水分特征曲線的模型參數。
土壤水分特征曲線Van-Genuchten模型結構如下:
(1)
式中:θ為體積含水率;θs為飽和含水率;θr為殘余含水率,m3/m3;h為壓力水頭,m;m、n是曲線形狀參數,m=1-1/n。n表示曲線的坡度,當n較小時曲線較緩;當n較大時曲線較陡。α是與進氣值有關的參數,m-1,表示土壤進氣值大小,一般黏土進氣值較大,砂土的進氣值較小,甚至接近于0。
通過土壤水分特征曲線試驗,研究土壤基本理化參數與模型參數之間的單因素影響,分析得知土壤質地、容重、有機質、全鹽量對Van-Genuchten模型參數α與參數n具有明顯的影響。
(1)參數α影響因素分析。參數α表示土壤初始排水的難易程度。土壤質地的差異性表現在土壤體系孔隙狀況的不同,隨著黏粒含量的增加土壤水吸力增強,土壤初始排水的難度逐漸增大;土壤密度的變化是由土壤孔隙和土壤固體決定的,大孔隙越少中小孔隙越多土壤的密度越大,則土壤初始排水的難度增大;土壤有機質影響土壤膠體與結構狀況,土壤吸水能力隨其含量的增加而增強,導致土壤初始排水的難度增大;土壤鹽分影響著土壤水吸力的大小,鹽分含量越高水吸力越強,使得土壤初始排水的難度增大。
(2)參數n影響因素分析。參數n表示土壤水分特征曲線的坡度情況。土壤質地越重其黏粒含量越多,進氣吸力值隨之減小,土壤水分特征曲線彎曲度小從而坡度變緩;土壤容重增加土壤的結構更加緊實,從而影響進氣吸力值使得曲線坡度變小;土壤有機質和鹽分的含量引起土壤水吸力的變化,水吸力越大土壤初始排水越難,最終導致土壤水分特征曲線的坡度變緩。
綜上可知,土壤質地、干密度、有機質和全鹽量對參數α、n都有影響,所以以黏粒含量、粉粒含量、干密度、有機質含量、全鹽量5個因子作為預測模型的輸入參數。 根據上文所述可知Van-Genuchten模型有4個參數,飽和含水率和殘余含水率可以通過室內實驗獲取,但經驗參數α、n不可以,從而采取土壤傳輸函數法獲得,由此確定輸出參數為參數α、n。
Xi(i=1,2,3,…,n),Xi∈Rm為輸入的訓練樣本;Yi(i=1,2,3,…,n),Y∈R為輸出的對應期望。兩類樣本被一個超平面徹底分開,最優超平面的形式表示如下:
Y=f(x)=ωφ(X)+p
(2)

引入不敏感損失函數ε,運用離差分析對最優超平面進行求解,當ε大于誤差值時,則誤差小可忽略不計;引入松弛變量ξ與ξ*,目的是預防個別數據影響模型偏差;引入懲罰因子C,懲罰偏離模型的樣本數據,因此最優超平面可轉換成式(3)和式(4)求解最小值的問題:
(3)
(4)

(5)


(6)
將公式(6)聯立求解,引入非線性核函數得到支持向量機的回歸函數。常用的核函數包括Sigmoid核函數、多項式核函數和高斯核函數,本文采取第三種即高斯核函數來建立預測模型,其形式表現如下:
(7)
結合式(6)和式(7),最終確定最優超平面的形式如式(8)所示。
(8)
式中:K(x,xi)為支持向量機高斯核函數。
在支持向量機回歸算法中,參數取值的選擇十分重要,直接決定了模型的泛化能力和預測精度。懲罰因子C和核參數g是影響支持向量機學習能力的主要參數。
懲罰因子C的值和可容忍誤差相關,是樣本誤差與結構風險的折中。C值愈大允許誤差愈小,且數據擬合度愈高但可能過擬合;C值愈小允許誤差愈大,則可能不符合訓練與預測精度的標準。核參數g與學習樣本的輸入空間范圍相關,其值隨輸入空間范圍的增大而增大。本文采用網格搜索法對兩個參數的取值進行優化。最終選取C=20,g=20。
以80組數據作為建模樣本進行訓練,利用支持向量機模型對參數α進行預報訓練, 其實測值與預測值對比分析見表2和圖1。

表2 模型參數α預測結果與誤差檢驗

圖1 模型參數α擬合效果圖
從表2和圖1可知,參數α的實測值與預測值之間的誤差較小,相對誤差的最大值為24.74%,最小值為0.33%,平均相對誤差為3.94%,R2=0.985 3,除個別實測值有較大的誤差以外,其余的實測值均取得了理想的預測值,說明基于支持向量機建立的模型參數α具有較高的精確度。從擬合效果圖來看,參數α的建模樣本取得良好的預測效果。
對參數n的80組建模樣本采取同樣的程序進行預測,其實測值與預測值對比分析見表3和圖2。

表3 模型參數n預測結果與誤差檢驗

圖2 模型參數n擬合效果圖
從表3和圖2可以看出,參數n的實測值與預測值之間的誤差小,其中相對誤差的最大值僅為7.67%,最小值為0.13%,平均相對誤差為1.69%,R2=0.986 8。說明支持向量機模型對參數n的預測精度高。從擬合效果圖來看,參數n的建模樣本訓練效果好,具有理想的預測效果。同時,對比參數α和參數n建模樣本的精確度和擬合效果,發現參數n精確度更高,模型擬合效果也更好。
(1)參數α檢驗樣本精度分析。用預留的8組數據樣本檢驗本文所建立的支持向量機預測模型的精確度,獲得Van-Genuechten模型參數α驗證樣本的相對誤差分析見表4和圖3。

表4 參數α驗證樣本相對誤差表

圖3 參數α驗證樣本擬合效果圖
對參數α的檢驗樣本進行誤差分析,從表4和圖3可知,相對誤差的最大值為8.51%,最小值為1.61%,平均相對誤差為3.65%,R2=0.992,驗證樣本比建模樣本的平均相對誤差3.94%還要小,結果說明建立的支持向量機模型具有較高的精確度以及良好的預測效果。因本文采用的建模樣本以及驗證樣本均是小樣本數據,且Van-Genuechten模型參數α與土壤基本理化參數之間有著高度的非線性關系,從而達到了高精確度和理想的預測效果。因此,在本文所建立的支持向量機模型下,參數α與土壤基本理化參數之間的土壤傳輸函數是可行的,且該模型用來預測小樣本及非線性問題具有很大的優勢。
(2)參數n檢驗樣本精度分析。同樣用預留的8組數據樣本檢驗參數n在本文建立的支持向量機模型下的預測精度,最終預測結果與相對誤差分析見表5和圖4。

表5 參數n驗證樣本相對誤差表

圖4 參數n驗證樣本擬合效果圖
從表5中可以看出,參數n的驗證樣本相對誤差的最大值為5.90%,最小值為0.30%,平均相對誤差為1.29%,R2=0.951 3,檢驗樣本比建模樣本的相對誤差值要小,說明在建立的支持向量機模型下,參數n的預測精度高且驗證結果良好。
通過比對參數n、α的預測精度,發現參數n具有更高的精確度。綜合分析原因可能是參數n的變化范圍相對較小,其均處于同一數量級即1~2之間,而參數α基本是小于1的數,其最大值和最小值可相差一個數量級,容易受到輸入參數即土壤基本理化參數的影響,導致波動較為明顯,因此參數n的預測精度比參數α的高,穩定性也更強。
(1)建立以土壤黏粒含量、粉粒含量、密度、有機質、全鹽量為輸入參數,Van-Genuchten模型參數α和n為輸出參數的支持向量機模型,同時對所建模型的精度和擬合效果進行比較和分析,結果表明Van-Genuchten模型參數支持向量機的預測模型具有優異的預測效果。其中,從建模樣本來看,參數α平均相對誤差為3.94%,參數n平均相對誤差為1.69%;從檢驗樣本來看,參數α平均相對誤差3.65%,參數n平均相對誤差1.29%,結果表明Van-Genuchten模型參數α、n的預測精度均較高,說明運用支持向量機模型預測小樣本和非線性問題是可行的。
(2)在支持向量機模型中,對樣本數據進行預測時個別數據出現較大的誤差,綜合分析造成誤差的原因如下:樣本數據庫容量的大小,建立模型時對于支持向量機核函數的選擇等眾多影響因素有關。此后,在此基礎上對于支持向量機模型的建立進行不斷的優化已解決可能出現的問題,以便達到預期的預測效果,更加符合實踐活動中的實際狀況。