李志國 白瑞涵 劉旭進 王庶懋※
1) 中國電力工程顧問集團華東電力設計院有限公司,上海 200063
2) 河海大學巖土力學與堤壩工程教育部重點實驗室,江蘇南京 210024
3) 河海大學江蘇省巖土工程技術工程研究中心,江蘇南京 210024
地基沉降是沿海地區的一種嚴重緩變的地質災害,具有累積和不可逆轉的特性,其影響將持續的發生作用。上海作為我國地基沉降最嚴重的城市之一,控制地基的沉降對上海地區的發展十分重要。土的壓縮模量和壓縮系數是評價土體壓縮性和地基沉降計算的主要指標,而土體的物理指標參數會影響土體壓縮性,所以需要開展土體壓縮性指標與物理參數的相關性分析,為實際工程提供指導。
Koppula[1]與Rendon-Herrero[2]認為天然含水率對土顆粒表面水膜厚度有影響,對土體結構與壓縮性展開了相關性分析;Schofield和Wroth[3]與Nakase等[4]認為土體的可塑狀態與其壓縮性密不可分,基于工程實測數據進行壓縮指數與塑性指數的相關性分析;Azzouz等[5]對700多組固結試驗得到的壓縮指數和壓縮系數進行了回歸分析,建立了塑性指數、天然含水率、初始孔隙比多變量特征的壓縮指數預測公式;劉吉福和高玉峰[6]對廣東省13條高速公路軟粘土的物理力學指標進行了相關性分析,并得出壓縮系數與含水率、孔隙比、密度之間呈現良好的冪函數關系;趙孝旗等[7]對杭州地區大量的海相軟土試樣進行統計分析,研究結果表明壓縮系數與物理指標孔隙比、質量密度、天然含水率具有較強線性關系;劉伽等[8]對上海、廣州、江蘇、連云港、溫州等地黏性土物理力學指標統計分析,結果表明壓縮指數與初始孔隙比、干重度、液限多參數的相關性最高;涂春霖等[9]基于相關關系和一元線性回歸分析等方法分析了遮放盆地粉質黏土,其中液性指數與壓縮系數、壓縮模量相關性較好,并提出可根據液性指數估算力學指標;白冰等[10]研究了塑性指數對飽和軟黏土壓縮變形參數的影響,得到了壓縮指數、回彈指數、次固結系數等與塑性指數的線性擬合關系;李晨晨等[11]取土樣于昆明市南市區,給出了物理指標與力學指標參數的經驗公式;孫毅力和于洪民[12]以北京地區積累的物理指標參數為研究對象,分析了該地區土體參數對壓縮模量的影響規律;李旭昶等[13]對揚州地區土體的物理力學指標展開分析,并就塑性指數與壓縮系數提出了經驗公式;丁祖德等[14]就昆明地區泥炭質土提出了壓縮系數與液性指數的經驗公式。以上土體壓縮系數與物理參數的相關性研究大多采用擬合或回歸分析的方法,擬合方法往往對非線性問題表現不佳,而回歸分析是基于先驗知識的推測,限制了變量的多樣性和不可測性,這使得以上方法在實際工程應用時具有一定局限性。近年來隨著機器學習、深度學習等新理論、新技術的高速發展,眾多學者就人工智能在土木工程領域做出了眾多的嘗試,張鶴[15]基于MLP和RBF神經網絡建立不同的軟土物理參數——壓縮模量神經網絡預測模型;蔣建平等[16]基于RBF神經網絡建立了以壓縮系數為輸出,多參數組合孔隙比、塑性指數、水與土粒的質量比、密度為輸入的模型,并驗證了該模型的誤差在巖土工程中是可以接受的;Zhang等[17]基于GBRT算法建立了壓縮模量的預測模型,并使用GA遺傳算法對GBRT超參數優化,與傳統的經驗公式對比證明了該方法的優越性。
機器學習中支持向量機算法(SVR)的核心理念為尋求結構化風險最小來提高模型的泛化能力,即通過合理的函數變換將輸入變量映射到高維空間后進行回歸分析,能夠很好的處理非線性特征的相互作用。本文將結合支持向量機算法,對上海地區土體的物理力學指標展開相關性分析,為進一步拓展到更為廣泛區域提供重要指導。
土體物理力學指標統計分析所需的數據來源于上海地區的6處工程場地的室內試驗。
對上海地區工程場地所取得的大量淤泥質粘土、粘土、粉質粘土、砂質粉土的物理力學指標進行統計,結果見表1。由表統計分析結果知,上海地區土體的天然密度ρ和土粒比重Gs的變化范圍都不大,且變異系數都接近于0,說明這些指標在上海地區相對均一,所以在實際應用分析時可不考慮土的天然密度和土粒比重的影響。上海地區所取得的4種土體有以下特征:

表1 土的物理力學指標統計Table 1 Statistics of physical and mechanical indexes of soil
(1)淤泥質粘土的天然含水量w變化范圍為24.40%——63.40%,均值達到42.93%,土體含水量較大;液性指數IL變化范圍在0.52——2.57之間,均值為1.41,這說明上海地區淤泥質粘土多處于軟塑至流塑狀態;塑性指數IP的變化范圍為9.40——22.80,均值為14.62,說明土中有一定的粘粒含量;其塑限、液限、液性指數與塑性指數的變異系數分別為0.13、0.16、0.23、0.23,這幾個指標的變異系數均大于0.1,在具體取值時應考慮其變異性;壓縮系數的均值為 0.84 MPa?1,大于 0.5 MPa?1,屬于高壓縮性土。
(2)粘土的天然含水量w變化范圍為24.00%——52.60%,均值達到36.22%;液性指數IL變化范圍在0.35——1.93之間,均值為0.92;塑性指數IP的變化范圍在10.80——20.60之間,均值為15.47,這些說明上海地區粘土土粒較細,黏粒含量較高;其塑限、液限、液性指數與塑性指數的變異系數分別為0.12、0.12、0.47、0.16,這幾個指標的變異系數均大于0.1,液性指數接近于0.5,變異性相對較大,在具體取值時應考慮其變異性;壓縮系數均值為0.57 MPa?1,大于 0.5 MPa?1,屬于高壓縮性土。
(3)粉質粘土的天然含水量w變化范圍為18.20%——52.00%,均值達到30.97%;液性指數IL變化范圍處于?0.31——1.84之間,變化范圍較大,均值為0.72;塑性指數IP的變化范圍在9.00——22.80之間,均值為13.68,上海地區粉質粘土的塑性指數較淤泥質粘土和粘土相對較小,所以其細顆粒含量相對較少,顆粒相對較粗;其塑限、液限、液性指數與塑性指數的變異系數分別為0.11、0.13、0.57、0.19,這幾個指標的變異系數均大于0.1,液性指數大于0.5,在指標取值時變異性較大;壓縮系數均值為0.41 MPa?1,小于0.5 MPa?1,屬于中壓縮性土,其變異系數為 0.51,變異性較大。
(4)砂質粉土的天然含水量w變化范圍為19.90%——46.40%,均值達到31.51%;液性指數IL變化范圍大,處于0.35——1.90之間,均值為1.10;塑性指數IP的變化范圍為7.10——17.70,均值為10.15,上海地區砂質粉土塑性指數較小,細顆粒含量較少,則其比表面結合水含量較低;其塑限、液限、液性指數與塑性指數的變異系數分別為0.12、0.11、0.30、0.19,這幾個指標的變異系數均大于0.1,指標取值時變異性較大;壓縮系數的變化范圍為 0.10——0.83 MPa?1,均值為0.39 MPa?1,小于 0.5 MPa?1,屬于中壓縮性土,其變異系數為0.46,變異性較大。
上海地區所取的4種類型土體的天然密度變化范圍不大,土顆粒結構緊密狀態相近,在土體壓縮系數相關性分析中可忽略土體密度的影響;而塑性指數、液性指數影響著土體結構與表面水膜厚度,對土體壓縮系數影響較大。因此,本文研究重點針對壓縮系數與塑性指數、液性指數的相關性展開研究,建立變量之間的相關性散點圖(圖1),可見壓縮系數與塑性指數、液性指數呈正相關。

圖1 相關性散點圖Fig.1 Correlation scatter plot
支持向量機是一種基于統計學理論的原理性方法,可用于線性和非線性回歸問題。通過尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統計樣本量較少的情況下,亦能獲得良好統計規律的目的。其基本思想是通過一個非線性變換將輸入空間對應于一個特征空間,使得在輸入空間中的決策超曲面模型對應于特征空間中的決策超平面模型。
給定訓練樣本,希望基于機器學習學得一個回歸模型,使得f(x)與y盡可能接近,w和b是待確定的模型參數。通過設定最大容忍誤差ε,當誤差絕對值大于ε時才計算損失,SVR問題可轉化為:

式中,C為正則化常數,lε為ε的不敏感損失函數。
支持向量損失函數表達為:


引入拉格朗日乘子μi:


上述過程中需要滿足KKT條件,即要求:

SVR的解形如:

式中,若0<αi<C,則必有 ξi=0

若考慮特征映射形式,則:

則SVR可表示為:

通過對方程求解確定模型的最終參數w和b,式中k(xi,xj)表示SVR模型的核函數,該函數的主要作用是將樣本映射到高維狀態并進行運輸。
采用MAE(平均絕對誤差)、RMSE(均方根誤差)、MSE(均方誤差)、R2(決定系數)作為預測準確性的評判標準,具體表達式如下:

MAE、RMSE、MSE指標越小,R2越接近于1,表示預測值與真實值間誤差越小。
為使機器學習模型在真實數據上能達到良好的預測效果,在訓練過程中需要對模型的超參數進行設定,其中包括模型的輸入變量與支持向量機參數(核函數系數γ,誤差懲罰系數C,最大容忍誤差ε)。本文將搜集到的數據集劃分兩份,一份用來訓練模型,一份用來評估模型,分別稱為訓練集和測試集,并分別基于壓縮系數預測值和實測值的分布散點圖與誤差累計曲線對影響模型預測精度的超參數展開分析,以確定出每個超參數的最優取值。在預測值與實測值的分布散點(圖2a)中,橫坐標與縱坐標分別為測試樣本的真實值與預測值,黑色虛線y=x代表預測值等于真實值,測試樣本點越集中于平分線,表明在該情況下模型的預測值越接近于真實值。而誤差累積曲線(圖2b)中,圖中橫坐標為待測試樣本的序號,縱坐標為誤差累計總值,該值初始情況為零,按順序每對一個待測樣本進行誤差計算后,該樣本的誤差值累加在誤差累積總值之上,隨著測試樣本數量的不斷增加,誤差累計總值不斷變大。當總誤差累積曲線的斜率越緩,代表在相同的測試樣本中該情況下的模型誤差累積總值累積速度越快,即總預測的偏離程度越大。
2.3.1 輸入變量
為確定壓縮系數支持向量機預測模型的輸入變量,對比兩種單變量輸入和一種多變量輸入。兩種單變量輸入分別為塑性指數和液性指數,多變量輸入為塑性指數與液性指數。除輸入變量不一致外,其余的支持向量機參數設置相同,這里支持向量機算法模型采用線性核函數。
圖2給出了支持向量機算法模型在3種輸入變量下預測結果的對比分析(圖2b),結合誤差評價指標(表2),單變量輸入液性指數的誤差整體較大,塑性指數輸入小于液性指數輸入,多變量輸入誤差最小。可以發現多變量輸入比另外兩種單變量輸入在誤差大小和模型穩定性上均有較大優勢。因此,本文采用由塑性指數與液性指數的多變量輸入展開與壓縮系數的相關性分析。

表2 不同輸入變量預測結果誤差對比Table 2 Error comparison of forecast results for different input variables

圖2 不同輸入變量預測結果的對比分析Fig.2 Comparisive analysis of forecast results for different input variables
圖2a中支持向量機在線性核函數下基于塑性指數、液性指數多變量建立預測模型后,對真實值較小的壓縮系數預測出現負值,與實際情況不符合。考慮到不同類別土體中細顆粒含量不同,相應的表面結合水含量不同,所以不同類別土體塑性與壓縮性的相關性不同,而線性核函數較為簡單,對多類別土體關系的映射較為片面,加之沒有對模型誤差項懲罰性系數C進行優化來降低個別奇異點對整體的影響,故所建立的模型適用性較差。接下來對模型的核函數與誤差項懲罰系數C進行分析,以此期望能夠增強模型對多類別土體壓縮系數預測的魯棒性。
2.3.2 核函數
當輸入為多變量時,為確定最優核函數,這里對支持向量機不同核函數(線性、多項式、RBF)進行對比(圖3)。從誤差累計曲線沿著y軸正向的增長速度(圖3b)及誤差指標(表3),核函數RBF模型在預測有一定的優勢。就塑性指數、液性指數與壓縮系數的相關性分析而言,核函數RBF優于線性核函數和多項式核函數。

圖3 不同核函數預測結果的對比分析Fig.3 Comparisive analysis of forecast results for different kernel functions

表3 不同核函數預測結果誤差對比Table 3 Error comparison of forecast results for different kernel functions
2.3.3 誤差項懲罰系數 C
為了確定最優誤差項懲罰系數,這里對支持向量機不同誤差項懲罰系數進行比較(圖4)。通過誤差累計曲線于y軸方向的增長速度(圖4b),結合誤差指標(表4),誤差項懲罰系數C=5相較于其他取值在預測時更加準確。

表4 不同誤差項懲罰系數預測結果誤差對比Table 4 Error comparison of forecast results of penalty coefficients of different error item

圖4 不同誤差項懲罰系數預測結果的對比分析Fig.4 Comparisive analysis of forecast results of penalty coefficients of different error item
在以上分析中,根據測試樣本的預測誤差,確定出模型的最優輸入模式為塑性指數與液性指數二維輸入變量,支持向量機算法的最優核函數為RBF,誤差項懲罰系數的最優取值為5。通過對上海地區工程場地中大量的淤泥質粘土、粘土、粉質粘土、砂質粉土數據集訓練建立最終模型,進而為上海廣泛區域土體的壓縮性研究提供指導。
基于支持向量機算法在塑性指數、液性指數多變量輸入情況下建立的模型與線性擬合、多項式擬合方法對比分析。以上海某一場地為例,該場地壓縮系數在不同方法下的預測結果如圖5所示,各方法預測結果與真實情況的誤差指標見表5。

圖5 不同方法的壓縮系數預測結果對比分析Fig.5 Comparisive analysis of prediction results of compression coefficients by different methods

表5 不同方法的壓縮系數預測結果誤差對比Table 5 Error comparison of prediction results of compression coefficients by different methods
圖5a給出了在不同方法下樣本點預測值與實測值的分布結果,基于支持向量機算法在多變量因素下建立的預測模型,數據更加趨于分布在平分線兩側;而線性擬合與多項式擬合的預測方法,部分樣本點位于平分線右下方,預測值小于真實值,可見采用本文支持向量機算法所建立的多參數預測模型預測值與真實值較為貼近。圖5b為各個方法預測結果的誤差累計值,基于支持向量機算法的多因素預測方法樣本誤差的累計速度較慢,即整體的偏離程度越小,相比于擬合方法有明顯的優勢。圖5c給出了預測值與真實值比值的頻數分布曲線,基于支持向量機算法多因素頻數分布曲線相較陡峭,數據點最為集中,多項式擬合方法頻數分布曲線表現為右邊的尾部相對于與左邊的尾部要長,即有輕微的右態偏,說明部分樣本的預測值大于真實值。因此,從整體上基于支持向量機算法建立的多參數預測模型更有優勢。
為了進一步驗證支持向量機算法相比于其他擬合方法的優勢,本文構建了不同數量的數據集0,1,2,3,4,數據集的數量逐漸增加,然后分別以支持向量機算法、線性擬合以及多項式擬合方法展開訓練或擬合,最后就同一測試樣本進行精度驗證。結果如圖6所示,隨著樣本數據的不斷增加,支持向量機所訓練的模型精度不斷增加,考慮到算法復雜的理念設計,基于大量數據可進行更加深度的挖掘;而擬合方法較為簡單,樣本達到一定數量后對擬合參數的影響趨于穩定。

圖6 不同數量數據集下支持向量機與擬合方法的對比分析Fig.6 Comparative analysis of support vector machine and fitting methods in different datasets
土粒的微觀結構反映出不同的土粒孔隙、水膜厚度以及粘粒含量,在沉淀中形成的土體結構會影響土體的壓縮性。這里將預測值與實測值之間的偏差定義為預測偏差,利用偏差擬合曲線的變化來分析其他物理指標對模型預測性能的影響,從而對模型的預測性能進行評估。
圖7給出了基于物理指標(塑限、液限、塑性指數、液性指數)模型預測性能的偏差變化,散點表示基于模型預測偏差與其所對應的物理指標,黑線和紅線分別表示模型預測的偏差擬合曲線與0偏差線。對于不同的物理指標,模型的預測準確性有顯著差異,對應各范圍預測結果誤差(表6)。隨著含水量、塑限、液限、塑性指數等物理指標的逐漸增加,相應樣本模型預測值上下偏離于真實值越大;而液性指數的變化對模型預測精度的影響較小,所以在模型使用時可忽略該指標對預測準度的影響。

表6 不同物理指標預測結果誤差對比Table 6 Error comparison of prediction results for different physical indexes

圖7 不同物理指標的預測偏差Fig.7 Forecast bias of different physical indexes
圖8給出了基于壓縮系數的預測偏差變化,其誤差結果如表7所示,高壓縮性土的預測偏差曲線隨著參數指標的變化波動起伏較大,中壓縮性土體趨于穩定,即模型對淤泥質粘土、粘土等中低壓縮性土體的預測能力更強。因此,在預測時模型對不同指標區間土體的泛化能力有差異,可結合偏差變化曲線約束樣本指標范圍來提高模型預測的準確性。

表7 中高壓縮性土預測結果誤差對比Table 7 Error comparison of prediction results of medium and high compressible soil

圖8 基于壓縮系數的預測偏差變化Fig.8 Variation of forecast bias based on compression coefficients
本文運用支持向量機算法開展了上海地區土體的物理力學指標相關性分析,得到如下結論:
(1)建立了基于塑性指數與液性指數的土體壓縮系數預測模型,所建立的雙因素模型相較于單因素塑性指數模型能夠有效地對土體壓縮系數進行預測,預測結果與實測結果相關性顯著提高、誤差明顯降低,該預測壓縮系數的模型算法可作為上海地區參數估計的參考驗證。
(2)通過對模型算法的超參數進行優化,并將該模型與傳統的線性、多項式擬合方法對比,支持向量機模型預測結果與實際更為接近,具有一定的工程應用價值。
(3)基于含水量、塑限、液限、塑性指數以及液性指數建立預測與實測壓縮系數之間的偏差變化曲線,發現含水量少、可塑性小的中壓縮性土體相較于高壓縮性土體的預測偏差幅度變化更小,模型更加穩定與準確。