楊建新,唐海英
(湖南省核工業地質局 三0二大隊,湖南 株洲 423000)
常見基坑變形研究方法主要包括數值模擬、理論計算及智能算法預測等。在數值模擬方面,Liu Haiming等利用FLAC3D軟件,選用2種本構模型對地面沉降進行模擬,通過與現場監測數據對比研究了基坑開挖影響范圍;劉冰冰采用ABAQUS數值軟件,對西安地鐵四號線基坑工程沉降進行模擬,研究了基坑開挖降水對相鄰建筑物的影響。在理論計算方面,Peck R.B.基于大量基坑工程數據,提出了基坑地表沉降計算公式;段紹偉等根據長沙市地鐵開挖實測數據,采用回歸分析方法對Peck沉降計算公式進行了修正。數值模擬及理論計算為現場基坑建設提供了理論指導,但由于基坑變形的復雜性及隨機性,現場實際沉降與理論計算存在一定偏差。智能算法能避開基坑變形的內在機理,具有良好的預測能力,目前已成為基坑變形預測的主要技術手段。該文主要利用隨機森林、決策樹、支持向量機3種機器學習算法,結合上海某深基坑實測數據,對基坑變形進行預測,分析基坑沉降的影響因素。
決策樹算法是目前最常見的機器學習算法之一,它以信息熵作為判別標準,將決策樹葉節點上的值作為輸出樣本信息,而非葉節點上的值作為數據樣本中某個屬性的劃分點,樣本數據根據該屬性上的不同分割點被劃分為多個子數據集。建立決策樹的核心在于非葉節點上屬性的選擇,即如何選擇適當的屬性及屬性分割點對樣本數據進行劃分。
對于回歸問題,常采用CART決策樹算法。對于給定的訓練T={(x1,y1),(x2,y2),…,(xn,yn)},根據訓練數據集中的幾個或全部特征,按一定方法對樣本數據進行分割,從而建立相應決策樹,使決策樹中葉節點上的值與訓練樣本中的值相等或接近。建立決策樹的核心問題是非葉節點上特征的選擇。假如選擇訓練集T中的j號特征中的s分量作為分割訓練集的閾值,原數據集將分為R1={x|Rj≤s}、R2={x|Rj>s}兩部分,分割后模型的輸出值與實際y值的均方誤差可表示為:
f(xi))2]
式中:f(xi)為模型輸出值,其越接近實際值y,模型精度越高。
隨機森林的基本思想是通過Bagging集成,將多個弱決策樹求解結果取平均值,從而獲得具有較高精確度和泛化性能的算法。如圖1所示,通過Bootstrap重采樣技術,從原始訓練數據集D中有放回地重復隨機抽取k個樣本,生成新的訓練數據集,然后基于新生成的k個訓練集建立k顆決策樹,將k顆決策樹組成隨機森林。隨機森林的計算結果等于所有決策樹計算結果的平均值。

圖1 隨機森林算法示意圖
支持向量機是將實際問題通過非線性變換Φ(x)轉換到高維的特征空間,再利用各種優化算法求得最大分類間隔,使樣本點能線性可分地轉換到所得到的高維空間。在這些樣本點中,有一部分位于最大分類間隔的超平面之上,此即支持向量點。
如圖2所示,設待求解的數據集為(x1,y1),(x2,y2),…,(xn,yn),x∈R,y∈R,i=1,…,N,xn為輸入數據,y為輸出數據。通過使所有樣本點離超平面的總偏差最小,可建立如下關系式:

圖2 支持向量機原理示意圖

基坑開挖對周邊地面變形的影響不可忽視。地面變形是多因素共同作用的結果,主要包括施工工況、巖土層參數、支護結構剛度及支撐形式等。各因素的影響程度及方式不同,應用傳統的理論計算方法難以考慮多種因素建立準確的基坑沉降預測模型,機器學習方法為此提供了可靠途徑。
以上海某基坑工程為例,現場施工過程中記錄基坑開挖深度、開挖面以上地層內摩擦角、土體黏聚力、土體重度、地層滲透系數、監測點距離及監測點沉降等。圖3為選取的輸入變量與基坑變形量的Pearson相關系數圖,用來衡量變量之間的線性相關關系,取值范圍為[-1,1],-1表示為負相關,1表示為正相關。數值越接近1或-1,表示相關度越強;越接近零,表示相關度越弱。從圖3來看,輸入變量與輸出變量之間存在一定的相關性。

圖3 輸入變量與輸出變量相關系數圖
選取100組監測數據(涵蓋開挖前、開挖中及基坑施工后全周期)作為訓練樣本和測試樣本建立預測模型,隨機抽取80%數據作為訓練集,剩下20%數據作為測試集,分別基于決策樹算法、隨機森林算法及支持向量機算法進行模型預測。
通過調整模型超參數獲得最優化模型,提高機器學習模型的預測準確性。基于網格搜索交叉驗證方法進行超參數調整。圖4為5折交叉驗證示意圖,其原理為通過將超參數數據集分為n個子集,以1個子集作為驗證集,其余n-1個子集作為訓練集,得到模型結果,并通過循環變換驗證集。重復上述過程,選取模型表現最優的超參數數據集作為模型的超參數。

圖4 交叉驗證示意圖
采用擬合優度R2和均方根誤差RMSE統計指標作為機器學習預測模型精度評價指標,公式如下:

R2的取值范圍為[-1,1],R2越接近1,擬合越好;RMSE的取值范圍為[0,+∞),取值越接近零,預測值與實際值擬合越好。
機器學習中,使用網格搜索交叉驗證獲得的最佳超參數組合進行建模,各模型在測試集上的性能表現見表1。從表1可看出:支持向量機的預測效果較差;隨機森林和決策樹算法具有較高的預測精度,其擬合優度都超過0.9,且均方根誤差在2以下;隨機森林算法的預測能力最好,這主要是由于輸入數據與輸出數據具有高度非線性,集成算法具有較高的表現能力。

表1 機器學習預測結果對比
利用3種機器學習模型對整個數據集進行建模分析,結果見圖5。從圖5可看出:隨機森林模型和決策樹模型的預測值均較好地分布在理想擬合線附近,最大相對誤差為0.35%,且具有較高的穩定性;支持向量機模型的預測值表現較差,最大相對誤差為10.34%,難以滿足工程實際要求。不同機器學習算法,由于其內核計算方法的差別,在同一工程數據的預測應用中表現出精度差異。

圖5 機器學習模型的預測結果
表2為隨機森林模型預測值與基坑周邊沉降實測值對比。從表2可看出:隨機森林模型預測結果雖有一定波動,但在可接受范圍內,其相對誤差為0.13%~2.01%,平均相對誤差為0.97%,對于基坑變形預測來說其精度滿足要求。

表2 位移實測值與隨機森林模型預測值的比較
影響基坑沉降的因素很多,但不同因素的影響程度不一樣。在機器學習算法中,函數“feature_importance_”對各影響因素的重要性給出了定量解釋,數學過程如下:
(1)對每一顆決策樹,建立決策樹前將數據集分為訓練集和預測集,選擇沒有參與建立決策樹的預測集數據進行預測,計算預測值與試驗值的誤差,記為err1。
(2)隨機對預測集數據中樣本的影響因素(因變量)X加入噪聲干擾(即隨機改變樣本在特征X的值),再次計算預測值與試驗值之間的誤差,記為err2。
(3)假設森林中有N棵樹,則影響因素(因變量)X的重要性為:
加入隨機噪聲后,模型的精度會發生變化(即err2改變),err2的變化幅度反映輸出結果對X變量的敏感性。假如X變量對結果無影響,則err2與err1相等,即ERRX=0;ERRX越大,X變量對樣本預測結果的影響越大,該特征的重要程度較高。
基于隨機森林模型分析各影響因素對基坑沉降的敏感性,結果見圖6,其中所有重要性系數總和為1。從圖6可看出:內摩擦角、黏聚力和檢測點距離的相對重要性系數分別為0.245、0.231、0.22,其值在所有影響因素中較高,影響因素的重要性排名為內摩擦角>黏聚力>監測點距離>土體重度>基坑開挖深度>土體滲透系數,說明土層本身性質對基坑沉降至關重要。

圖6 隨機森林模型生成的特征重要性
基于機器學習中的決策樹、隨機森林和支持向量機算法對基坑沉降進行預測,得出如下主要結論:
(1)傳統模型一般難以考慮基坑的復雜性。基于基坑實測數據建立基坑沉降預測的機器學習模型,通過與實測數據對比,隨機森林預測模型的表現優于其他2種模型,其最大相對誤差為2.01%。
(2)內摩擦角對基坑沉降的影響最顯著,但土層力學性質等特征的影響較平均,土層滲透系數對基坑沉降的影響較小。