張 碩,鄭 達,張 文
(1.成都理工大學環境與土木工程學院,成都 610059;2.中國地質科學院探礦工藝研究所,成都 611734)
紅層主要是指中生代和新生代挽近系的湖相、河湖交替相或是山麓洪積相等陸相碎屑巖,以粉細砂巖、泥巖和頁巖為主,主要分布在中國西南、西北、華東、中南、華北、東北地區,其中又以西南地區四川盆地及盆地邊緣、西昌-滇中地區、滇西地區分布較為廣泛。隨著交通強國與“一帶一路”戰略的提出,我國西部地區逐漸浮現出一張規模龐大的高速公路網,而此地區公路工程的修建不可避免地要穿越紅層山區。由于紅層軟巖具有膠結程度差,強度較低、易風化、水理性差、變形大的特點,加之紅層斜坡巖體內不同程度發育有層間錯動帶、泥化層等軟弱夾層,導致其變形失穩模式復雜[1],例如通常情況下穩定性較好的平緩巖層地區,卻常常在巖層傾角不超過10°,有時甚至反傾3°~5°的巖層中發生大型滑坡[2];天然狀況下難以發生滑坡的緩傾角巖質邊坡,在強降雨條件下,卻屢見大規模群發性滑坡災害[3];或是邊坡在自然情況下穩定性良好,卻在開挖后迅速產生變形滑移[4],由此可見這類滑坡具有擾動或降雨后成災速度快、識別難度大、成因機制復雜、成災模式獨特、隱蔽性強、減災防災難度大的特點。因此,建立公路地區紅層邊坡快速評價體系對紅層公路邊坡的防災減災工作具有重要意義。
據統計截止2020年底,四川省內正在運營的高速公路約有52條,其中約有30條都處于紅層地區[5],占比約57%,在紅層地區公路修筑過程中常常發生各種地質災害問題,如正在修建的仁沐新高速公路,因施工中的邊坡開挖擾動,誘發了大量的工程滑坡與古滑坡復活(見圖1)[6],不僅對相關區域人民生命財產安全構成嚴重威脅,而且會對重大工程建設與運營造成巨大影響。

圖1 開挖邊坡局部失穩
公路施工通常采用全線多個標段同時施工,這樣勢必會在短期內出現數量眾多的開挖邊坡,而很多紅層邊坡在開挖過程中或者開挖后不久就會發生巖體變形、局部崩塌與順層滑坡等地質災害,嚴重影響工程安全與施工進度。目前對公路開挖邊坡穩定性的快速評價方法主要有3種:
(1) 采用傳統的定性分析結合強度理論的邊坡穩定性評價方法對公路邊坡進行評價。此方法需要豐富的工程經驗,在對每個邊坡進行地質模型建立工作后,進行定量評價,但工作量巨大,難以在短時間內完成評價,不適合在線性工程邊坡中應用[7-8]。
(2) 基于巖體強度分級RMR法的快速評價方法。通過分析影響邊坡穩定的眾多因素,從中選取合理的特征對邊坡進行定性或半定量的穩定性評價,該方法評價結果的合理性受各種修正系數的限制,且各因素分級標準的選取及權重確定方面多具主觀性[9-12]。
(3) 建立評價指標體系。通過數量化理論或者運用機器學習理論進行邊坡穩定性分級的快速評價方法。相比之下,該方法是目前最快速、效率最高的方法[13-15]。
隨著當前機器學習(Machine Learning)理論的發展,為各種實際難題提供了很好的解決方案。邊坡穩定性評價可看作是一個分類問題,且影響因素與邊坡穩定性之間是非線性關系,而SVM算法能很好解決維度高、非線性強、樣本小的分類問題。本文通過機器學習理論與SVM算法對邊坡的評價指標與穩定性等級進行分析,找尋二者之間的非線性關系,分析紅層邊坡的評價指標數據,建立模型預測邊坡的穩定性等級,嘗試形成一套針對紅層地區公路邊坡穩定性的快速評價方法,為紅層地區公路的施工與防治提供參考。
為了選取合理的邊坡快速評價指標,筆者對典型紅層公路邊坡變形破壞模式進行了分析,發現邊坡崩滑災害的發生是眾多影響因素共同作用的結果,總的來說可以分為兩類:一是地質因素,即邊坡所處的地質環境條件,是影響邊坡天然條件下穩定程度的基本條件,如地形地貌、地層巖性、巖體結構面特征、坡體結構特征、水文地質條件等;二是誘發因素,如開挖、降雨與地震等。
邊坡地形地貌特征主要包括坡高、坡寬、坡度等,與邊坡失穩的易發程度和規模息息相關。巖性組合則是構成邊坡的物質基礎,決定邊坡的物理力學性質,在很大程度上決定著開挖邊坡的穩定與失穩機制。紅層坡體內常發育泥化夾層、層間錯動帶與大量的構造節理與裂隙,其起伏程度、發育密度、接觸狀態、填充物特征對結構面的抗剪強度起到關鍵性控制作用。邊坡坡體結構主要指結構面的產狀、性質、空間位置等與坡面之間的關系,對邊坡的穩定性起著控制型作用,對于紅層邊坡來說,坡體結構的差異決定了邊坡變形位置、失穩模式、成因類型的不同。在紅層地區,基巖裂隙系統是地下水入滲、運移和儲存的主要空間,裂隙的規模、密度、張開度、連通性、透水性等因素決定了紅層邊坡的給水性和導水性,對紅層滑坡的形成至關重要。
紅層邊坡破壞的誘發因素主要包括降雨與人工開挖等方面,其中降雨對邊坡的影響主要體現在加速邊坡巖體風化和崩解速度、增加坡體自重、軟化巖土體形成垂直裂隙中的靜水壓力與底滑面揚壓力。工程開挖則會改變自然邊坡的幾何特征與地質環境,是邊坡失穩的重要誘發因素,在開挖過后臨空面方向往往會發生大面積卸荷,導致大范圍的擾動變形。
根據上述分析,本文選取反映邊坡穩定性的10個快速評價指標(見圖2),其中邊坡的幾何特征指標包括邊坡坡高、坡寬、巖性與結構特征指標包括巖性組合特征、結構面特征、巖體結構類型、坡體結構類型、外部觸發因素指標包括邊坡開挖級數、開挖高度、平均開挖坡度、最大單日降雨量。這些指標都易于快速獲取,它們相互作用組成紅層公路邊坡穩定性快速評價指標體系。

圖2 紅層公路邊坡穩定性快速評價指標
邊坡穩定性影響因素眾多,常規的方法很難找到一個較好的關系式來描述邊坡穩定性與影響因素之間的非線性映射關系。而SVM算法無論樣本點是線性可分的、近似線性可分的,還是非線性可分的,都可以利用某些支持向量所構成的“超平面”將樣本點以較高的準確度切割開來,適用于邊坡穩定性的預測分類問題,本次研究基于機器學習全流程理論構建模型。
評價方法的第一步是“數據理解”階段,對建模數據進行描述性統計和可視化分析,從整體和局部兩個方面去揭示數據內深層次的關系、結構與模式,進而定位到哪些方面可以去優化數據集質量,通常依據數據類型分別從單變量與雙變量兩方面進行分析。
評價方法的第二步是“數據預處理”階段,是提高算法準確度的關鍵步驟。在機器學習中根據算法的特征和數據的特征對數據進行轉換,主要內容如下:
(1) 數據清洗
數據清洗目的是為了提高數據采集質量。本次研究樣本數據通過數據理解階段的單變量分析與雙變量分析,未發現存在重復數據、不一致值、缺失值,僅發現少數邊坡樣本出現離群值。出現離群值的原因及處理方法如表1所示。

表1 離散值出現原因及處理方法表
(2) 連續型變量無量綱化
數據集中的連續型數據變量分布跨度過大,需要進行數據尺度調整與標準化、歸一化處理。
調整數據尺度:通常情況下數據的各個屬性是按照不同的方式來度量數據的,那么通過調整數據的尺度使得數據所有屬性的尺度變的統一,就會給機器學習的算法模型訓練帶來極大的方便。依次對訓練集和測試集中的連續型數據進行數據尺度調整,將數據都聚集到0附近,方差為1。相同的數據尺度,能夠提高與距離相關的算法的準確度。數據范圍調整之后,所有數據點的特征數值都被限制在了規定的范圍內。
歸一化處理:為了優化之后所建立模型的收斂效果,對數據進行歸一化處理,將每一行數據的距離處理成1,稱為“歸一元”處理,計算公式為:
(1)
公式(1)中:x為處理后的數據;xi為原始數據中第i個數據;xmin,xmax分別為原始數據中該類型變量的最小值與最大值。
歸一元處理后不僅能提高數據的表現,而且還保留與原始數據變量相同的數值大小排序,這對部分使用權重輸入或者使用距離輸入的算法的性能提升十分有效。
(3) 分類型數據量化
目前機器學習算法及模型都只能接收數值類型的數據,但“巖性特征”“結構面充填特征”“巖體結構類型”“坡體結構”“最大單日降雨量區間”都是分類型數據,它們都來自一系列固定的可能取值,是離散的,而不是連續的,因此要對這些分類型數據進行量化。
表示分類型變量最常用的方法就是使用One-Hot編碼,原理是將一個分類變量表示為一個或多個子特征,子特征取值為0和1。對于線性二分類的公式而言,0和1這兩個值是有意義的,我們可以像這樣對每個類別引入一個子特征,從而表示任意數量的類別。如果一個邊坡的結構面充填特征取某個值,那么對應的特征取值為1,其他特征均取值為0。因此,對每個數據點來說,6個子特征中只有一個的取值為1(見表2)。

表2 數據特征值One-Hot數據處理表
(4) 降 維
樣本中數據的種類越多,維度就越大,過多的維度會造成機器學習的“維災難”,即模型建立及運行所需的時間與學習成本大大增加,性能也會隨之降低,因此需要對高維度數據集展開降維處理。
模型輸入的數據種類有坡高、坡寬、平均開挖坡度、開挖高度、開挖級數、巖性特征、坡體結構、巖體結構、結構面充填特征、最大單日降雨量,共10類。為進一步提高模型的性能,減少實際工作中數據采集時非必要工作量,將展開降維處理,至于應該精簡哪幾個特征,則需要特征選擇。這里選用機器學習中常用的卡方檢驗方法來評估各個特征與穩定性之間的關聯度,卡方檢驗得出的分數越高,說明該特征越重要,針對以上10個特征的檢驗結果如圖3所示。
從圖3中可知,坡寬與開挖級數是重要性最低的兩種特征,將討論其是否被剔除。首先是開挖級數,開挖級數與開挖高度存在較強的正相關性關系,這也說明開挖級數可以由開挖高度來代表參與穩定性評價,且開挖高度重要性相比開挖級數高出許多,因此決定剔除開挖級數特征。而坡寬重要性排名倒數第二位,同時卻是開挖級數重要性數值的1.5倍,也與平均開挖坡度、巖性結構特征沒有拉開差距,可以作為表征邊坡規模的特征之一,現場數據易獲得,因此,認為坡寬特征予以保留。經過討論分析,決定精簡開挖級數特征指標,保留其余9個指標進行機器學習模型的建立。

圖3 卡方檢驗得分
本次紅層公路邊坡穩定性快速評價方法SVM算法模型的實現采用基于Python語言平臺下的Scikit-learn機器學習工具包中的SVM函數包,超參數搜索及交叉驗證的實現同樣采用Scikit-learn機器學習工具包中的GridSearchCV包。將原始數據集內樣本進行劃分,第一部分用來訓練算法建立模型,第二部分則使用模型進行評價預測。
(1) 核函數選擇
SVM算法中常用的核函數有線性核函數、多項式核函數與高斯核函數,核函數的選取是影響SVM算法優劣的重要因素,以上幾類核函數中,線性核函數針對線性可分樣本數據分類效果最理想,在非線性分類問題中不推薦使用;多項式核函數可以將樣本數據映射到高維空間;高斯核函數參數較少,具有針對樣本數據中噪聲很強的抗干擾特性,局部擬合效果強大,能夠使非線性樣本數據樣本映射到高維空間使之可分,是應用范圍最為廣泛的核函數。本次研究結合邊坡變形穩定性問題復雜且非線性的特點,考慮到模型計算量與效率,擬選擇高斯核函數作為本次研究評價模型的核函數。
(2) 超參數選擇
SVM包涉及的重要超參數有:“C”、“gamma”,其中C是懲罰系數,為調節優化方向中兩個指標(間隔大小,分類準確度)偏好的權重,C越高,說明越不能容忍出現誤差;C越小,容易欠擬合;C過大或過小,泛化能力均會變差。gamma是高斯函數自帶的一個參數,隱含地決定了數據映射到新的特征空間后的分布,gamma值越大,支持向量越少;gamma值越小,支持向量越多,支持向量的個數影響訓練與預測的速度。
采用網格搜索法來進行參數尋優,選取C,gamma的初始搜索界限定為(10-3,103),步長為10的等冪,在搜索的最佳參數附近減小步長繼續搜索,懲罰因子C不能過大或者過小,通常情況下不會超過設置的搜索范圍。
最終利用網格搜索法得出了模型建立的最佳參數組合:C=10,gamma=100,圖4為網格搜索法參數尋優過程中的適應度值變化趨勢。

圖4 網格搜索法搜索SVC參數
(3) 模型訓練
SVM模型訓練過程是基于所選取多次方的多項式核函數,將樣本數據點投射到高維的樣本特征空間中。通過SVM算法找尋到各個分類特征數據與其他特征數據之間的最優分類平面,獲得表征各分類特征的支持向量集與其相對應的VC可信度,最終生成可評價各樣本類別的判別函數。
SVM判決過程是將樣本的特征信息由核函數映射到特征空間內,作為SVM模型訓練出的判別函數的輸入源,通過邊坡評級分類判別函數得出分類結果,建立支持向量機算法中用于分類的SVC(Support Vector Classification)模型,模型訓練過程如圖5所示。

圖5 模型構建流程
使用建立的模型對訓練集與測試集樣本展開評價,經過測試發現訓練集35個樣本預測正確31個,準確率88%;測試集15個樣本預測正確14個,準確率93.3%,預測錯誤的樣本穩定性等級為“較差”,被誤分類到穩定性“差”類別,雖然個別樣本評價結果與實際不一致,但是對于整個模型來說,準確率依然較高,由此認為該模型分類效果很好,有很強的泛化能力。
(4) 模型性能評估
對于分類型模型,不僅要關注其預測準確度怎樣,還需要檢查模型的命中率(邊坡樣本中實際穩定性差卻被預測為好的樣本所占的比率)和假警報率(邊坡樣本中實際穩定性好卻被預測為差的樣本所占的比率)這兩個指標,并通過這兩個指標繪制ROC曲線來評估模型。AUC表示ROC曲線下的面積,AUC值就是處于ROC曲線下方的那部分面積的大小。通常AUC的值越大,診斷準確性越高,AUC值評價模型預測是否準確的標準如表3所示。

表3 AUC評價標準
訓練完成后模型輸出的ROC特征曲線如圖6所示,顯示該模型的AUC為0.823,根據AUC評價標準,模型結果在0.7~0.9,表明模型的分類效果較好,預測準確程度較高,能較好地評價邊坡的穩定性等級。

圖6 SVM算法的ROC曲線
(5) 多種機器學習算法精度比較
根據選取的邊坡樣本數據集的特點,建模時選擇了在處理樣本少、維數高、非線性、離散值少情況下具有優勢的支持向量機(SVM)算法。為了檢驗SVM算法是否是解決本類問題最合適的算法,特意選擇了目前使用較多的4種算法來對比,分別是線性判別分析(LDA)、邏輯回歸算法(Logistic)、k近鄰分類算法(Knn)與樸素貝葉斯算法(Na?ve Bayes),采用相同的數據,參數選擇、性能評估時與SVM算法一致,用訓練集數據來進行建模之后,再用各個模型分別對訓練集與測試集樣本進行預測評估,比較結果如表3所示。
從表4中可以看出,支持向量機算法在訓練集和測試集分數排名均為第一,證明針對本次研究的問題和建模數據,選擇SVM算法是最合適的。

表4 不同算法的性能比較
以上研究完成了基于SVM算法的紅層公路開挖邊坡穩定性快速評價方法構建,為了檢驗該方法的性能,選取工程實例進行驗證。
四川省仁沐新高速公路起于眉山市仁壽縣止于宜賓市屏山縣新市鎮,全長201.8 km(其中主線全長158.029 km,馬邊支線全長43.8 km),全線開挖邊坡400余處,穿越的地形地貌單元復雜,丘陵、谷地、山地以及高原前緣地貌皆有涉及,沿線出露的地層主要有中侏羅紀系上統沙溪廟組、中統遂寧組、蓬萊鎮組、遂寧組等紅層地層以及第四系沖洪積、坡殘積、崩坡積等堆積物。
研究區域林木茂盛,侵蝕構造地貌較為發育。邊坡最多開挖級數達到了7級,開挖高度最高有70 m,由于施工開挖退坡深度小,且邊坡坡度較陡,導致開挖面附近巖體風化程度較高,因此在一定情況下這些邊坡的穩定性不足,容易失穩變形。篩選仁沐新高速公路主線邊坡數據,選取其中16個邊坡(見表5),從其原始邊坡勘察研究報告中提取相應指標數據來進行紅層公路開挖邊坡穩定性快速評價的應用驗證工作。

表5 仁沐新高速公路典型邊坡評價指標
將表5中各個邊坡的指標數據按評價方法進行計算,得出相應的預測結果如表6所示。計算結果與現場邊坡穩定性的地質定性判斷的吻合率接近95%,說明采用上述指標進行紅層開挖邊坡的快速評價是可行的,其評價結果對實際工程具有一定的參考價值。

表6 仁沐新高速公路邊坡穩定性快速評價結果
本文以紅層地區公路邊坡穩定性快速評價為研究目的,分析了影響紅層邊坡穩定性的因素,進一步以機器學習理論為基礎,建立了基于SVM算法的紅層公路邊坡穩定性快速評價模型,以仁沐新高速公路主線邊坡為例驗證模型的性能,得到以下結論:
(1) 建立紅層公路邊坡穩定性快速評價指標體系,選取反映邊坡穩定性的10個快速評價指標,其中邊坡的幾何特征指標包括邊坡坡高、坡寬,巖性與結構特征指標包括巖性組合特征、結構面特征、巖體結構類型、坡體結構類型,外部觸發因素指標包括邊坡開挖級數、開挖高度、平均開挖坡度、最大單日降雨量。
(2) 運用機器學習理論,建立以SVM算法為核心的紅層公路邊坡穩定性快速評價模型。利用單變量分析與多變量分析來獲得建模數據的特征,采用數據清洗、連續變量無量綱化、分類型數據量化、降維等操作展開預處理研究,以提高數據集質量,選取與數據特征相匹配的SVM(支持向量機)算法與高斯核函數建立模型,通過網格搜索法得出了參數C和gamma的最佳組合,由此構建了訓練模型。為突出支持向量機算法對邊坡穩定性快速評價模型的適用性,采用AUC值評估性能與不同算法模型性能對比的手段,驗證了支持向量機算法為本次研究的最佳算法。
(3) 通過對仁沐新高速公路主線部分邊坡的快速評價,驗證模型與計算方法,結果與工程實際現場定性評價相近,吻合率達95%以上,說明采用上述指標進行紅層開挖邊坡的快速評價是可行的。