楊 碩,李德營,嚴亮軒,黃 元,王明哲
(中國地質大學(武漢)工程學院,湖北 武漢 430074)
我國重慶長江支流烏江流域地形陡峻,地質環(huán)境復雜,是滑坡災害高發(fā)區(qū)。重慶烏江河谷地區(qū)受河流底蝕作用,深切基巖,河谷緊束,在烏江河谷兩岸形成高陡岸坡,滑坡地質災害沿河谷地帶多發(fā)。該地區(qū)滑坡多沿烏江河谷地帶的高陡岸坡呈條帶狀分布,對河谷地區(qū)的居民區(qū)構成了嚴重威脅。因此,研究烏江河谷地區(qū)高陡岸坡滑坡地質災害的發(fā)育特征,并開展滑坡地質災害易發(fā)性評價,對保護當?shù)厣鐣?jīng)濟發(fā)展具有重要意義。
滑坡地質災害易發(fā)性評價是從空間尺度對滑坡發(fā)生的可能性進行預測,能有效支持國土空間規(guī)劃。目前,國內外學者廣泛采用的滑坡地質災害易發(fā)性評價模型大致可以分為啟發(fā)式模型、確定性模型和數(shù)理統(tǒng)計模型。其中,啟發(fā)式模型主要依靠專家的專業(yè)知識和經(jīng)驗建立滑坡地質災害易發(fā)性評價模型,其缺點是存在較大的主觀性;確定性模型主要考慮滑坡物理力學過程,多通過計算災害體的穩(wěn)定性系數(shù)來進行滑坡地質災害易發(fā)性評價,常用的模型有無限斜坡模型,但該模型多需要確定地下水水位和滑帶土強度參數(shù),難以適用于大區(qū)域滑坡地質災害易發(fā)性區(qū)劃;數(shù)理統(tǒng)計模型以工程地質類比法為基礎,常用的模型有信息量模型、證據(jù)權法等。隨著人工智能算法的不斷成熟與發(fā)展,基于機器學習的滑坡地質災害易發(fā)性評價模型的研究日趨活躍,常用的有決策樹模型、支持向量機模型和神經(jīng)網(wǎng)絡模型等。這些評價模型能較好地適應滑坡復雜的非線性特征,但存在預測結果解釋性較弱或過度擬合的問題。
為了提高模型的預測精度,減少過度擬合的問題,以隨機森林模型為代表的決策樹集成學習方法受到了廣泛的關注,并在地質災害領域得到了廣泛應用。如Merghadi等以北非米拉盆地為例,比較了基于隨機森林、梯度提升機、邏輯回歸、神經(jīng)網(wǎng)絡和支持向量機5種滑坡地質災害易發(fā)性評價模型的預測能力,結果發(fā)現(xiàn)隨機森林模型具有更好的預測性能;Goetz等對比研究了傳統(tǒng)統(tǒng)計方法和機器學習方法在滑坡地質災害易發(fā)性評價中的預測效果,結果發(fā)現(xiàn)隨機森林模型具有最佳的預測性能;Sun等以重慶市奉節(jié)縣地質災害易發(fā)性評價為例,通過貝葉斯優(yōu)化算法建立了高精度的地質災害易發(fā)性隨機森林評估模型。
基于上述研究,本文選取重慶烏江龍溪-石朝門段高陡岸坡為研究區(qū),該區(qū)段滑坡地質災害密集,提取高程、坡度、斜坡結構、斜坡形態(tài)、沖溝、巖組分類、地質構造和道路評價指標因子信息,采用隨機森林模型對研究區(qū)滑坡地質災害易發(fā)性進行了評價與精度分析,并分析了各評價指標因子的貢獻程度,以為該地區(qū)滑坡地質災害風險評估以及未來該區(qū)域工程建設和居民選址提供科學依據(jù)。
k
個決策樹,每個決策樹都有一票投票權來選擇最優(yōu)分類,最后通過簡單的表決方式預測最終分類。采用RF模型進行分類預測的流程如下(見圖1):
圖1 隨機森林(RF)模型分類預測流程圖
(1) RF模型利用自主采樣法從總樣本里面隨機有放回地抽取m
個樣本作為一個初始訓練數(shù)據(jù)集,由于自主采樣法的有放回抽取,在每一個初始訓練集中,仍然有近1/
3的數(shù)據(jù)未被采取,這些數(shù)據(jù)被稱為袋外數(shù)據(jù),用來對模型性能進行評估。(2) 運用上述方法總共抽取k
個初始訓練數(shù)據(jù)集,每個初始訓練數(shù)據(jù)集都會訓練出一個不剪枝自由生長的決策樹,形成k
個分類結果。(3) RF模型的輸出結果為k
個決策樹中平均概率值最高的類型,其概率值計算公式如下:
(1)
式中:I
為所有分類的集合;k
為決策樹數(shù)量;p
為事件i
發(fā)生的概率;p
為第j
個決策樹事件i
發(fā)生的概率;p
為最終選擇的分類對應的概率值。本文選取重慶烏江龍溪-石朝門段高陡岸坡為研究區(qū)。研究區(qū)位于重慶市彭水和武隆兩縣交界處的烏江流域,沿烏江長約28.34 km,總面積為86 km。該地區(qū)地貌屬構造剝蝕深切割中低山,地勢總體烏江兩岸南北高、中間低,地形陡峻,河谷呈“V”形,烏江水位高程為215 m。研究區(qū)地層從寒武系到第四系均有出露,以志留系和奧陶系為主,巖性主要為粉砂巖、頁巖、泥巖、灰?guī)r、白云巖。區(qū)內主體斷裂與褶皺軸線方向一致,呈北北東向。
根據(jù)野外調查結果顯示,滑坡沿烏江兩岸呈帶狀分布,在烏江北岸主要為切層滑坡,南岸主要為順層滑坡和堆積層滑坡。沿烏江高陡岸坡段共發(fā)育滑坡地質災害30處,其中土質滑坡20處、巖質滑坡10處,小型滑坡23處、中型滑坡7處。典型的滑坡地質災害點有西流坨順層巖質滑坡和臨江寺土質滑坡,見圖3至圖5。

圖2 研究區(qū)地理位置及滑坡分布圖

圖3 研究區(qū)滑坡現(xiàn)場照片

圖4 研究區(qū)滑坡平面圖

圖5 研究區(qū)滑坡剖面圖
基于野外地質災害調查與收集的地質資料,用于研究區(qū)滑坡地質災害易發(fā)性評價的主要數(shù)據(jù)有:①1∶5萬地形圖,用于提取高程、坡度等信息;②1∶5萬高谷幅和火爐鋪幅地質圖,用于工程地質巖組分類和構造提取;③重慶市彭水縣和武隆縣1∶10萬滑坡地質災害分布和滑坡地質災害易發(fā)性分區(qū)圖;④1∶5萬GF-2遙感影像滑坡地質災害解譯數(shù)據(jù);⑤對研究區(qū)進行了1∶5萬滑坡地質災害風險調查以及利用光學影像對滑坡地質災害進行了早期識別,查明了研究區(qū)有30處滑坡,并建立了滑坡地質災害數(shù)據(jù)庫。
滑坡發(fā)生受坡體本身的基礎地質條件和外界誘發(fā)因素所控制。根據(jù)研究區(qū)滑坡地質災害發(fā)育的特征和地質環(huán)境條件,初步選取8個滑坡地質災害易發(fā)性評價指標因子進行分析,具體為高程、坡度、巖組分類、斜坡結構、斜坡形態(tài)、沖溝、地質構造和道路。本文采用10 m×10 m的柵格,將研究區(qū)共劃分為859 280個柵格。研究區(qū)高程分為200~420 m、420~640 m、640~900 m、900~1 391 m;坡度分為0°~10°、10°~25°、25°~35°、35°~45°、>45°;斜坡結構分為順向坡、順斜坡、橫向坡、逆斜坡、逆向坡;斜坡形態(tài)根據(jù)剖面曲率分為凸形坡、平直坡、凹形坡;沖溝的緩沖距離分為0~100 m、100~200 m、200~300 m、>300 m;地質構造的緩沖距離分為0~250 m、250~500 m、500~750 m、750~1 000 m、>1 000 m;道路的緩沖距離根據(jù)災害體大小和可能的運動距離取值,將其分為0~100 m、100~200 m、200~300 m,>300 m。此外,研究區(qū)工程地質巖組分為4大類7小類:①第四系松散巖組(Ⅰ),主要為殘坡積、沖洪積、崩坡積碎塊石、砂礫和黏性土;②層狀碎屑巖巖組(Ⅱ),可分為3小類,即較軟-軟質薄層-中厚層狀泥巖、頁巖巖組(Ⅱ),較軟-較堅硬中厚層狀泥質粉砂巖、粉砂質泥巖巖組(Ⅱ),堅硬-較堅硬中厚層-厚層狀粉砂巖、石英粉砂巖、細砂巖巖組(Ⅱ);③層狀碳酸鹽巖巖組(Ⅲ)可分為2小類,即較堅硬中厚層狀含泥灰?guī)r、泥灰?guī)r、夾泥質條帶灰?guī)r、巖溶化灰?guī)r及白云巖巖組(Ⅲ),堅硬中厚層-巨厚層狀灰?guī)r、微晶灰?guī)r、生物碎屑灰?guī)r、灰質白云巖巖組(Ⅲ);④層狀碳酸鹽巖夾碎屑巖組(Ⅳ),主要為軟硬相間灰?guī)r夾泥巖、頁巖巖組。
各評價指標因子的具體分類,詳見圖6。

圖6 研究區(qū)滑坡地質災害易發(fā)性評價指標因子圖
對研究區(qū)評價指標因子進行數(shù)據(jù)處理,得到由8個評價指標因子組成的矩陣A
,并對其進行Pearson相關性分析,其分析結果見表1。
表1 研究區(qū)滑坡地質災害易發(fā)性評價指標因子的Pearson相關系數(shù)矩陣表
由表1可知,研究區(qū)高程與道路評價指標因子的相關系數(shù)為0.446>0.3,說明兩者之間的相關性較高。由于道路工程中產生的切坡是該地區(qū)滑坡地質災害誘發(fā)的重要因素,因此剔除高程評價指標因子,利用剩余的7個評價指標因子建立研究區(qū)滑坡地質災害易發(fā)性評價指標體系。
B
。在矩陣B
中隨機選取70%的樣本數(shù)據(jù)構建訓練數(shù)據(jù)集,剩下的30%樣本數(shù)據(jù)構建測試數(shù)據(jù)集,應用SPSS Modeler 18中的RF模型對訓練數(shù)據(jù)集進行訓練和建模,并對全區(qū)域滑坡地質災害易發(fā)性進行評價,最后利用測試數(shù)據(jù)集對模型精度進行檢驗。3.3.1 滑坡地質災害易發(fā)性分區(qū)
通過RF模型計算出研究區(qū)內所有柵格的滑坡發(fā)生概率,并基于K均值聚類模型,將研究區(qū)劃分為5個滑坡易發(fā)區(qū),即極低易發(fā)區(qū)(0,0.16]、低易發(fā)區(qū)(0.16,0.45]、中易發(fā)區(qū)(0.45,0.69]、高易發(fā)區(qū)(0.69,0.87]、極高易發(fā)區(qū)(0.87,1],進而得出研究區(qū)滑坡地質災害易發(fā)性分區(qū)圖(見圖7),再對研究區(qū)滑坡地質災害易發(fā)性進行分區(qū)統(tǒng)計(見圖8),最后通過RF模型得到研究區(qū)滑坡地質災害易發(fā)性評價指標因子的貢獻程度雷達圖,見圖9。

圖7 研究區(qū)滑坡地質災害易發(fā)性分區(qū)圖

圖8 研究區(qū)滑坡地質災害易發(fā)性分區(qū)統(tǒng)計

圖9 研究區(qū)滑坡地質災害易發(fā)性評價指標因子的貢獻程度雷達圖
根據(jù)上述研究區(qū)滑坡地質災害易發(fā)性評價結果,可分析得出研究區(qū)滑坡地質災害發(fā)育具有以下分布特征:
(1) 研究區(qū)滑坡極高和高易發(fā)區(qū)主要分布于烏江北岸的共和村以西沿線,烏江南岸的青龍咀至木棕坪一帶和銀廠村一帶,其占研究區(qū)總面積的3.33%,其中滑坡極高和高易發(fā)區(qū)的面積占已知滑坡總面積的94.12%,其他區(qū)域滑坡分布較少(見圖8)。
(2) 斜坡物質和斜坡結構對研究區(qū)滑坡地質災害的發(fā)生起主要作用(見圖9),滑坡極高和高易發(fā)區(qū)主要分布在志留系的泥巖、頁巖、泥質粉砂巖層位中,其次為奧陶系泥質灰?guī)r層位中;研究區(qū)滑坡極高和高易發(fā)區(qū)主要分布在順向坡和順斜坡中。
3.3.2 模型預測精度評估
本文采用混淆矩陣和ROC曲線對RF模型的預測精度進行評估。
(1) 混淆矩陣:由于滑坡樣本和非滑坡樣本數(shù)目的極度不平衡,僅采用統(tǒng)計方法來衡量預測模型判斷滑坡和非滑坡的準確度,不能評估該模型的適用性。因此,本文采用混淆矩陣對RF模型的預測精度進行評估,得到研究區(qū)RF模型測試數(shù)據(jù)集的混合矩陣,見表2。

表2 研究區(qū)隨機森林模型測試數(shù)據(jù)集的混淆矩陣
由表2可知,測試數(shù)據(jù)集中模型正確分類樣本數(shù)為226 212個,而測試數(shù)據(jù)總樣本數(shù)為253 746個,可得到RF模型預測的準確率(ACC值)為0.89(ACC指模型正確分類樣本個數(shù)占總樣本個數(shù)的比值),表明RF模型的預測精度較高。
(2) ROC曲線:整個研究區(qū)隨機RF模型的ROC曲線見圖10。AUC(Area Under Curve)被定義為ROC曲線下的面積,取值范圍在0.5~1之間,AUC值越大,表明模型的預測精度越高。

圖10 研究區(qū)隨機森林模型的ROC曲線和AUC值
由圖10可見,RF模型的AUC值為0.975,表明應用RF模型對研究區(qū)滑坡地質災害易發(fā)性進行預測的精度較高。
本文以重慶烏江龍溪-石朝門段高陡岸坡為研究區(qū),基于隨機森林模型開展了研究區(qū)滑坡地質災害易發(fā)性評價,得到如下結論:
(1) 根據(jù)滑坡地質災害現(xiàn)場調查結果,研究區(qū)94.12%的滑坡分布在極高和高易發(fā)區(qū),表明隨機森林模型的預測效果好。在評價指標因子中,斜坡物質和斜坡結構是影響研究區(qū)滑坡地質災害發(fā)育的最主要因素。
(2) 通過混淆矩陣和ROC曲線對隨機森林模型的預測精度進行評估,結果表明:隨機森林模型預測的準確率(ACC值)為0.89,AUC值為0.975,說明隨機森林模型評價方法的精確度較高,是一種滑坡地質災害易發(fā)性評價的可靠方法。