陳芯宇, 師蕓*, 溫永嘯, 史瑞遙, 米曉梅
(1.西安科技大學測繪科學與技術學院, 西安 710054; 2.自然資源部煤炭資源勘查與綜合利用重點實驗室, 西安 710021)
中國地質條件復雜,不同地區的地理環境存在較大差異,崩塌、滑坡、泥石流等地質災害頻發[1]。滑坡災害分布范圍廣、發生頻率高、災害損失嚴重,是主要地質災害之一,給社會經濟帶來巨大損失,對滑坡災害發生的預測及防治是當下的首要任務。
滑坡易發性評價主要目的是識別出極易發生滑坡的危險區域,其結果可為滑坡災害風險管理以及防治提供重要理論依據和技術支撐。目前中外學者常用的評價模型包括定性和定量模型。其中定性主要有專家經驗法及層次分析法[2],定量主要為統計模型(信息量模型[3]、確定性系數模型[4])和機器學習模型(支持向量機[5]、隨機森林[6]、人工神經網絡[7]、邏輯回歸[8])。Farooq等[9]采用證據權、信息量、頻率比、確定性系數4種統計模型建立滑坡易發性評價模型,所應用的模型對喜馬拉雅山脈的杰赫勒姆谷地的滑坡易感性評估取得了較好的效果。Akgun等[10]采用邏輯回歸和穩定性指數的方法對土耳其北部一個水壩庫區進行滑坡敏感圖的制作。譚玉敏等[11]采用信息量模型對重慶市涪陵區進行了地質災害易發性評價。單一模型能較好運用于滑坡易發性評價中,但仍存在評價因子的量綱不統一、不能確定評價因子權重及建模過程中人為主觀因素干擾等缺陷。因此,將兩種模型甚至多模型耦合能取長補短,提高模型評價精度,以便更適用于滑坡易發性評價中。徐勝華等[12]采用熵指數模型融入支持向量機模型制作易發性分區圖,IOE模型消除量綱等誤差影響,ROC曲線結果表明耦合模型(IOE-SVM)預測準確率高于單模型(SVM)。鄧念東等[13]分別采用自適應提升模型和隨機森林模型以及基于兩者模型耦合進行滑坡易發性評價,結果表明耦合模型訓練集準確率和驗證集的預測率均為最高。
前人諸多經驗表明,多模型耦合精度高于單模型。其中,確定性系數模型可以解決多個復雜因子之間的同區間定量化的問題,根據滑坡點在各因子分級類別下的分布情況,可以計算出各因子分級類別下與滑坡的相對權重,但是難以確定各個因子在高維空間中與滑坡點的關系[14-15],支持向量機(SVM)能夠通過引入核函數將樣本值從低維映射到高維空間中,適用于較少樣本數據集,但輸入數據評價因子之間量綱不統一的問題會影響評價的結果。
因此,現將CF模型與SVM模型相結合,將評價因子的CF作為SVM模型輸入值,解決了量綱不統一問題。在研究區地質災害孕育基礎上,選取了高程、坡度、坡向、地形曲率、距河流距離、距路網距離、降雨量、歸一化植被指數(normalized difference vegetation index, NDVI)、地層年代、土地利用共10個評價因子對略陽縣進行滑坡易發性評價,但在以往研究區中非滑坡點的選取多數采用全區域隨機選點或緩沖區以外選點[16-17], 此種采樣方法都難以保證所選的非滑坡點發生滑坡的概率極低,具有誤差性。為了提高模型精度,更好用于易發性評價中,現采用CF模型對研究區進行易發性分區,在剔除極高、高易發區外選取非滑坡點,盡量保證所選的柵格單元發生滑坡的概率極低[18-19]。最終構建CF-SVM易發性評價模型,以為當地防災減災提供參考。
略陽縣位于漢中市西北部,秦嶺山脈南麓,地理坐標105°42′E~106°31′E,33°07′N~33°38′N,地勢由南向北逐漸增高,海拔高度介于559~2 399 m,降水多集中在7—9月,平均氣溫在6~13 ℃。區內水系較為發達,縣境從北到南有嘉陵江主流線與脊嶺線兩條高度不等的相對平行線貫穿。區內地質結構復雜,分布的巖層主要在古生代完成,變質巖、千枚巖分布于主要分布于城北,灰巖分布于城南,第四系堆積物主要分布在河谷兩岸。研究區地質災害主要以滑坡為主,區內滑坡隱患點為186個(圖1),為了便于統計及計算,將研究區按照30 m×30 m的柵格單元進行劃分,共計3 133 823個柵格單元。

圖1 略陽縣滑坡分布圖Fig.1 Distribution map of landslides in Lueyang county
本文研究中滑坡易發性評價數據源主要包括:①滑坡災害點數據是由中國科學院資源環境科學數據中心的“地質災害點數據分布數據”提供;②ASTER GDEM 30 m分辨率數字高程模型(digital elevation model,DEM)用于提取高程、坡度、坡向、地形曲率、水系;③OpenStreeMap提取該區矢量路網;④1∶200 000地質圖矢量化得到地層年代;⑤2019年降雨量來源于中國氣象數據進行插值得到年累計降雨量;⑥土地利用類型數據來源FROM-GLC,分辨率為30 m;⑦30 m分辨率Landsat8 OLI用于提取NDVI因子圖層。
2.2.1 確定性系數模型
確定性系數模型是一種概率模型,最早由Shortliffe等[20]在1975年提出,后來由Heckerman[21]對其進行改進。根據已有的滑坡災害點,計算各個因子不同區間滑坡發生的概率,該模型屬于雙變量統計分析。CF計算公式為

(1)
式(1)中:PPa為地質災害在因子分類a中發生的條件概率,可以用因子分類a中滑坡點個數與該類單元面積之比表示;PPs為地質災害發生的先驗概率,在研究區中為滑坡總個數與研究區總面積之比。由式(1)可得CF取值為[-1,1],當CF>0時,表示在該分類a下發生滑坡的概率較大,值越接近1發生滑坡的可能性越大;當CF<0時,表示在該分類a下發生滑坡概率較小,越接近-1表示該區間發生滑坡的可能性越小;當CF=0時,無法確定該分類a下是否有利于滑坡的發生。
2.2.2 支持向量機
支持向量機是一種分類器,于20世紀90年代中期發展起來、基于統計學習理論的一種機器學習,通過尋求最小化結構風險來提高學習泛化能力,實現經驗風險和置信范圍最小化,能夠在樣本較少的情況下,將低維非線性數據映射到高維空間中,解決非線性轉化為線性求解問題,尋找最優超平面將正負兩類數據分開,并保持間隔達到最大,使得支持向量機具有較好的魯棒性[22-23]。
假設滑坡訓練樣本數據xi,其中i=1,2,…,n,n為訓練樣本的數量,xi包含10個評價因子輸入向量,yi∈[-1,1]為輸出值,表示滑坡與非滑坡。SVM是尋找一個最優超平面將兩類數據正確區分開,超平面計算公式為
wΤx+b=0
(2)
式(2)中:w為法向量;x為樣本點特征向量;b為常數。為了保證劃分間隔最大化,最大間隔表示為

(3)
為方便求解,將其轉化為最小值問題:

(4)
s.t.yi(wΤxi+b)≥1,i=1,2,…,n
(5)
計算過程中引入松弛變量ξi≥0和懲罰因子C:
s.t.yi(wΤxi+b)≥1-ξi
(6)
引入拉格朗日公式得
(7)
式(7)中:ai為Lagrange函數,ai>0;xi、xj為空間上的點。
最后得到最優分類函數為

(8)
對于非線性問題,可以通過引入核函數將樣本值從低維空間映射到高維空間,在空間中求得最優分類超平面。將x做非線性映射φ:Rn→H將輸入的空間樣本Rn映射到高維的特征空間H中得到
x→φ(x)=[φ1(x),φ2(x),…,φn(x)]Τ
(9)
對于高維空間的最優分類函數變為

(10)
本研究區選取了高程、坡度、坡向、地形曲率、距河流距離、距路網距離、降雨量、NDVI、土地利用、地層年代共10個評價因子。其中土地利用和地層年代為離散型因子,離散型數據按照野外調查進行劃分;剩余8個因子為連續性因子,連續型數據劃分標準較難把握。根據前人經驗,各因子分級圖與分級表如表1和圖2所示。
高程是影響滑坡的一個重要因素,不同高程范圍具有不同植被類型及植被覆蓋度,與降雨量也有高度相關性,高程間接影響滑坡災害的發育[24],研究區高程599~2 399 m,按照自然間斷法將其分為5類。坡度是決定斜坡體應力的大小和方向,是影

表1 評價因子分級Table 1 Evaluation factor classification

續表


地層年代1為上志留系;2為中志留系;3為新近系;4為奧陶系;5為震旦系;6為薊縣系;7為泥盆系;8為全新統;9為三疊系;10為 石炭系;11為侏羅系;12為上古生界;13為下古生界;14為中新元古界;15為古太古界圖2 評價因子分級圖Fig.2 Evaluation factor grading chart
響滑坡的一個重要因素,由于平坡應力小發生滑坡概率較小,隨著坡度的增加應力也會增加,發生滑坡概率也會增大[25]。研究區坡度最高75°,按照5°等間隔劃分8類,大于35°分為1類。坡向決定了坡體受到陽光照射的方向,不同坡向受太陽輻射強度不同,導致溫度、降水也有所不同,將會影響土地覆蓋度、巖石風化速度等差異,研究區坡向0~360°,以45°為間隔劃分為9類。地形曲率是對地表凹凸變化的反映,正值表示凸坡,負值表示凹坡,地形曲率為0或者接近于0表示平坦[26]。由于地形曲率為0面積很小,將-0.2~0.2看成平面坡,<-0.2為凹坡,>0.2為凸坡。河流對兩岸存在不同程度的沖刷、侵蝕影響滑坡災害的發育,將研究區河流300 m等距離提取緩沖區,得到 6 個類別。道路工程中的開挖、路基拓寬等工程活動,改變了斜坡應力狀態,降低了斜坡的穩定性。根據研究區道路的分布情況,以500 m為間隔對道路進行緩沖區分析,得到5個類別。NDVI反映植被覆蓋度,取值在[-1,1],值越接近1表示植被覆蓋越茂盛,研究區NDVI取值在[-0.34,0.9],將其按照自然間斷法分為5類。降雨量在地質災害的發生中起到誘發作用,突發強降雨,土質受到侵水后會發生軟化,降低巖土體強度[27]。研究區降雨量927~1 032 mm,按照自然間斷法分為5類。土地利用對滑坡災害也有著十分重要影響,不同類型的土地利用,對滑坡災害影響不同,將研究區土地利用分為8類:耕地、森林、草原、灌木、濕地、水體、建筑用地、裸地。地層巖性控制著滑坡的分布,地層年代影響著巖石的風化程度,巖石古老程度由出露時代決定,時代越久遠,風化越嚴重。研究區按照地層年代實際分布分為15類:上志留系、中志留系、新近系、奧陶系、震旦系、薊縣系、泥盆系、全新統、三疊系、石炭系、侏羅系、上古生界、下古生界、中新元古界、古太古界。
研究區采用CF模型計算出每個因子分級區間的CF,CF越接近1,說明對應區間對滑坡的發生促進作用越大,反之,CF越小,對滑坡發生促進作用越小。如表1所示。
在模型計算之前,避免各因子之間存在高度相關性,導致模型分類結果準確率下降,為了保證各因子間的獨立性。提取樣本點的CF,采用SPSS軟件對10個因子進行多重共線性檢查。統計膨脹因子(VIF)和容忍度(TOL),當容忍度小于0.1或者方差膨脹因子大于10,表示各因子共線性程度高[28]。由表2可知各因子容忍度大于0.1,膨脹因子小于10,各因子之間不存在多重共線性問題,可參與模型訓練。

表2 多重共線性檢查Table 2 Multiple covariance check
對于SVM模型易發性評價,為了降低數據集的不平衡性,提高模型的預測精度,按照1∶3比例在研究區隨機選取非滑坡點558個與已有的滑坡點186個組成樣本點,將樣本點劃分為訓練集和測試集兩部分:70%用于訓練,30%用于測試。采用灰狼優化算法優化SVM參數得到最優參數懲罰因子C和核參數σ,將最優參數組合放入模型進行訓練,將訓練好的模型用于整個區域預測,最終得到略陽縣易發性指數。按照自然間斷法分為5類:極高易發區(4.74%)、高易發區(8.55%)、中易發區(14.40%)、低易發區(40.46%)、極低易發區(31.85%),結果如圖3和表3可知,SVM模型從極低易發區到極高易發區頻率比值逐漸增大,有58.06%的滑坡點落在極高和高易發區,僅有5.38%的滑坡點落在極低易發區中,說明SVM模型能較好評價略陽縣滑坡易發性。

圖3 SVM模型易發性分區圖Fig.3 SVM model susceptibility partition map

表3 基于SVM模型的易發性分區統計Table 3 Statistics of susceptibility partition based on SVM model
采用CF-SVM進行易發性分區,先將10個因子計算出各分級類別下CF,采用ArcGIS柵格疊加得到CF模型的易發性指數,采用自然間斷法,將整個區域分為 極低易發區、低易發區、中易發區、高易發區、極高易發區,在剔除極高、高易發區外隨機選取非滑坡點(圖4),同樣采用1∶3進行選取非滑坡點,將非滑坡點與滑坡點組成樣本點,將其70%作為訓練集,30%作為測試集。經過灰狼優化算法優化模型參數得到最優C和σ,將訓練好的模型用于整個區域預測得到略陽縣滑坡易發性指數。按照自然間斷法分為5類:極高易發區(9.04%)、高易發區(15.74%)、中易發區(23.31%)、低易發區(29.55%)、極低易發區(2.6%)。如圖5和表4所示,極高和高易發區頻率比為4.58、2.08,其余頻率比小于1,符合事實,約有74.2%的滑坡柵格單元落入極高和高易發區,表明CF-SVM模型具有更好的預測精度。

圖4 非滑坡點選取圖Fig.4 Non-landslide point selection map

表4 基于CF-SVM模型的易發性分區統計Table 4 Statistics of susceptibility partition based on CF-SVM model

圖5 CF-SVM模型易發性分區圖Fig.5 CF-SVM model susceptibility partition map
為了更好地評價兩種模型的預測能力,采用受試者特征曲線(receiver operate curve,ROC)曲線對略陽縣滑坡災害易發性模型進行檢驗,真陽率為縱坐標(敏感度),假陽率為橫坐標(1-特異性),ROC曲線下的面積(AUC)取值范圍為[0.5,1],AUC越大表示模型預測能力越好[29],由圖6可知隨機選取的非滑坡點SVM模型曲線下的面積(AUC)為0.83,在CF模型下剔除高易發和極高易發選取的非滑坡點CF-SVM模型曲線下的面積(AUC)為0.95,說明CF-SVM模型略優于SVM模型,證明了非滑坡點的選取會影響模型的精度,從而會影響模型易發性評價結果。CF模型基礎上能更準確地選取非滑坡點,使CF-SVM模型具有更好的預測性能。

圖6 ROC曲線結果Fig.6 ROC curve results
(1)以略陽縣為研究區,基于SVM模型得到易發性分區圖,并做出ROC曲線下AUC面積為0.83,在CF模型基礎上,在剔除極高和高易發區外選取非滑坡點與已知滑坡點組成樣本點訓練出來的模型用于整個區域得到CF-SVM易發性分區,ROC曲線下AUC=0.95,說明CF-SVM模型具有較好的評價精度。
(2)基于SVM模型易發性分區圖可知,從極低易發區到極高易發區頻率比分別為0.17、0.42、1.34、3.65、5.67,頻率依次增高,CF-SVM模型頻率比分別為0.05、0.16、0.85、2.08、4.58,高和極高易發區最高,符合事實。且SVM模型和CF-SVM模型計算極高頻率比分別占總頻率比值的50.0%和59.3%,表明CF-SVM模型要比SVM模型預測效果要好,在CF基礎上剔除極高和高易發區后更能準確地選取非滑坡點。
(3)由易發性分區圖可知,極高和高易發區主要分布在河流及道路附近,這些區域植被覆蓋較少,高程較低,人類活動頻繁,坡體易受到人為活動影響,導致邊坡不穩定,極低易發區主要分布在高程較高,植被覆蓋度高,人為活動較少,邊坡穩定,結果符合實際,能夠用于滑坡易發性評價。
(1)采用SVM模型和CF-SVM模型得出易發性分區圖,將CF作為SVM模型輸入值能有效解決各因子之間量綱不統一問題,SVM模型與CF-SVM模型都能較好地評價略陽縣滑坡易發性,SVM模型在極高和高易發區涵蓋了58.06%滑坡點,CF-SVM模型在極高和高易發區涵蓋了74.2%滑坡點,只有1.7%滑坡點落在極低易發區,表明CF-SVM模型評價結果更準確,剔除高、極高易發取選取非滑坡點的可行性。
(2)對易發性結果檢驗可知,CF-SVM模型AUC為0.95,優于隨機選取非滑坡點的SVM模型AUC為0.83,能夠有效反映出CF-SVM模型具有更好的評價精度。表明在CF模型易發區分區基礎上,剔除極高和高易發區后在剩下區域隨機選取非滑坡點,避免了少量非滑坡點選在高易發區,從而影響模型預測準確率。