楊 康,薛喜成,李識博
(西安科技大學地質與環境學院,陜西 西安 710054)
進入21世紀以來,隨著世界氣候環境發生變化和人類活動能力及范圍的不斷擴大,地質災害在自然因素和人類工程活動的雙重驅動下呈現頻發態勢[1]。據自然資源部發布的《2020年全國地質災害災情及2021年地質災害趨勢預測》,2020年全國共發生地質災害7 840起,共造成197人傷亡,直接經濟損失達50.2億元。為保障人們的生命財產安全、減少災害損失、提高防災減災工作效率,開展地質災害易發性評價和區劃研究具有重要的應用價值[2]。然而地質災害易發性評價結果的準確性所受到的制約因素較多且評價方法亦多種多樣,如何選取適宜于研究區的評價方法,提高區域地質災害易發性評價結果的準確性,成為國內外學者研究的一個重點和難點。
傳統的地質災害易發性評價方法如模糊邏輯法[3]、層次分析法[4]、證據權法[5]、確定性系數法[6]、信息量法[7]等在一定的地質環境背景下均能取得較好的綜合分析效果。其中,信息量法因其原理簡單、適用性強等特點,在區域地質災害易發性評價中的運用最為廣泛且評價效果相對較好。然而總的來看,基于模糊邏輯法、層次分析法等經驗模型的地質災害易發性評價方法在評價過程中具有較強的主觀判斷性,而基于證據權法、確定性系數法、信息量法等統計模型的地質災害易發性評價方法又未能考慮各評價因子對地質災害易發性的影響差異,這也是導致該類知識驅動方法評價結果精度值相對較低的主要原因。近年來,隨著新智能算法的不斷完善,各界學者開始將機器學習引入到地質災害易發性評價研究中,該類基于數據驅動的分析方法通過對數據的訓練[8],能夠較好地處理影響因子與地質災害易發性之間的非線性關系,使得評價結果具有一定的可靠性。其中,支持向量機(SVM)是在結構風險最小化原理算法上的發展,其在一定程度上可以避免計算結果過擬合的現象[2],相較于人工神經網絡和隨機森林模型具有數據量要求少、精度值更高等優點。盡管如此,在模型運算過程中,樣本數據集的創建與模型各類參數值的設定均會在不同程度上對地質災害易發性評價結果的準確性造成影響。
為合理設定支持向量機中的各類參數值,Zhou等[9]針對滑坡位移的步進特征,提出了基于誘發因素響應的粒子群優化與支持向量機耦合模型來預測滑坡位移;肖華瓶[10]在支持向量機算法的基礎上,提出了蟻群支持向量機分類算法,其分類精度和收斂速度都有了較大的提升;唐躍等[11]基于交叉驗證法對支持向量機模型進行了參數尋優,得到了最優爆破塊度預測模型;Li等[12]基于滑坡監測數據,利用遺傳算法優化支持向量機模型對滑坡位移率進行了預測。就優化算法而言,遺傳算法具有強大的全局搜索能力,能在較短時間內搜索到全局最優點,且其適用范圍較廣,精度較高。為此,本文探索引入信息量法和遺傳算法,提出一種信息量融入GA優化SVM模型下的地質災害易發性評價方法,并將其運用于陜西省子長市地質災害易發性區劃分級研究中,以期能夠為研究區內防災減災工作部署提供一定的理論參考。
陜西省子長市位于陜北黃土高原中部,介于東經109°11′58″~110°01′22″、北緯36°59′30″~37°30′00″之間,總面積為2 405 km2(見圖1)。研究區地處華北陸塊鄂爾多斯地塊中東部,除在二疊紀末、三疊紀末、白堊紀末遭受區域隆升外,始終保持著穩定沉積盆地特征,無顯著構造運動,褶皺構造總體表現為軸向近南北的大型寬緩向斜,次級褶皺以短軸背斜、鼻狀背斜等平緩拱形隆起為主,斷裂構造不發育[13],總體地質構造較為簡單。區內主要發育中-新生代地層,包括三疊系、侏羅系、白堊系、新近系和第四系,其中第四系黃土分布最為廣泛,幾乎遍布全區,其余時代地層多沿河谷兩側零星出露。

圖1 陜西省子長市地理位置及地質災害點分布圖
研究區屬溫帶半干旱大陸性季風氣候,境內四季分明,總體氣候特征為春季風大沙多,夏季炎熱多雨,秋季涼爽多霜,冬季干旱寒冷[14]。年平均氣溫為9.1℃,極端最高氣溫為37.6℃,極端最低氣溫為-23.1℃,在黃土分布區易發生凍融,誘發地質災害。境內河流屬黃河水系,主要河流有秀延河、澗峪岔河、大理河和永坪河。各河流的相對比降大、峽谷多、曲度大、水流急,河水的主要來源為降水。受氣候控制,多數冬、春二季枯水,進入夏、秋季節,洪水暴發,常泛濫成災,由此誘發滑坡、崩塌、泥石流等地質災害[15]。
信息量(information value,簡稱INF)模型是一種源于信息量的統計預測方法,被學者們廣泛運用于地質災害易發性評價,其可以較好地反映各類成災因子的相對敏感度和各類成災因子中不同分級區間的貢獻率的大小[16]。成災因子的信息量值越大,對應區間內的地質災害易發程度越高。信息量值由條件概率來計算,在實際運用中各成災因子對地質災害發生的貢獻率用樣本頻率來計算,其數學表達式[7]為:
(1)
式中:IAi→B為成災因子A中第i區間地質災害發生的信息量值;Ni為成災因子A中第i區間的地質災害面積值或地質災害點數量;Si為成災因子A中第i區間的分布面積;S為研究區域總面積;N為研究區域內地質災害總面積或地質災害點總數量。
支持向量機(Support Vector Machines,簡稱SVM)模型是基于Vapnik-Chervonenkis理論和結構風險最小化原理的機器學習方法,該模型一般被用來解決線性不可分和非線性不可分的分類問題[17]。其基本思想是通過映射函數將低維空間非線性映射到高維空間中,求解最優線性分類面,從而使得所有樣本與超平面距離最小。
假設n維空間訓練樣本集為{Xi,Yi}[i=1,2,…,n(n為樣本個數)],構造線性回歸函數為
f(x)=ωφ(x)+b
(2)
式中:ω為方向向量;φ(x)為映射函數;b為偏置項。
求解ω和b的問題可轉化為求目標函數的極值問題,其表達式為[18]
(3)


(4)
求解上述問題可得到SVM回歸函數為
(5)
式中:K(xi,xj)=φ(xi)φ(xj)為內積核函數,SVM通過核函數將樣本映射到更高維空間H,并在H中對原始問題進行線性分割。不同的核函數能構造輸入空間不同類型的非線性決策面[19],常見的滿足Mercer條件的核函數包括線性核函數、多項式核函數、徑向基核函數和sigmoid核函數,顧及到先驗知識不足的情況,徑向基核函數(Radial Basis Function,RBF)可以將樣本映射到一個更高維空間,當類標簽與特征之間的關系為非線性的樣例時,可以得到較好的處理效果[20],故本次選取RBF作為映射核函數。即:
K(xi,xj)=exp(-g‖xi-xj‖2)
(6)
式中:g為核函數參數,g>0。
遺傳算法(Genetic Algorithm,GA)是在達爾文進化論和孟德爾遺傳學理論的基礎上發展起來的一種自適應啟發式搜索算法,旨在模擬生物進化理論中最優生存的過程[21]。該算法具有較強的魯棒性、并行性和全局尋優能力,在諸多領域得到了廣泛的運用。遺傳算法計算流程包括初始化種群、適應度值計算、選擇、交叉和變異5個部分。首先,將問題的解編碼為染色體,按照適應度函數的概率分布篩選出高適應度值的個體;再通過選擇、交叉和變異3個基本的遺傳算子使最具有生存能力的染色體以最大可能生存,群體逐代進化到搜索空間中越來越好的區域;最后,末代種群中的最優個體經過解碼便可作為符合優化目標的近似最優解。
在對信息量融入GA優化SVM模型進行訓練之前需要構建樣本數據集,樣本數據集的準確性和合理性對模型的學習效果起著至關重要的作用。傳統的樣本數據集構建方法是通過對歸一化后的各評價因子數據進行提取以創建樣本數據集,但該類方法不能準確地對不同量綱評價因子賦值情況進行表征,而引入適應性較強的信息量模型則可以根據地質災害點的空間分布特征以及評價因子不同分級的區間面積來進行求解,以得到更為合理的信息量值。提取各評價因子的信息量值來構建樣本數據集不僅能夠有效消除各評價因子在量綱和性質方面的差異,還可以有效地表示出各個評價因子的分級情況。在SVM模型進行學習的過程中,其關鍵參數c、g的設定亦會對評價結果造成顯著的影響,其中,懲罰因子c決定了模型的訓練誤差和泛化能力,RBF核函數參數g影響樣本在特征空間中的分布形式。GA與傳統搜索算法的不同在于該算法并不是基于單一評估函數的梯度或較高次統計以產生一個確定性的實驗解序列,而是通過模擬自然界的進化過程來搜索全局最優解[22]。本文通過將信息量與GA結合,構建信息量融入GA優化SVM的地質災害易發性評價模型,解決了不同評價因子之間的量綱差異和SVM模型參數的賦值問題,提高了模型預測結果的精確度,最終達到提高地質災害易發性評價結果準確性、合理性的目的。信息量融入GA優化SVM模型算法流程,見圖2。

圖2 信息量融入GA優化SVM模型算法流程圖
具體的算法過程如下:
(1) 樣本數據集的構建。首先根據地質災害點的空間分布情況以及各評價因子分級情況,按照信息量模型求解得到各評價因子的信息量值;再選取同等數量的非地質災害點,將信息量值提取至樣本點上,共同構建樣本數據集;然后以70%地質災害點與相同數量的非地質災害點的信息量值作為訓練樣本數據集,剩余的30%地質災害點與相同數量的非地質災害點的信息量值作為測試樣本數據集。
(2) 信息量融入GA優化SVM模型。首先將構建的樣本數據集導入MATLAB軟件,采用GA對初始值進行編碼,計算其適應度,然后通過選擇、交叉和變異等操作直到滿足約束條件以獲取SVM中參數c、g的最優值。
(3) 地質災害易發性指數的求解。在ArcGIS軟件平臺將全區轉化為點,并將各評價因子信息量值提取至全區點集,代入訓練好的模型中進行求解。由于模型輸出的預測值是一個無標定量,為了使評價模型的輸出結果能夠作為地質災害易發性指標LSI(Landslide Susceptibility Index),需要將模型輸出結果映射到[0,1],其計算公式如下[23]:
(7)
式中:f(x)為SVM的輸出值;A、B為待定系數,由貝葉斯公式和最大似然法估計確定。
(4) 地質災害易發性分區。將模型求解得到的全區點集輸出結果代入ArcGIS軟件,按照地質災害易發性指數將點轉化為柵格,根據自然間斷法與研究區實際情況將子長市地質災害易發性劃分為極低易發區、低易發區、中易發區、高易發區和極高易發區5個等級。
(5) 精度檢驗。為凸顯信息量融入GA優化SVM模型的準確性與合理性,文中還建立了單一的信息量模型和信息量融入SVM模型對研究區地質災害易發性進行評價,并對三類模型評價結果進行比較,最后采用受試者工作特征曲線對評價結果精度進行檢驗。
子長市地質災害類型發育有崩塌和滑坡兩種,地質災害的形成是多種成災因子共同作用的結果,因此合理地選取適合于研究區的地質災害易發性評價因子對地質災害易發性評價結果至關重要。為保證評價結果的準確性與合理性,本文在野外調查工作的基礎上,結合國內外較為普遍選用的評價因子,從地形地貌、地質環境和生態環境三個方面選取了高程、坡度、坡向、巖土體類型、地質災害點密度、河流距離、道路距離、土地利用類型和年均降雨量9個地質災害易發性評價因子。
地形地貌方面主要包括高程、坡度、坡向3個評價因子,地形地貌直接影響地質災害的發生,其中坡度和高程直接影響地表松散堆積物的分布,并且隨著坡度的增大,還會使得地表水徑流明顯變化[24]。研究區地形整體呈西高東低的趨勢,綜合考慮研究尺度以及區內地貌實際情況,將高程劃分為916~1 100 m、1 100~1 200 m、1 200~1 300 m、1 300~1 400 m、1 400~1 557 m五個等級。子長市地質災害點多分布在坡度為0~40°范圍內,文中以10度間隔將坡度劃分為0~10°、10~20°、20~30°、30~40°、>40°五個等級。坡向代表著山坡不同的日照程度,其不同程度地影響著地質災害的易發性,本文基于ArcGIS坡向分析工具將坡向分為平面、北、東北、東、東南、南、西南、西、西北9種類型。
地質環境方面包括巖土體類型、災害點密度、河流距離和道路距離4個評價因子。研究區內巖土體類型可劃分為軟硬相間互層狀含煤、油頁巖碎屑巖類和軟弱層狀黏土巖類以及第四系黃土層3類,其中巖體多出露于深切河谷及強烈剝蝕后的山嶺地帶,區內第四系黃土體大面積出露,土體中的垂直節理和含水層段是其主要軟弱結構面,滑坡、崩塌的發生常與其相關。綜合考慮研究區地質災害點數量以及分級效果,基于ArcGIS對災害點進行密度分析,再將其以直線型閾值法進行歸一化處理,最后按照相等間隔將災害點密度劃分為0.0~0.2、0.2~0.4、0.4~0.6、0.6~0.8、0.8~1.0五個等級,分別表示研究區內地質災害點的分布情況。距河流的距離越近,對斜坡坡腳的沖刷、掏蝕作用愈明顯,地質災害易發性越高,在ArcGIS平臺中以河流為中心做5個等級的緩沖區分別代表不同河流距離對地質災害易發性的影響程度,河流距離劃分為0~100 m、100~300 m、300~600 m、600~1 000 m、>1 000 m五個等級。道路的修建破壞了坡體原有的穩定結構,常常誘發各類地質災害或存在較高的地質災害隱患,距道路距離越近地質災害易發性越高,本文以道路為中心向外以200 m為間隔做5個緩沖區將該道路距離劃分為0~200 m、200~400 m、400~600 m、600~800 m、>800 m五個等級。
生態環境方面包括土體利用類型和年均降雨量2個評價因子。其中土地利用類型一方面代表著不同強度的人類工程活動,另一方面也表征著不同區域的植被覆蓋情況,本文將研究區土地利用類型劃分為耕地、林地、草地、水體、建設用地和未利用地6種類別。降雨不僅能加快對坡面的沖刷侵蝕,還增加了巖土的孔隙水壓力,從而誘發崩塌、滑坡災害,子長市歷年來地質災害多發生于強降雨之后,本文選取子長市境內多個氣象站站點2010—2015年的年平均降雨量進行空間插值得到降雨量分布圖,并將其依照自然間斷法將年均降雨量劃分為489.09~514.15 mm、514.15~530.21 mm、530.21~546.28 mm、546.28~562.34 mm四個等級。
上述9個地質災害易發性評價因子及其分級結果,見圖3。

圖3 地質災害易發性評價因子及其分級
各評價因子信息量值可以有效反映出對應評價因子對地質災害易發程度的影響,同時單個評價因子不同分級下的信息量值也可對地質災害易發程度進行定量描述。通過對9個評價因子不同分級下地質災害點的空間分布情況進行統計,由公式(1)可計算得到各評價因子不同分級下的信息量值,結果見表1。

表1 各評價因子信息量值計算結果
隨機選取74處地質災害點(約占地質災害點數量的70%)與相同數量的非地質災害點的信息量值組成訓練樣本數據集,剩余31處地質災害點(約占地質災害點數量的30%)與相同數量的非地質災害點的信息量值組成測試樣本數據集。
經過選擇、交叉和變異等遺傳操作得到SVM參數c、g的最優值分別為2.168、0.468。信息量融入GA優化SVM模型的參數適應度曲線,見圖4。

圖4 信息量融入GA優化SVM模型的參數適應度曲線
由圖4可知,在進化代數為30時,信息量融入GA優化SVM模型的參數最佳適應度曲線保持不變,適應度均方根誤差約為0.06,表明在種群數量為200范圍內已達到完全收斂。
將參數c、g值代入SVM模型中對訓練樣本進行學習,并利用測試樣本數據對模型進行檢驗,得到信息量融入GA優化SVM模型的預測結果,見圖5。

圖5 信息量融入GA優化SVM模型的預測結果
由圖5可知,信息量融入GA優化SVM模型的預測效果較好,回歸系數R2達到0.8601,表明該模型的預測精度較高。
將全區轉化為點集,并將各點對應的9個評價因子的信息量值進行提取并導入訓練好的模型中,利用公式(7)對模型輸出值進行處理得到各點對應的地質災害易發性指數值,將其導入ArcGIS軟件,以信息量融入SVM易發性指數值作為分類依據,按照自然間斷法對研究區地質災害易發性進行重分類,得到子長市地質災害易發性評價區劃圖,見圖6(a)。為凸顯出信息量融入GA優化SVM模型的評價結果的合理性和適用性,本文對信息量(INF)模型和信息量融入SVM(INF-SVM)模型進行求解,得到這2種模型下的子長市地質災害易發性評價區劃圖,見圖6(b)和(c)。分別對3種評價模型下的子長市地質災害易發性評價分區情況與地質災害點分布數量進行統計,結果見表2。

圖6 3種評價模型下子長市地質災害易發性評價區劃圖

表2 3種評價模型下子長市地質災害易發性分區統計結果
由圖6可知,3種評價模型下求解得到的研究區地質災害易發性區劃圖基本一致。其中,傳統信息量模型直接對各類評價因子的信息量值進行疊加處理,評價結果的區劃效果較為明顯,區內中研究區易發區分布較廣;而支持向量機模型本質上是對地質災害點和非地質災害點的各評價因子特征進行學習,綜合考慮各評價因子與地質災害易發性的非線性關系,并基于此進行全區地質災害易發性預測,由于研究區內人類工程活動較為強烈,區域內地質災害點數量也隨之分布較多,故評價結果表現為極高、高易發區集中于研究區中部、并沿道路和河流呈現樹枝狀分布。
由表2可知,3種評價模型下求解得到的子長市地質災害點面積占比均表現為由極低易發區向極高易發區逐級遞減、地質災害點密度(地質災害點數量占比/地質災害點面積占比)由極低易發區向極高易發區基本保持逐級遞增趨勢,表明3種模型的評價結果均較為合理,其中基于信息量融入GA優化SVM模型的子長市地質災害易發性分區評價結果在極高易發區中地質災害點數量占比高于INF模型和INF-SVM模型,說明本文所建立的信息量融入GA優化SVM模型對子長市地質災害易發性分區更為合理,評價結果適用性更強。
現對信息量融入GA優化SVM模型下的子長市地質災害易發性評價結果概述如下:
(1) 地質災害極高、高易發區主要分布于研究區中南部、西部地區,面積約為312 km2,占全區總面積的12.97%,區內地質災害點數量占全區地質災害點總數的63.80%。對比本次子長市地質災害調查結果可知,該兩類分區內的人口密度相對較大,加之修建道路、鐵路等,使得該區域內地質災害發育較多,居民承災體易損性高,屬于地質災害防災減災的重點研究區域。
(2) 地質災害中易發區呈樹杈狀沿河流、道路分布,面積為371 km2,占全區總面積的15.44%,區內地質災害點數量占全區地質災害點總數的14.29%。受到河流對斜坡沖刷作用及人工切坡建房等因素的影響,該分區內地質災害通常表現為規模較大,居民承災體易損性相對較高。
(3) 地質災害低、極低易發區在全區分布最廣,兩類分區下的面積約為1 722 km2,占全區總面積的71.59%,區內地質災害點數量占全區地質災害點總數的21.90%。受土地利用類型、坡度、高程等因素的綜合影響,此兩類分區內的地質災害通常表現為規模較小,強度較低,影響范圍較小且易損性較低。
受試者工作特征(Receiver Operating Characteristic,ROC)曲線是根據一系列不同的二分類方式做出的曲線,用于反映所用分析方法的特異性與敏感性之間的相互關系,曲線下面積(Area Under Curve,AUC)可以表示模型對地質災害樣本的預測精度,AUC取值范圍為[0.5,1],其值越大表明預測精度越高。本文選取研究區內105個地質災害點和同等數量的非地質災害點對3種模型下的子長市地質災害易發性評價結果進行精度檢驗。3種評價模型的ROC曲線,見圖7。

圖7 3種評價模型的ROC曲線
由圖7可知,信息量融入GA優化SVM模型ROC曲線的AUC值最高,為0.930,其次為INF-SVM模型,INF模型最小,表明采用信息量融入GA優化SVM模型能夠客觀、準確地對子長市地質災害易發性進行分級評價,且評價結果的精度在3種評價模型中最高。
本文以子長市作為研究區,從地形地貌、地質環境、生態環境三個方面選取了高程、坡度、坡向、巖土體類型、地質災害點密度、河流距離、道路距離、土地利用類型和年均降雨量作為地質災害易發性評價因子,將傳統的信息量模型與SVM相結合,利用GA對SVM關鍵參數進行優化選取,建立了信息量融入GA優化SVM地質災害易發性評價模型,并將其運用于研究區地質災害易發性評價,同時與單一的信息量(INF)模型和信息量融入SVM(INF-SVM)模型的評價結果進行了比較,得到如下結論:
(1) 利用GA對SVM進行優化處理,得到SVM參數c、g的最優值分別為2.168、0.468、信息量融入GA優化SVM模型的適應度曲線均方根誤差為0.06,且在測試集樣本中回歸系數R2為0.860 1,表明GA優化效果較好,信息量融入GA優化SVM模型可以有效減少SVM關鍵參數值的設定對評價結果造成的影響。
(2) 研究區地質災害極高、高易發區主要分布于研究區中南部、西部,區域內地質災害受到人類工程活動的影響較大,地質災害的發生常具有較高的易損性,為地質災害防災減災工作的重點規劃區域;地質災害中易發區主要沿部分道路及支流呈樹枝狀散布,區內地質災害的發生受到自然因素影響的較多,地質災害點數量占比相對較少;地質災害低、極低易發區在整個研究區范圍內分布最廣,區域內人口相對較少,人類工程活動強度較低,地質災害的發生也相對較少。
(3) INF模型、INF-SVM模型和信息量融入GA優化SVM模型3種評價模型下得到的子長市地質災害易發性分區評價結果基本保持一致,經ROC曲線檢驗,基于信息量融入GA優化SVM模型的ROC曲線AUC值為0.930,其評價結果的精度最高,表明該評價模型的評價效果較好。
(4) 將傳統的評價模型與機器學習模型相結合能夠有效避免單一評價模型的局限性,同時利用優化算法對模型進行優化處理能夠有效解決模型參數的賦值問題。本文提出的信息量融入GA優化SVM模型在地質災害易發性評價中的研究結果經檢驗具有一定的可靠性,可為學者在同等地質環境條件下的地質災害評價工作提供一定的參考,同時也為子長市區域地質災害風險管控措施的制定提供了一定的理論基礎。