茹 曼,鄭 燕,張 斌,常勤慧
河南省航空物探遙感中心,河南 鄭州 450000
青天河景區位于焦作市西北20 km 處的博愛縣境內,景區由佛耳峽、靳家嶺、月山寺等七大游覽區、308 個景點組成,是世界地質公園、國家5A 級旅游景區、國家重點風景名勝區、國家水利風景區、國家獼猴自然保護區,是素有“北方三峽”之美譽的綜合型山水休閑度假旅游地.近年來,一方面由于前期修建青天河水庫,兩岸形成高陡岸坡,另一方面隨著旅游業的快速發展及越來越多的新的景點被發現和開發,以道路建設為主的人類工程活動不斷增加.受人類工程活動及自然的雙重影響,水庫兩岸地帶、景區道路、景點附近亦存在崩塌、滑坡、泥石流隱患,嚴重威脅游人的安全.特別是2021 年“7·20”“9·30”極端氣象條件的出現,在景區內引發了崩塌、滑坡等地質災害,使景區受到了一定程度的破壞.針對地質災害的突發性與高危害性,科學評價與防災管理是減輕其損失的最佳方案,根據以往資料顯示①宋鵬飛,等.河南省博愛縣1∶5 萬地災詳查報告.河南省地質礦產勘查開發局測繪地理信息院.2015.,研究區內易發性評價存在區劃中網格較大、易發區劃分效果較差等問題,沒有對研究區易發性真實情況進行細化研究、評價.因此筆者在查明研究區雨后地質災害空間分布及孕災地質環境條件的基礎上,建立合適研究區的評價模型,實現地質災害易發性有效評價,為景區科學防災管理及保護當地社會經濟發展提供依據.
地質災害易發性評價是地質災害危險性風險性評價的基礎,主要包括查明地質災害特征、挖掘易發孕災條件、建立評價方法體系、對潛在易發區域預測,最終實現易發性高低合理分級[1-2].近年來,以統計學法和人工智能算法為代表的新技術使得地質災害易發性評價理論與技術的研究上了一個新臺階.常用的方法有:證據權法、邏輯回歸法、信息量法、隨機森林模型、支持向量機模型、神經網絡模型及組合模型等.其建立的評價模型一方面可得到更為科學且嚴謹的評價結果,另一方面能較好地解決地質災害復雜的多源性、時空性和非線性機理特征,具有廣闊的應用前景與研究價值[3-17],豐富的成果為后續的研究奠定了堅實的理論技術基礎及經驗參考.然而在上述研究中采用的地質災害樣本數量均較多,其理論方法是否適用于小樣本區域地災評價?針對地質災害數量較少的區域如何更好地開展相關評價研究等問題,部分學者也開展了相關研究.薛永安等針對小樣本情況下基于CF(確定系數法)和SVM(支持向量機)地質災害敏感性評價模型的適用性及成果的可靠性問題展開研究,結果顯示,無論單體模型還是組合模型其評價精度均較好,具有較高的適用性[18].另外,有部分研究者發現,SVM 與其他模型相比,在小樣本數據中表現良好,被認為是目前針對小樣本分類和回歸問題的最佳方法,更加適合樣本數據有限的情況[19-22].RF(隨機森林)模型其集成學習算法在小樣本數據中也展示了較好的模型預測精度[23-24].
基于上述研究現狀,本文嘗試采用SVM-RF 模型對青天河景區地質災害易發性評價進行研究,探討該模型在研究區的適用性及預測性,為青天河景區科學防災提供有價值的依據.
支持向量機(SVM)作為一種在高維空間中尋找分割超平面的算法,理論基礎比較完善,面對形成機理復雜的地質災害,能夠通過核函數進行復雜的非線性分類[25-26].在地質災害易發性評價中,災害的特殊性決定了其樣本數據有限,無法人為干預,且與各評價因子呈非線性關系.基于以上核心思想,引入SVM 可以高效地解決在災害樣本數量有限的前提下對高維數據進行非線性分類問題,故本研究選擇支持向量機二分類方法分析研究區地質災害易發性.
隨機森林(RF)是一種由多個決策樹分類器構成的集成學習算法.其基本原理為:利用自主采樣法隨機產生k 個訓練集,對k 個樣本分別建立k 個決策樹模型并形成k 個分類結果,RF 模型的輸出結果為k個決策樹中平均概率值最高的類型[27].整體工作流程見圖1.
選取青天河景區西北部為研究區,面積約26.7 km2.區內海拔最高處為970 m,最低處為300 m,相對高差670 m,地形起伏較大,區內主要發育堅硬厚層狀中等巖溶化石灰巖.研究區氣候屬暖溫帶大陸性季風氣候區,降水時空分布不均,根據博愛縣多年降雨資料,暴雨多發生于夏季(見圖2).

圖2 研究區地理位置Fig.2 Geographical location of the study area
本研究數據源主要包括以下兩個方面.
充分考慮遙感數據的時效并選用暴雨前后兩期影像作對比,分別是2021 年5 月和2021 年10 月中旬高分二號衛星遙感影像,進行地質災害及隱患遙感解譯.
通過影像的形態、色調、紋理結構等特征,采用二維與三維相結合方式對研究區開展地質災害及隱患遙感解譯判別(見圖3).經過野外實地驗證,最終確定該區域在“7·20”“9·30”暴雨后引發的地質災害及隱患點共26 處,其中滑坡18 處、崩塌7 處、泥石流1 處,大部分規模為小型(見圖4).

圖3 研究區地質災害遙感解譯標志及野外核查照片Fig.3 Remote sensing interpretation marks and field verification photographs of geological disasters in the study area

圖4 地質災害及隱患點空間分布圖Fig.4 Spatial distribution map of geological disasters and hidden danger sites
選取與研究區地質災害易發性評價相關的孕災背景因子用到的基礎數據有:1)10 m 分辨率數字高程數據(提取于1 ∶10 000 地形圖),用于獲取坡度、坡向信息;2)Sentinel-2A 影像(2021 年7 月26 日,空間分辨率為10 m),用于提取植被覆蓋度;3)博愛縣1∶5萬巖土體工程地質類型分區圖(源自博愛縣地質災害詳查報告),用于工程地質巖組分類;4)高分二號影像(2021 年10 月中旬),用于提取土地分類信息.為了保證所有因子空間一致性,首先對收集到的遙感影像數據做預處理,數據處理主要包括遙感影像的輻射校正、正射糾正、圖像配準、圖像融合、圖像增強以及遙感數據與其他地形、地質數據的幾何配準等處理;其次將部分因子柵格化至具有相同空間分辨率.
根據研究區地質災害發育的空間分布、地質環境條件并結合專家經驗,最終選取7 個地質災害易發性評價指標因子進行分析,分別為高程、坡度、坡向、巖土體、植被覆蓋度、道路距離、土地利用.其中高程、坡度、植被覆蓋度因子為連續型圖層,坡向、巖組、道路距離、土地利用因子根據研究區地質災害實際分布情況及專家經驗進行分級處理.最終所有評價指標均由ArcGIS 軟件制成專題圖(見圖5).

圖5 研究區地質災害易發性評價指標因子圖Fig.5 Evaluation index factors of geological hazard susceptibility in the study area
提取的評價特征因子可能存在異常值、數值之間的數量級不同,故做模型訓練前須對其進行處理.主要包含數據異常值處理、定性因子編碼化處理、標準化處理,處理后的因子數據集作為模型訓練輸入值.
在Scikit-learn 機器學習框架下,使用Python 語言編程,構建基于SVM-RF 地災易發性評價模型.選取7 類經過處理的特征數據作為模型訓練輸入值;訓練樣本隨機抽取20 個災害點和20 個非災害點組成訓練集,測試樣本為剩余的6 個災害點和6 個非災害點組成測試集.因研究區樣本數量較少,將SVM 四種核函數一起參與模型訓練,采取5 折交叉驗證法進行參數調優,調優后參數C、gamma 和tol 分別設為5、auto和0.0001,共生成40 個SVM 模型.RF 模型通過GirdSearch 方法網格搜索最佳參數,GirdSearch 選擇的指標參數是Acc,同樣是采取5 折交叉驗證的方法得到RF 模型的最優參數值.調優后模型決策樹的最大深度為7,決策樹的個數為45,通過選取4 種不同的模型參數種子,得到4 個RF 模型.兩種模型分別根據預測的結果概率通過加權法融合,逐格點計算地災發生的概率.
根據上述模型分別求出SVM 和RF 的致災概率分布,將兩種模型結果進行加權融合,得到最終模型預測概率,輸出為具有地理意義的TIFF 格式空間數據并在GIS 中繪制預測結果.采用準確率、F1 分數、召回率等指標對模型融合前后結果進行評估(見表1),從表1各個指標可看出,各模型的預測效果比較穩定,融合模型精度優于單個模型.

表1 模型指標評價Table 1 Index evaluation of models
4.2.1 結果分析
通過上述耦合模型得到研究區內地災易發性概率分布,并基于自然斷點法將研究區劃分為穩定區、低易發區、中易發、高易發區(見圖6).將發生的地災點與各易發區進行疊加,統計各易發區內地災點占比及地災點密度,統計結果見表2.根據研究區地質災害易發性評價結果可看出:研究區地質災害高易發區主要分布于青天河水庫兩岸、青天河村-碗窯河一帶及X030 公路沿線.其中高易發區面積占研究區總面積的11.66%,發育的災害點占總數的88.46%.其主要原因:一方面修建庫岸及景區人工棧道形成較低的高程及斜坡地形,另一方面活躍的人類工程活動形成不合理人工切坡使得地形坡度變陡.此外,該區域地層巖體主要為巖溶化石灰巖,自身的物理特性不利于邊坡穩定,且該區域林地茂密,根劈作用易破壞巖土體結構,在降雨沖刷、風化剝蝕等外力因素下易引發崩塌、滑坡等地質災害.

表2 研究區地質災害與易發性分區關聯統計表Table 2 Correlation between geological disasters and susceptibility zoning in the study area

圖6 研究區地質災害易發性分區圖Fig.6 Zoning map of geological disaster susceptibility in the study area
從表2 和圖6 中可以看出,隨著災害易發性等級的提高,地災點密集程度亦逐漸增大,在高易發區達到最大值.根據研究區以往的地災數據顯示①宋鵬飛,等.河南省博愛縣1∶5 萬地災詳查報告.河南省地質礦產勘查開發局測繪地理信息院.2015.,58%的地災點在本研究災害點調查中再次發生災害,均分布在高易發區中,說明災害在研究區有一定聚集特征,側面證明了易發性等級劃分結果與本次地災點分布規律較為一致.
4.2.2 精度分析
采用成功率曲線做定量化分析,說明SVM-RF 模型在青天河景區地質災害易發性評價中的準確性.該曲線線下面積大小反映了模型的預測準確性,越接近1 準確性越高[28-29].由圖7 可知,該模型的線下面積(AUC)為0.9224,即預測的準確率為92.24%,說明該模型整體宏觀上是可靠的.

圖7 SVM-RF 模型成功概率曲線Fig.7 Success rate curve of SVM-RF model
本文以博愛縣青天河景區西北部為研究區,通過建立SVM-RF 耦合模型對研究區進行地質災害易發性評價,對耦合模型在研究區地災易發性評價中的預測性能及適用性進行了探討,主要結論如下.
(1)基于青天河景區的地質環境條件與地質災害發育空間分布特征,選取高程、坡度、坡向、道路距離、土地利用、巖土體、植被覆蓋度等7 個地質環境因子建立研究區地災易發性評價體系.
(2)本研究一方面從對模型選取到參數調優,保證了模型訓練精度,另一方面通過模型訓練總結該研究區形成地質災害的行為模式.根據研究區地質災害易發性評價結果可看出:研究區地質災害高易發區主要分布于青天河水庫兩岸、青天河村-碗窯河一帶及X030 公路沿線.通過成功率曲線定量分析,得到SVM-RF 模型預測的準確率為92.24%;與野外調查地災數據對比,預測結果與實際情況吻合較好.顯示出在研究區內地災樣本數量少,隨機選取非地災樣本進行訓練的情況下,其評價結果能較好地刻畫模擬研究區地災易發性規律,填補青天河景區地災易發性細化研究,為青天河景區防災減災工作提供有效決策.
(3)在未來的研究中,將能夠反映災害體內部結構的指標因子納入評價體系中,進一步挖掘指標因子與地質災害蘊藏的關系.
致謝:文中地災點野外調查照片及地形數據均來源于河南省資源環境調查一院,在此表示衷心的感謝!