凈文常,李孝攀,楊家鳴
(1.中鐵第一勘察設計院集團有限公司,西安 710043; 2.中南大學土木工程學院,長沙 410075)
昌都林芝區域位于青藏高原東南部,地貌形態受青藏高原地貌隆升的影響,總體地勢西高東低。地勢急劇隆升抬起,河流快速強烈下切,為典型的“V”形高山峽谷地貌,地貌形態以丘狀高原及構造侵蝕形成的深切峽谷地貌為其總體特征。該區域自東向西可劃分為橫斷山高山峽谷區及藏南高山峽谷區兩個地貌單元,伯舒拉嶺作為兩個地貌單元的分界,也作為為昌都市和林芝市的分界,更是三江(金沙江、瀾滄江、怒江)流域和雅魯藏布流域的分水嶺。昌都林芝區域滑坡災害分布廣泛且尤為突出,在該區域內開展工程建設有較大的工程風險。因此,查明該區域的滑坡分布規律及其易發屬性,對擬建工程的建、管、養工作具有重要作用。
對滑坡進行風險評價和管理作為國際上積極倡導和推廣的有效減災途徑。總體而言,其流程一般包括滑坡區域確定、易發性分析、危害分析和風險計算4個逐步遞進的步驟。其中,滑坡易發性分析是風險評價和管理的基礎和核心環節,即通過獲取滑坡分布數據,確定其分布規律,分析滑坡災害因子與滑坡發生的關系,從而定性或定量分析出現有或潛在的滑坡空間分布和發生概率。滑坡易發性評價有利于風險分析及預防管理,對減少滑坡災害損失至關重要。
滑坡易發性評價是依托區域空間信息及地理資料,對滑坡特性(發生概率等)的定性或定量評估,最早起源于1970年[1]。現階段,滑坡易發性方面研究一般采用啟發式分析及概率性統計兩類方法。其中,啟發式分析主要指以專家主觀經驗為基礎,依托研究區域的歷史數據,分析給出區域的滑坡災害特征,層次分析法[2]等是其中的典型方法;而概率性統計則是利用概率學模型,基于區域的地理特征及災點分布概況,預測區域各部分的滑坡發生概率,Logistic回歸[3]等表現出色。概率性統計方法由于評價準則客觀科學,且能較好處理線性及非線性問題,其結果精度和可靠度往往優于啟發式分析方法。然而,對于高維空間的復雜問題,概率性統計方法不可避免地存在欠擬合,預測準確度不高。目前,由于計算機性能的日益強大,支持向量機[4]、BP神經網絡[5]等機器學習模型開始用于滑坡易發性分析,其依托有監督的反饋訓練機制,能使構建的模型逐步契合實際情形,以保證模型精度高于傳統的概率性統計方法。其中,深度信念網絡(DBN)[6]等深度學習模型,以其更深層次、更為復雜的架構深入分析滑坡誘發規律,在滑坡易發性評估中通常取得精度更高的結果。
對此,本研究將基于昌都林芝區域的地理屬性及空間信息,建立DBN網絡架構,結合區域內的滑坡災害分布情況,獲取該區域內各單元的滑坡易發性,評判昌都林芝區域的滑坡風險,為該區域的工程建設提供一定的理論指導,為滑坡災害風險規避及土地綜合利用提供一定的理論支持。
昌都林芝區域位于西藏東南區域,其間主要的交通道路有G318、G317和G214,昌都市卡若區、察雅縣、八宿縣、洛隆縣,林芝市波密縣和巴宜區兩市六區縣人口占據了昌都市和林芝市總人口的50%,正在大規模開展基礎設施建設,滑坡災害對改區域的影響更大,因此選擇此兩市六區縣作為研究區域,研究區域如圖1所示。

圖1 昌都林芝區域(兩市六區縣)
從地形地貌方面分析,昌都林芝區域受青藏高原地貌隆升作用,總體地勢呈現西高東低,為典型“V”形地貌,并表現出丘狀高原及深切峽谷特征;在地質方面,昌都林芝區域構造極其發育,褶皺斷裂密集分布,并以深大活動斷裂為主控,其中共有3個一級構造,分別為岡底斯—念青唐古拉地塊、班公湖—怒江縫合帶、羌塘地塊,以及5個二級構造,如喜馬拉雅地塊等。此外,昌都至林芝區域地層巖性十分復雜,地層時代從震旦系至新生界均有分布,并伴隨多種復雜不良地質,其中以高位遠程滑坡較為典型;在水文方面,昌都至林芝區域的地表水系主要涉及瀾滄江、怒江、雅魯藏布江三大河流,而地下水系則以第四系孔隙潛水、基巖裂隙水、構造裂隙水和巖溶水為主;在氣候上,昌都林芝區域以伯舒拉嶺為界線,東部為高原亞溫帶亞濕潤氣候區(昌都地區),西部為高原溫帶濕潤半濕潤季風氣候區(林芝地區)。
考慮到建立機器學習模型往往需要區域內的滑坡分布數據,本研究選定昌都林芝區域兩市六區縣的面狀領域作為范圍界定。基于此利用GIS平臺實現紙質圖件數字化,并從中國科學院資源環境科學與數據中心、國家地球系統科學數據中心及MAPGIS開源數據庫等獲取有關數據進行補充,整合形成了該范圍內的滑坡信息數據集,共有324個滑坡點,具體分布概況如圖2所示。

圖2 昌都林芝區域的滑坡分布概況
通常情況下,滑坡災害的發生是多重因素相互作用的綜合產物,而這些與滑坡災害具有顯著聯系的因素便是致災因子。有研究[6]指出,致災因子選取的合理性往往對滑坡易發性的評價結果至關重要。對此,本研究依托前人的研究成果[7],并結合昌都林芝區域地勢極高及活動斷裂特征明顯等自然特性,從地形地貌、地質特征、水文環境、人類活動4個方面分析滑坡發生機制,選取了高程[8](圖3)、坡度[9](圖4)、坡向[10](圖5)、地形起伏度[11](圖6)、巖性[12](圖7)、距斷裂帶距離[13](圖8)、植被覆蓋度[14](圖9)、降雨量[15](圖10)、距水系距離[16](圖11)、距道路距離[17](圖12)10個致災因子,其具體表述如表1所示。

表1 昌都林芝區域的滑坡致災因子數據說明

圖3 昌都林芝區域高程分布

圖4 昌都林芝區域坡度分布

圖5 昌都林芝區域坡向分布

圖7 昌都林芝區域巖性分布

圖8 昌都林芝區域距離斷裂帶距離分布

圖9 昌都林芝區域植被覆蓋度分布

圖10 昌都林芝區域降雨量分布

圖11 昌都林芝區域距離水系距離分布

圖12 昌都林芝區域距離道路距離分布
為有效評估昌都林芝區域的滑坡易發性,需基于區域的水文分布情況及地理特征,對區域進行單元劃分,而后利用訓練好的模型進行逐一分析,以進行各區劃單元的易發屬性提取。對此,本研究具體可以分成3步。一是數據整理,主要為準備模型訓練、模型驗證及模型預測數據集,為相應的模型建立及區劃分析提供數據支持;二是滑坡易發性評價,主要是基于昌都林芝區域內的滑坡歷史分布,利用性能較好的DBN深入分析區域內的滑坡誘發機制,而后將區域單元輸入模型,提取昌都林芝區域的滑坡概率特征。同時,本研究還依托SVM、BP、Logistic回歸獲取區域的滑坡發生概率,為后續模型性能比對予以支撐;三是模型性能評估,具體為利用區劃數據統計結果及ROC曲線,驗證基于DBN評估結果的科學性及合理性。
在建立滑坡易發性評價模型前,需要對災點數據集、區域致災因子數據集進行整理,并將其分成模型訓練、模型驗證、模型預測數據集,以更好地支持后續的滑坡易發性區劃與評估。
一般而言,依托機器學習模型進行滑坡易發性評估時,各分類樣本的比例接近1∶1,模型性能達到最優。對此,本研究主要采集了線路區域內324個滑坡點,相應地需要獲取324個非滑坡點。于此,本研究利用GIS平臺的生成隨機點工具,在區域內任意生成了324個樣本點作為非滑坡點。而后,本研究將324個滑坡點及非滑坡點整合,提取了共648個點的高程、坡度、坡向等10個致災因子數據,形成了災點數據集。為了保證模型訓練性能及避免出現過擬合,本研究將災點數據集按7∶3分成兩部分,分別作為模型訓練、模型驗證數據集。
考慮到昌都林芝區域內各部分地理特征差異明顯,本研究將基于區域屬性進行區域單元劃分,予以昌都林芝區域的滑坡易發性提取有力支撐。目前,區域單元主要有柵格單元、斜坡單元、地貌單元、行政單元和唯一條件單元五種[18]。其中,斜坡單元充分考慮了地形分割的邊坡情況,與實際地貌的切合程度較高,對區域屬性的準確獲取十分有利[19]。對此,本研究對區域進行斜坡單元劃分,具體為設定河流閾值為1 000,將區域劃分成224 102個斜坡單元。隨后,本研究提取了這224 102個斜坡單元的高程、坡度、坡向等致災因子信息,整合成模型預測數據集。
考慮到DBN的性能優越,本研究主要依托DBN分析滑坡易發性,并引入SVM、BP、Logistic回歸作為對比模型,以驗證DBN的性能。其中,DBN、SVM、BP及Logistic模型的具體闡述如下。
2.2.1 DBN深度信念網絡
深度信念網絡是一種深度學習的生成模型,由Geoffrey Hinton在2006年提出。它是由多個受限玻爾茲曼機(Restricted Boltzmann machine,RBM)堆疊而成,并在最后一層建立BP全連接層進行預測及回歸,實現了無監督和有監督的交叉整合。其中,RBM作為模型先導部分,可對輸入數據進行無監督預訓練,依托貪婪算法深入剖析數據間隱藏特征,并將其輸出作為后續BP層的輸入;而BP層則可進行維度裁剪,將高維特征降低到預期的維度空間內,同時利用Sigmoid激活函數進行數據收縮,保證輸出數據的值域可控。因此,DBN可有效處理數據分類問題,有利于精準實現滑坡易發性的提取。
為保證模型的精度,本研究進行了多次調參,最終設置了隱藏單元數為100、50、20的三層RBM結構,用于數據預分析,并將BP層的輸入節點數設為10,代表10個滑坡影響因子,輸出節點數設為1,代表區域斜坡單元的滑坡發生概率。其中,BP層的優化器為Adam,損失函數為Mean squared error(MSE),迭代次數為3 000次,學習率為0.001,訓練批次為100。
2.2.2 比對模型
(1)SVM
SVM是一種有監督的機器學習算法,其基礎源于Corinna Cortes和Vapnik于1995年提出的軟邊距非線性SVM理論。SVM的本質思想是結構風險最小原則,基本原理是數據的維度映射,具體是通過將低維度空間內混雜的、不可劃分的數據投影到高維度空間內,并在相應的高維度空間內尋找最優分類超平面,以實現數據的正確分類。
需要注意的是,SVM中的數據投影核函數對模型精度的影響十分顯著。在本研究中,將核函數設定為Radial basis function (RBF),以更好展示致災因子與滑坡災害間的非線性關系,并將懲罰系數設定為0.05,用于有效防止模型過擬合。
(2)BP
BP神經網絡結合了誤差反向傳播算法的人工網絡模型,由Rumelhart和McClelland于1986年提出。該模型的核心原理是模擬人類大腦的神經元結構,以建立推理模型,其本質仍屬于非線性動力學系統,具有較強的非線性函數逼近能力,并表現出自適應、高容錯、學習能力強的特性。典型的BP網絡結構有輸入、隱藏、輸出三層,其通過正向傳遞和逆向反饋機制進行迭代訓練,以提高模型精度。
在依托BP評價滑坡易發性時,本研究主要基于多層感知器(MLP)進行模型構建。其中,本研究將輸入層設為10,對應10個致災因子,隱藏層設為10,輸出層設為1,并將輸出層的激活函數設為“Sigmoid”,用于輸出概率。
(3)Logistic回歸
Logistic回歸[20]是一種多元統計方法,其本質是依托多個自變量和1個因變量間的數據特征,建立多對一的回歸關系。該模型可以根據建立的函數關系和輸入的自變量求解任一研究領域任一事件的發生概率,并具有變量約束不強的優點。其具體的計算公式如下

(1)
式中,β0為常數項;βi為xi的邏輯回歸系數;ρ為概率。
一般而言,Logistic回歸并不需要過多的參數設置。于此,本研究在利用Logistic回歸模型評價滑坡易發性時,僅將懲罰系數設定為0.1,用于防止模型訓練的過擬合情形。
在實現滑坡易發性評價后,本研究將從2個方面去評估模型性能。一是對DBN等4個模型的區劃結果進行統計,獲取各易發性等級內的滑坡數量、區域面積及滑坡點密度,分析比對模型的預測情況;二是引入ROC曲線以輔助評估。ROC曲線,是基于真假陽性率繪制的一種坐標圖式分析工具,用以反映變量的特異、敏感性及模型精度。通常情況下,ROC的曲線下方面積值(AUC)處于[0,1]之間,且AUC越大,模型精度越高。一般而言,模型的AUC值達到0.9,可認為建立模型的性能十分出色。于此,本研究將利用AUC值評價模型的預測性能。
依托上述流程可知,本研究首先利用DBN、SVM、BP、Logistic回歸獲取了區域內224 102個斜坡單元的滑坡概率,而后需要對其進行滑坡易發性等級劃分。目前,滑坡易發性區劃的方法以自然間斷點法為主,其基本原理是對分類間隔進行深入識別,以保證同一類別間的差異最小,不同類別間的差異最大。自然間斷點法可以有效提取數據分隔節點,使得數據的分類效果顯著。然而,自然間斷點法不可避免地存在隨機性,如滑坡發生概率相同的區域在不同條件下(不同區域、不同模型)可能會被歸為不同的滑坡易發性等級,這導致了模型的相互比較缺乏依據。對此,本研究引入了戴福初等[21]的研究成果,將各斜坡單元分成極低(<0.1)、低(0.1~0.3)、中(0.3~0.5)、高(0.5~0.75)、極高(>0.75)5個級別,制定了區域滑坡易發性區劃圖(圖13~圖16)。這種方法的好處在于給出了十分明確的數據劃分節點,保證了區域滑坡易發性等級評估的唯一性,同時為不同模型區劃性能間的比較提供了有力支撐。最后,為了展示模型區劃結果的差異性,本研究還統計了圖層內各級別的滑坡數量、區域面積及滑坡密度(表2)。

圖14 基于Logistic回歸的區域易發性評價

圖15 基于BP的區域易發性評價

圖16 基于DBN的區域易發性評價

表2 基于SVM、BP、Logistic及DBN的區劃結果統計
根據圖表數據顯示,DBN、SVM、BP、Logistic回歸的區劃結果存在一定的相似性,這是因為模型的區劃結果均表明,滑坡高易發區域呈帶狀貫穿整個線路所經地區,其形狀高度契合區域內的河流走向及國道分布,而滑坡低易發區域則呈塊狀分布于高易發區域附近;其次,Logistic回歸的區劃結果并未包含極高滑坡易發性區域,這說明Logistic回歸的區劃結果不盡合理,而由DBN、SVM、BP的區劃結果可知,滑坡點密度與各滑坡易發性等級基本呈正向關系,展示了區劃結果的科學性;最后,從圖17中的滑坡歷史災點在各易發性等級中的占比分布數據看,在基于DBN的區劃結果中,位于極低、低區域的滑坡總比例為20.370%,優于SVM的21.605%,略差于BP的18.519%,而DBN的極高、高區域滑坡占比達67.593%,遠大于SVM的59.259%和BP的56.173%,這展示了DBN的區劃結果更契合于實際滑坡分布。此外,在滑坡密集分布地帶,DBN的區劃結果均為極高易發性區域,這揭示了DBN的數據挖掘能力更好。

圖17 各易發性等級中的滑坡占比
為了評估SVM、BP、Logistic回歸、DBN的預測性能,本研究繪制了這4個模型的ROC曲線圖,并獲取了其曲線下面積AUC值(圖18)。

圖18 SVM、BP、Logistic回歸及DBN的ROC曲線
由圖18可知,4個模型的AUC值均在0.85以上,表明它們的預測性能均較好。而在這4個模型中,以DBN的表現最為出色,其AUC值為0.90,優于SVN的0.88、BP的0.88和Logistic的0.87。
依托DBN的區域滑坡易發性評價結果,昌都林芝區域滑坡發生概率較大,其極高、高滑坡易發性區域的占比達67.593%。其中,極高滑坡易發性區域高度契合于河流及道路走向,在河流、道路網密集處,往往更傾向于發生滑坡,如伯舒拉嶺附近的三江匯流地帶及214國道、317國道的交界處等。因此,在河流及道路附近區域建設工程時,需要注意滑坡防治和風險轉移,尤其是河流網及道路網密度較高的區域。
(1)選定了昌都林芝區域的滑坡災害致災因子。以昌都林芝兩市六區縣為研究對象,從地形地貌、地質特征、水文環境、人類活動四方面確定了昌都林芝區域滑坡致災因子體系,并利用區域324個滑坡歷史災點及各因子數據集構建了基于DBN的滑坡易發性評價模型。
(2)驗證了深度信念網絡的精度。針對昌都林芝區域,ROC曲線的精度評估表明DBN的滑坡易發性預測性能較好,優于SVM、BP及Logistic回歸。此外,DBN具有較好的可移植性,其仍能有效用于評估相似區域的滑坡易發性。
(3)利用二維領域內表現出色的DBN評價了昌都林芝區域的滑坡易發性。研究結果顯示,昌都林芝區域滑坡極高易發性區域分布集中,主要分布于河流和道路兩側,在后續開展工程建設時應適當遠離河流和道路。