高 原,李英娜*
(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2.云南省計算機技術應用重點實驗室,云南 昆明 650500)
泥石流是一種以大于10 m·s-1的速度快速前行的混合物,由碎石、泥土和水組成,是一種極具破壞力的自然災害。云南省昆明市東川區的泥石流有非常久遠的歷史,經過近百年的快速發展,東川區境內現有330 條類型、規模不盡相同的泥石流溝,其中36 條對居民的生產生活造成了嚴重的影響。
國外對于泥石流災害的調查分析開展的較早,關于泥石流敏感性的研究也卓有成效。KOVACS于20 世紀80 年代使用定性評價方法對泥石流敏感性進行分析,為泥石流敏感性評價提供了思路[1-2]。與國外相比,我國對泥石流的研究起步晚,但是進步很快,唐川在20 世紀90 年代就使用數值模擬法進行泥石流敏感性評價。后來,層次分析法[3]、模糊數學法[4-5]、信息量法[6]、回歸分析[7]、頻率比法[8]以及人工神經網絡[9-10]等多種模型被應用于泥石流敏感性評價。
麻雀搜索算法(Sparrow Search Algorithm,SSA)具有收斂速度快、尋優能力強等特點,本文使用麻雀搜索算法(SSA)優化BP 神經網絡的泥石流敏感度評價方法,并對SVM,SSA-SVM,BP 神經網絡及SSA-BP 神經網絡4 種機器學習的模型進行比較分析。
東川區,東經102°48′~103°19′北緯25°47′~26°33′,隸屬于云南省昆明市,位于云南高原北部,屬川滇經向構造帶與華夏東北構造帶結合過渡部位,南北最大縱距84.6 km,東西最大橫距51.2 km。境內山高谷深,地勢陡峻,位于地震活動活躍的小江深大斷裂帶,幾乎每年都有地震發生。另外,小江是一條深切割構型河谷,并且小江周圍的山體大部分是碳酸巖類、泥質巖類和基性巖類等巖性軟弱、易于風化的巖石,為泥石流的發生提供了豐富的物源條件。東川區年平均氣溫14.9 ℃,極端最高氣溫42 ℃,極端最低氣溫-7.8 ℃,年平均降水量約為1 000.5 mm,月最大降雨量208.3 mm,日最大降雨量153.3 mm,降雨主要集中在5—9 月,期間降水量占全年降水量的88%左右,充足的降水量容易引起泥石流的爆發。東川區礦產豐富,過度的開采使東川植被破壞嚴重,生態環境急劇下降,致使坡面抗沖刷能力差,容易形成泥石流。另外,由于東川泥石流具有分布廣、發生頻率高、破壞力大以及類型齊全等特點,東川又被稱為“泥石流最佳觀測站”“泥石流天然博物館”[11]。
本文采用的主要數據源如下。
(1)遙感數據。本文采用的遙感數據為2020年5 月成像的Landsat OLI 影像,來源于地理空間數據云平臺。其中,多光譜影像分辨率為30 m,全色影像15 m,覆蓋全區。根據Landsat OLI 影像,提取了歸一化植被指數(Normalized Difference Vegetation Index,NDVI)。
(2)地形數據。采用的地形數據為ASTER GDEM,空間分辨率為30 m,來源于地理空間數據云平臺。根據ASTER GDEM 數據,本文提取了坡度、坡向及平面曲率3 個地形地貌因子。
(3)氣候數據。包括東川區及其周圍站點1998—2018 年近20 年間的逐日降雨數據,來源于中國氣象局。根據逐日降雨數據提取年平均降雨數據。
(4)地質數據。地質數據基于云南省1∶200 000 的地質圖,包括地層數據和構造分布數據,來源于全國地質資料館。
(5)居民點數據。采用1∶250 000 數據,包括居民地、普通房屋、蒙古包、放牧點等數據,來源于地理信息專業知識服務系統,用于提取居民點密度數據。
(6)道路數據。采用1∶250 000 路網數據,包含鐵路、公路數據等,來源于地理信息專業知識服務系統,用于提取路網密度數據。
(7)土地利用數據。為中科院空天院發布的2020 年土地利用分布數據,空間分辨率為30 m,包括耕地、森林、草地、灌木地、濕地、水體、苔原、人造地表、裸地、冰川和永久積雪等10 種類型,來源于地球大數據科學工程數據共享服務系統。
(8)泥石流數據。本文采用的泥石流數據中,77 條來源于中國科學院資源環境科學數據中心,175 條來源于Google Earth 高分辨率影像人工解譯,共計252 條。
昆明市東川區泥石流評價因子多種多樣,并且各個評價因子之間并不相互獨立。為了更客觀地對泥石流敏感性進行分析,根據云南地質調查局野外調查結果和東川區泥石流分布特點,選擇了10 個影響泥石流災害的因素:坡度、坡向、曲率、年降雨量、歸一化植被指數(NDVI)、地層巖性、距構造距離、土地利用、居民密度以及路網密度。同時,根據各評價因子對泥石流發生的影響分析,將這些因素劃分為不同的等級如表1 所示。

表1 評價因子及其分類
評價因子的屬性值是從30 m×30 m 網格中提取出來的,根據表1 的分類標準,生成各個評價因子的分級圖,結果如圖1(a)~圖1(j)所示。其中,圖1(a)、圖1(b)、圖1(c)分別為從DEM提取的坡度圖、坡向圖、曲率圖。圖1(d)為東川區年降雨量圖,圖1(e)是歸一化植被指數(NDVI)圖,圖1(f)為地層特征圖,圖1(g)為東川區距構造距離圖,圖1(h)、圖1(i)、圖1(j)分別為土地利用分類圖、居民密度圖以及道路密度圖。在此基礎上,建立東川區泥石流敏感性評價因子數據庫,共有2 080 635 個網格評價單元。在現有數據庫中選擇1 140 個網格單元作為訓練樣本構建訓練數據集,包括176 個泥石流災害點和964 個非災害點;760 個網格單元作為測試樣本,構建測試數據集,包括76 個泥石流災害點和684 個非災害點。利用訓練數據集訓練了用于泥石流災害敏感性分析的4 個機器學習模型(SVM,SSA-SVM,BP 神經網絡及SSA-BP 神經網絡),并利用測試數據集驗證了所構建的4 個泥石流敏感性評價模型的性能。


圖1 泥石流敏感性評價因子分級圖
XUE 等[12]在2020 年提出了麻雀搜索算法(Sparrow Search Algorithm,SSA),它是根據麻雀在尋找食物以及逃避追捕者時候的行為特征提出的。在尋找食物的過程中,一群麻雀負責尋找食物并且把食物的位置提供給族群,其余的麻雀則根據位置前往覓食。種群中的麻雀會相互識別對方的行為,并且有一部分麻雀作為爭奪者會去搶奪一些高攝入量的麻雀的食物,以提高自己的食物攝入。當然,受到搶奪的麻雀會根據搶奪者的行為做出反應。
能量儲備的水平是由尋優過程中所尋食物的豐富性所決定的。麻雀會在遇到危險的時候做出反捕食反應。在算法迭代的過程中,發現食物的麻雀位置更新如下:

式中:t為當前迭代次數,itermax為最大的迭代次數,為第i個麻雀在第j維中的位置信息,α∈(0,1]是一個隨機數;R2和ST分別表示預警值和安全值,其中,R2∈[0,1],ST∈[0.5,1];服從正態分布的隨機數為Q,L中的每一個元素都為1,是一個1×d的矩陣。當R2 跟隨者的最新位置為: 式中:目前發現者所占據的最優位置為XP,Xworst為當前全局最差的位置,A是1×d的矩陣,1 或-1是矩陣中每個元素的隨機賦值,并且A+=AT(AAT)-1,其中A+為偽逆矩陣。當i>n/2 時,表明此時的第i個跟隨者的適應度值較低,處于非常饑餓的狀態,為了獲得更多的能量,它需要去其他區域尋找食物。 麻雀種群會在意識到危險的時候進行反捕食,其數學表達式為: 式中:Xbest為當前的全局最優位置,β為步長控制參數,方差為1,服從均值為0 的正態分布的隨機數;K是一個隨機數,是步長控制參數同時還表示麻雀移動的方向,且K∈[-1,1];fi為當前麻雀個體的適應度值,fg和fw分別為當前全局最佳和最差的適應度值,ε為最小的常數。為簡單起見,當fi>fg時,此時的麻雀非常容易受到捕食者的攻擊,因為它們處于種群的邊緣位置;當fi=fg時,處于種群中間的麻雀非常容易受到捕食者的攻擊,因此它們要靠近其他麻雀來躲避風險。 反向傳播(Back Propagation,BP)神經網絡是由Rumelhart 和McCelland 帶領的科研團隊在1986年提出的[13]。BP 神經網絡具有較強的自學能力,可以對生物神經網絡和模擬神經系統結構進行模擬并傳遞信息,是一種非線性數據預測模型。 3.2.1 信號的正向傳播 設xi為BP 神經網絡隱藏層的輸入值,那么隱藏層的輸出值Hk為: 式中:n是輸入層節點的個數,ωik是隱藏層之間連接權值,αk是隱藏層閾值,g是隱藏層的激活函數。激活函數常采用sigmoid 函數,即: 3.2.2 誤差反向傳播 通過連接權值和偏置的不斷更新,誤差函數的值逐步減小。當誤差達到最小值時,權重參數是最接近最優解的[14]。運用梯度下降法來求解修正權值。這樣的影響傳遞鏈條關系,可以通過參數的傳遞分析發現,即ωkj影響輸出層輸出值,最后影響到誤差的大小。反向傳播中權值的更新公式為: 式中:ωkj是連接權值,ej是預測誤差,p是輸入層節點個數,η是學習速率。 當相鄰兩次之間的誤差值小于目標值,算法收斂,迭代結束。 圖2 為麻雀搜索算法優化BP 神經網絡流程圖(SSA-BP),麻雀搜索算法對參數的優化步驟如下。 圖2 SSA 優化BP 神經網絡流程圖 (1)確定泥石流敏感性評價模型的輸入與輸出。將東川區泥石流敏感性評價因子作為模型的輸入,東川區泥石流發生的概率作為模型的輸出。劃分訓練集與測試集。 (2)對麻雀搜索算法中的種群規模、最大迭代次數以及BP 神經網絡的權值和閾值進行初始化。 (3)使用交叉驗證對訓練樣本進行分類,每個麻雀的適應度值為交叉驗證的準確率,將最優的適應度值和麻雀的位置保留下來。 (4)以預警值的大小作為依據,根據式(1)對發現者的位置進行更新。 (5)根據式(2)對跟隨者的位置進行更新。 (6)按照式(3)對覺察到危險的麻雀的位置進行更新,在種群中心的麻雀隨機靠近其他麻雀,而外圍的麻雀會向安全區域靠攏。 (7)計算每個麻雀最新位置的適應度值,將所得適應度值與之前的最優值進行比較,然后更新全局最優信息。 (8)判斷是否達到最大迭代次數,如果不滿足,則從步驟(3)開始繼續重復上述步驟,反之則結束流程,輸出最優參數,將測試集作為BP 神經網絡模型的輸入,并輸出結果。 將東川區2 080 635 個網格中各個評價因子的值輸入到SVM,SSA-SVM,BP,SSA-BP 這4 個機器學習模型中,得到每個網格發生泥石流的概率。由于泥石流發生的概率為0~1,故將泥石流敏感性分為五個等級:極低、低、中、高和極高,并通過ArcGIS 軟件生成東川區泥石流敏感性圖。為了能直觀地看出泥石流災害點落在各個敏感性區域的情況,將地質災害點標記在敏感圖中,如圖3(a)~圖3(d)所示。由圖可以看出,極高以及高敏感性區域主要分布在小江干流、大白河、中廠河流域,由于河流附近本身就容易發生泥石流災害,并且距離人類活動區域并不遠,會受到人類工程地質活動影響,因此這些區域具有較大概率發生泥石流災害。 圖3 不同模型生成的敏感性圖 滑坡點所占各敏感性等級的百分比如表2所示。從表2 可以看出,在SVM,SSA-SVM,BP,SSA-BP機器學習模型所輸出的泥石流敏感性圖中,災害點在極高敏感性區域中的占比分別為0.108 3%,0.183 9%,0.159 3%,0.203 5%,這說明在極高敏感性區域內,模型的精度由高到低為SSA-BP,SSA-SVM,BP,SVM。通過表2 還可以看出,災害點在極低敏感性區域中的占比分別為0.001 3%,0.000 7%,0.000 9%,0.000 5%,這說明在極低敏感性區域內,模型的精度由高到低依然為SSA-BP,SSA-SVM,BP,SVM。 表2 滑坡點所占各敏感性等級的百分比 受試者工作特征曲線(Receiver Operator Characteristic Curve,ROC)是評價模型精準度的常用方法[15-16]。ROC 曲線以敏感度(真陽性率)為縱坐標,代表東川區真實發生泥石流的概率;以特異度(假陽性率)為橫坐標,代表東川區不真實發生泥石流的概率。AUC 表示ROC 曲線下的面積,主要用于衡量模型的泛化性能,即分類效果的好壞。ROC 曲線越靠近左上角,其曲線下面積越大,表示模型精度越高[17]。 圖4 為東川區泥石流敏感性評價結果ROC 圖。由圖可以看出,各個機器學習模型的ROC 曲線很接近左上角,SVM,SSA-SVM,BP,SSA-BP 的AUC值分別為0.820,0.843,0.826,0.859。由此可見這四種模型精度較高,所得的東川區泥石流敏感性圖結果可靠。 圖4 東川區泥石流敏感性評價結果ROC 圖 本文以東川區泥石流災害發生概率為研究對象,為了提高泥石流預測模型準確度,采用GIS 與RS 技術提取了10 個評價因子,并通過4 個機器學習模型進行預測,最終生成東川區泥石流敏感性圖。結合東川區實際情況與各位學者對泥石流預測的研究,本文采用GIS 與RS 技術提取了坡度、坡向、曲率、年降雨量、歸一化植被指數(NDVI)、地層巖性、距構造距離、土地利用、居民密度和路網密度這10 個泥石流評價因子,實驗效果良好。與傳統SVM與BP 神經網絡相比,通過SSA 優化的SVM 與BP神經網絡在預測精度方面有所提升,SVM,SSASVM,BP 神經網絡以及SSA-BP 神經網絡4 種模型的預測成功率可以達到0.820,0.843,0.826,0.859。綜合來看,SSA-BP 神經網絡模型表現最為優異。根據252 條泥石流數據,經驗證所生成的泥石流敏感性圖具有較高的可信度。該敏感性圖對于相關部門在城鄉規劃、道路規劃、防災減災方面具有實際指導意義,具有一定的社會經濟價值。

3.2 BP 神經網絡



3.3 麻雀搜索算法優化BP 神經網絡

4 敏感性分析與精度評價
4.1 敏感性分析


4.2 精度評價

5 結語