關鍵詞:洪水易發性;機器學習模型;采樣方法;逆頻率比;伊河流域中圖分類號:P954;TV882.1 文獻標志碼:A doi:10.3969/j.issn.1000-1379.2025.08.016引用格式:,,.基于逆頻率比采樣方法的洪水易發性評價[J].人民黃河,2025,47(8):96-101,108.
Assessment of Flood Susceptibility Based on Inverse Frequency Ratio Sampling Method
SUN Jiahui1,LIU Gengyuan2, ZHAO Xueqiang2 (1.Henan Bureau Group Co., Ltd. of China Chemical Geology,Zhengzhou 45Ooo0, China; 2.China Water Resources Pearl River Planning Surveying amp; Designing Co., Ltd., Guangzhou , China)
Abstract:Idertomprovethuacyoffloodsusptibityodeling,tissudpropsedofdpntsampligmethodalld inversefrequencyratiosampling.Tismethodacountedforspatialdependenceinselectingon-flodpointsamples.TakingtheYieRier BasininCinaasaneample,wefistcomparedtheinversefrequencyatiosamplingmetodwithtotraditioalsmplingmethods(andom samplingandtratifedsampling).Ten,thesemethodswereapliedintofoodsusceptibiltymodelingusingmacineleangmodelscludingRandomForest(RF)andMulti-LayerPereptron(MP)Teresusinicatetata)tespatialdistributioofon-floodpointsgeratedbytheinversefrequencyratioamplingmethodisferentfrothatgeneratedbyandomandstraifdsamplingexhbiingaivese gradientwithelevation.b)Teaccuracyofmachineleaingmodelsbasedonthinversefrequencyatiosamplingmethodisalhgherthan thatof stratifedsamplingandrandomsampling.FortheRFmodel,theAUCvaluesformodelsbiltbyusing inversefrquencyratiampling,stratifiedsamplingandrandomsamplingare0.97,O.94and0.90espectively.FortheMLPmodel,thevaluesareO.90,0.87and 0.86respectivelyTeproposedo-fodointsampligtodasimprovdteacuracyofloodsusceptiblitymodelingasdoachin learning to a certain extent.
KeyWords:flood susceptibility;machine learning models;sampling method;inverse frequency ratio;Yihe River Basin
0 引言
洪水是世界上最常見和最具災難性的自然災害之一,給全球各地造成嚴重的生命與財產損失[1-2],如何減少洪水造成的損失是一個重要的研究課題。洪水易發性被定義為在多因素影響下發生洪水的可能性,洪水易發性圖是一種有用的工具,可以幫助管理者判斷即將發生洪水的高易發地區,間接減少洪水造成的損失[3]。因此,洪水易發性建模已成為當前研究的熱點之一。
根據是否依賴訓練數據,洪水易發性評估方法可分為知識驅動和數據驅動兩大類。知識驅動方法利用專家的知識來識別洪水發生與影響因素之間的關系,并據此構建洪水易發性預測模型,進行預測和繪圖,例如層次分析法[4]。這類方法的優點在于其結果的可解釋性。然而,專家知識的主觀性可能導致評估結果的差異。此外,不同專家知識的異質性如何整合也是一大挑戰,因此知識驅動方法的發展面臨一定的限制[5]。數據驅動方法依賴訓練數據及其相關的影響因素來揭示洪水發生的規律,從而構建定量預測模型數據驅動方法以機器學習模型為核心,涵蓋了分類回歸樹、人工神經網絡、貝葉斯網絡、支持向量機、隨機森林等多種算法。最近,深度學習模型(卷積神經網絡等)也開始被廣泛應用于洪水易發性建模[6。這些方法通過挖掘大數據中的隱藏信息,能夠更全面地反映復雜的非線性關系,從而提高洪水易發性預測的準確性。
然而,以上這些模型的精度在很大程度上依賴樣本點的質量。在洪水易發性預測研究中,非洪水點的選擇是影響樣本質量的一個關鍵因素[7]。當前大部分研究采用隨機采樣方法來選取非洪水點,但鑒于地理環境因素的空間依賴性,洪水點與非洪水點的空間分布并非隨機的。因此,在洪水點密度較高的地區,選擇較少的非洪水點顯得尤為重要。隨機選擇的非洪水點往往不能有效反映這種空間維度的影響[8]。部分研究嘗試基于高程、地形等因素進行非洪水點的選擇,例如在高海拔地區或極端環境(沙漠、冰原等)中選取非洪水點[9],但這種方法使得非淹沒條件更為苛刻,其預測結果在一定程度上高估了洪水易發性。
根據地理第一定律,洪水的致災因子在空間上具有依賴性,洪水的發生呈現明顯的空間依賴性[0],因此本研究考慮空間依賴性提出一種基于洪水頻率比的采樣方法,稱為逆頻率比采樣法。基于逆頻率比采樣法,指定區域內生成的非洪水點密度,其與洪水點密度成反比關系;進一步,將新的采樣方法與隨機采樣和分層采樣兩種常用的方法進行比較,并將其分別應用于兩種典型的機器學習模型中,以測試3種采樣方法對機器學習模型性能的影響;最后對6種應用條件下生成的洪水易發性圖進行詳細評估。
1 研究方法
1.1 逆頻率比采樣
地理第一定律指出地理目標變量的屬性值在空間上是相關的,并且距離較近的位置比相距較遠的位置具有更多的屬性相似性[]。對于洪水而言,其聚集性已在一些研究中得以證實[12-14]。頻率比法作為一種統計方法被用于描述洪水發生的密集程度,能夠在一定程度上反映這種聚集性。基于地理第一定律與洪水聚集性,本研究提出一種基于特定假設的非洪水點采樣策略,即在洪水事件密度較低的地區,非洪水點的密度較高;相反,在洪水事件密度較高的地區,非洪水點的密度則較低。因此,非洪水點的密度與各分區的歷史洪水點密度成反比關系。
以高程分區為基礎,分區 i 中非洪水點逆頻率比OFRi 計算公式如下:
式中: Nf(i) 和 Nf 分別為分區 i 中洪水點數量和研究區洪水點總數量, Si 和 s 分別為分區 i 的面積與研究區總面積。
分區 i 中非洪水點樣本數量計算公式如下:
式中: Nnf(i) 為分區 i 中生成的非洪水點數量。
本研究在整個研究區域內選取了數量與洪水點相等的非洪水點柵格(128個),以便進行機器學習模型訓練與評估。同時,隨機采樣法和分層采樣法[8]這兩種最常見的采樣方法被用來與逆頻率比采樣法進行對比。
1.2 機器學習模型
1.2.1 隨機森林
隨機森林(RF)由Breiman(2001年)提出,是解決多分類問題和預測問題常用的算法之一,已廣泛應用于洪水易發性建模[15]。隨機森林對多重共線性不敏感,并且在處理數據缺失和類別不平衡的情況下能夠保持較高的穩定性。隨機森林的主要步驟包括:1)對原始數據集進行bootstrap重采樣,生成多個數據子集;2)利用這些子集分別構建決策樹;3)匯總所有決策樹的預測或分類結果,產生最終的輸出。隨機森林的性能主要取決于決策樹的數量(Ntree)和每個子集中的候選特征數(mtry)。Ntree過大可能會導致模型訓練時間延長,而Ntree過小則可能增大預測誤差。根據試錯法,Ntree設置為100,樹的最大深度設置為10。
1.2.2 多層感知機
多層感知機(MLP)是經典的人工神經網絡算法之一。根據Ngo等[16]的研究,與其他神經網絡方法相比,MLP具有較小的結構尺寸和較高的穩定性。此外,MLP的一個顯著優點是其訓練過程不依賴預設的假設,也無需事先確定輸人變量的相對重要性[17]。作為一種前饋神經網絡,MLP通過在訓練數據集上應用反向傳播的監督學習算法來生成輸出。結構上,MLP包含3個主要部分:輸入層、隱藏層和輸出層。其中,輸入層處理與洪水相關的條件因子,輸出層用于區分洪水和非洪水網格單元,而隱藏層則負責將輸入數據轉換為輸出[18]。根據試錯法,隱藏層數設置為12,激活函數為relu,最大迭代次數為300。
1.3 精度評價
精確率(Precision)、召回率(Recall)準確度(Ac-curacy)和F1分數等精度指標已廣泛用于洪水易發性評估,具體計算公式如下:
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)
F1=2×(Precision×Recall)/(Precision+Re
式中: TP (真陽性)和TN(真陰性)為被正確分類的網 格單元數量,FP(假陽性)和FN(假陰性)為不正確分 類的網格單元數量
除此之外,ROC曲線常用來評價模型的分類性能[18]。ROC 曲線越接近左上角,ROC 曲線下面積(AUC)越大,即AUC 值越大,模型精度越高[19]
2 研究區與數據來源
2.1 研究區概況
伊河流域(北緯 33°39′-34°41′ ,東經 111°19′ 1112°54′ )位于河南省中部地區。伊河自西南向東北方向延伸(見圖1),全長約 268km ,年均徑流量約為3.68億 m3 ,流域面積約為 6 100km2 。該流域屬于溫帶大陸性季風氣候區,夏季炎熱多雨,冬季干冷少雨,年平均氣溫約為 13°C ,年降水量為 800mm 左右。
圖1伊河流域洪水點分布
2.2 數據來源
本研究使用的洪水清單來源于全國山洪調查評價項目。伊河流域包括128個洪水點,其中 70% 用于構建機器學習模型, 30% 用于驗證模型的預測能力。
基于洪水形成機理,在前人研究[20-2I]的基礎上,從致災因子和孕災環境兩個角度選擇12個洪水影響因子(見圖2),包括:最大3d降水量(M3DP)、高程(Elevation)、坡度(Slope)坡向(Aspect)、地形濕度指數(TWI)、河流功率指數(SPI)、坡長因子(L)、與河流距離(DR)、地形起伏度(TU)、平面曲率(PLC)、剖面曲率(PRC)、土地利用類型(Landuse)。數字高程模型(DEM)來源于ASTERGDEM數據集(http://gdem.ersdac.jspacesystems.or.jp)。基于DEM數據生成坡度、坡向、地形濕度指數、河流功率指數、坡長因子、與河流距離、地形起伏度、平面曲率、剖面曲率專題圖。最大3d 降水量由 Global Precipitation MeasurementMission(GPM)計算得出,該數據庫記錄了全球日降水量,空間分辨率為 0.1° 。土地覆蓋數據來源于武漢大學開發的中國土地覆蓋數據集(CLCD,https://zenodo.org/records/4417810),空間分辨率為30 m[22] 。
圖2洪水影響因子空間分布
Fig.2Spatial Distribution of Flood Conditioning Factors
3 結果分析
3.1 因子相關性分析
圖3顯示了12個洪水影響因子之間的皮爾遜相關系數。由圖3可見,高程與地形起伏度呈現最強的正相關性,相關系數達0.80,其次是高程與最大3d降水量,相關系數為0.78。
最強負相關性出現在地形起伏度與地形濕度指數之間,相關系數為-0.54,其次是與河流距離與地形濕度指數,相關系數為-0.51。所有因子之間的相關系數處于 -0.54~0.80 之間,其絕對值未超過0.8,表明12個洪水影響因子之間相互獨立,可全部用于模型構建。
圖3皮爾遜相關系數矩陣
Fig.3 Pearson Correlation Coefficient Matrix
3.2非洪水點采樣結果對比
基于隨機采樣法、分層采樣法以及逆頻率比采樣法3種采樣方法生成的非洪水點(分別稱為隨機采樣點、分層采樣點和逆頻率比采樣點)空間分布如圖4所示,不同高程分區內非洪水點數量統計見表1。
圖4基于3種采樣方法生成的非洪水點空間分布
表1基于3種采樣方法的各高程分區內非洪水點數量 Tab.1 Number of Non-Flood PointsforElevation Zones Based on Three SamplingMethods
由圖4可以看出,應用不同采樣方法所生成的非洪水點空間分布具有一定差異。隨機采樣點和分層采樣點的分布格局相似,均勻分散于整個研究區。但分層采樣點數量與高程分區面積呈現嚴格的梯度關系,在高程分區1至分區5中,分層采樣點數由36遞減至12,而隨機采樣點數量未表現出明顯規律(見表1)。逆頻率比采樣點與前兩者采樣點的空間分布差異顯著,主要分布于研究區的西南部,其地勢較高,是流域的上游部分;其數量與高程分區呈現反向梯度關系,隨著高程的上升,逆頻率比采樣點增多,因此高程分區4和5中的采樣點數量顯著大于分區1~3的。
3.3 基于不同采樣方法的精度對比
將洪水點分別與3種采樣方法生成的非洪水點合并,結合洪水影響因子數據庫構建本研究的訓練和驗證數據集,分別用于機器學習模型的訓練與驗證。隨機森林(RF)與多層感知機(MLP)模型的驗證ROC曲線與AUC值如圖5所示,4個精度評價指標見表2。
由圖5可知,基于3種采樣方法的RF模型與MLP模型皆具有較高的預測精度,其AUC值均大于0.8。基于逆頻率比采樣法的機器學習模型精度皆高于分層采樣與隨機采樣。對于RF模型而言,逆頻率比采樣法的AUC值最高為0.97,其次為分層采樣法( AUC= 0.94)和隨機采樣法( AUC=0.90 );對于MLP模型而言,逆頻率比采樣法依然具有最大的AUC值(0.90),隨機采樣法具有最小的AUC值(0.86)。除此之外,4個精度指標顯示了與AUC相同的結果,即基于逆頻率比采樣法的機器學習模型的精度指標最高,其次是分層采樣法,最低的是隨機采樣法。以RF模型的總體精度(OA)為例,逆頻率比采樣法的OA為0.92,大于分層采樣法的0.87和隨機采樣法的0.86。對于MLP模型,逆頻率比采樣法的0A為0.83,大于分層采樣法的0.77和隨機采樣法的0.76。值得一提的是,即便使用同一采樣方法,RF與MLP兩者的精度亦具有明顯差異。總而言之,逆頻率比采樣法能夠提升RF和MLP機器學習模型的預測精度。
圖53種采樣方法下機器學習模型ROC曲線及AUC值Fig.5 ROC Curves and AUC Values of Machine LearningModelsUnder Three SamplingMethods
表2不同采樣方法下機器學習模型精度對比
Tab.2Accuracy Comparison of Machine Learning Model
3.4 洪水易發性評價
基于3種采樣方法的RF與MLP模型預測的洪水易發性空間分布如圖6所示。由圖6可以看出,機器學習模型在不同采樣方法下預測的洪水易發性分布格局相似,總體上呈現出東北高、西南低的分布特征,但存在細節差異。具體而言,對于RF模型,基于隨機采樣法和分層采樣法預測的洪水易發性各等級面積占比相近,而基于逆頻率比采樣法所得易發性面積占比與之有明顯差異。主要表現在基于逆頻率比采樣法預測的高(占比 19.18% )、極高(占比 14.58% )易發性面積顯著大于分層采樣法預測的高(占比 11.30% )、極高(占比 6.09% )和隨機采樣法預測的高(占比 12.33% )、極高(占比 6.22% )。對于MLP模型而言,不同采樣方法所預測的洪水易發性差異規律與RF模型類似。基于逆頻率比采樣法預測的高(占比 26.83% )和極高(占比 10.83% )易發性面積同樣顯著大于分層采樣法(高占比 19.23% ,極高占比 8.71% )和隨機采樣法(高占比16.99% ,極高占比 8.65% )。由此可見,基于逆頻率比采樣法預測的洪水易發性對高和極高易發性等級的識別更加敏感。
圖6洪水易發性空間分布及各等級面積占比
Fig.6Spatial Distribution of Flood Susceptibility and Area Percentage of Each Class
4結論
本研究提出逆頻率比采樣法生成未知的非洪水點位置,用于提升基于機器學習的洪水易發性預測精度。與分層采樣和隨機采樣兩種常用的采樣方法相比,基于逆頻率比采樣法生成的非洪水點空間分布格局具有顯著差異。基于逆頻率比采樣法生成的非洪水點數量隨高程的提高而增多,高程分區4和5中的數量顯著大于高程分區1~3中的數量,反映了洼地易澇的自然特征。而基于分層采樣和隨機采樣法生成的非洪水點數量與分區面積呈顯著正相關關系。將3種采樣方法生成的非洪水點用于機器學習建模,精度評價結果顯示,對于隨機森林模型而言,逆頻率比采樣法的AUC值最大,為0.97,其次為分層采樣法( AUC=0.94 和隨機采樣法( AUC=0.90 );對于多層感知機而言,逆頻率比采樣法依然具有最大的AUC值(0.90),隨機采樣法具有最小的AUC值(0.86)。除此之外,對于兩個機器學習模型,逆頻率比采樣法皆具有更大的OA、Precision、Recall和F1分數值,反映了逆頻率比采樣法對機器學習模型建模精度提升的有效性。
參考文獻:
[1] 高牧寒,秦昆,王妮滿,等.基于GIS的鄉鎮級洪澇水淹風 險研究[J].自然災害學報,2024,33(1):63-73.
[2] WANGY,HONGHY,CHENW,etal.AHybridGISMulti-Criteria Decision-Making Method for Flood Susceptibility Mapping at Shangyou,China[J].Remote Sensing,2O18(1) :62.
[3] SAHA TK,PAL S,TALUKDAR S,et al.How Far Spatial Resolution Affects the Ensemble Machine Learning Based FloodSusceptibility Prediction in Data Sparse Region[J]. Journal of Environmental Management,2O21:113344.
[4]CHEN JL,HUANG G R,CHEN W J.Towards Better Flood Risk Management: Assessing Flood Risk and Investigating the Potential Mechanism Based on Machine Learning Models [J].Journal of Environmental Management,2O21:112810.
[5]LI Y T,HONG H Y.Modelling Flood Susceptibility Based on Deep Learning Coupling with Ensemble Learning Models[J]. Journal of Environmental Management,2022(Pt A) :116450.
[6]WANG Y,FANG Z C,HONG HY,et al.Flood Susceptibility Mapping Using Convolutional Neural Network Frameworks [J].Journal of Hydrology,202O:124482.
[7]LI X N,YAN D H,WANG K,et al.Flood Risk Assessment of Global Watersheds Basedon Multiple Machine Learning Models[J].Water,2019,11(8) :1654.
[8]WANG C P,LIN Y C,TAO Z W,et al.An Inverse-Occurrence Sampling Approach for Urban Flood Susceptibility Mapping [J].Remote Sensing,2023,15(22)) :5384.
[9]ALI S A,PARVIN F,PHAM Q B,et al.GIS-Based Comparative Assessment of Flood Susceptibility Mapping Using HybridMulti-Criteria Decision-Making Approach,Naive Bayes Tree,Bivariate Statistics and Logistic Regression: A Case of Topla Basin,Slovakia[J].Ecological Indicators,, 2020,117:106620.
[10]LU M,YU Z H,HUA J,et al.Spatial Dependence of Floods Shaped by Extreme Rainfall Under the Influence of Urbanization[J].Science of the Total Environment,2022 (1) :159134.
[11]ZHU A X,LU G N,LIU J,et al.Spatial Prediction Based on Third Law of Geography[J].Annals of GIS,2018,24(4) : 225-240.
[12]CHERQUI F,BELMEZITI A,GRANGER D,et al.Assessing Urban Potential Flooding Risk and Identifying Effective Risk-Reduction Measures[J].Science of the Total Environment,2015,514:418-425.
[13]HUANG H B,CHEN X,ZHU Z Q,et al.The Changing Pattern of Urban Flooding in Guangzhou,China[J].Science of the Total Environment,2018,622:394-401.
[14]管箏,印涌強,張曉祥,等.基于K-means聚類與集成學 習算法的小流域山洪災害易發性評估[J].應用科學學 報,2024,42(3):388-404.
[15]LEE S,KIM JC,JUNG H S,et al.Spatial Prediction of Flood Susceptibility Using Random-Forest and Boosted-Tree Models in Seoul Metropolitan City,Korea[J].Geomatics Natural Hazards amp; Risk,2017,8(2):1185-1203.
[16]NGO P T T,HOANG N D,PRADHAN B,et al.A Novel Hybrid Swarm Optimized Multilayer Neural Network for Spatial Prediction of Flash Floodsin Tropical AreasUsing Sentinel-1 SAR Imagery and Geospatial Data[J].Sensors,
2018,18(11) :3704.
[17] PHAMBT,BUIDT,PRAKASHI,etal.Hybrid Integration ofMultilayer Perceptron Neural Networks and Machine Learning Ensembles forLandslide SusceptibilityAssessment atHimalayan Area(India)Using GIS[J].Catena,2017,
149:52-63.
[18] WANG Y,FANG Z C,HONG HY,et al.Flood Susceptibility Mapping by Integrating Frequency Ratio and Index of Entropy withMultilayer Perceptron and Classification and Regression Tree[J].Journal of Environmental Management,2021, 289:112449.
[19] PHAMB T,LUU C,PHONG T V,et al.Can Deep Learning AlgorithmsOutperform Benchmark MachineLearningAlgorithmsin Flood Susceptibility Modeling?[J].Journalof Hydrology,2020(prepublish) :125615.
[20] 熊俊楠,李進,程維明,等.西南地區山洪災害時空分布特征 及其影響因素[J].地理學報,2019,74(7):1374-1391.
[21] 熊俊楠,曹依帆,程維明,等.福建省山洪災害危險性評 價[J].山地學報,2019,37(4):538-550.
[22] YANGJ,HUANGX.The 30m Annual Land Cover Dataset andIts Dynamicsin China from 199O to 2019[J].Earth System ScienceData,2021,13(8):3907-3925.
【責任編輯 許立新】