何昕宇,田文翀,張智宇,廖振良
(同濟大學環境科學與工程學院,上海 200092)
每年洪水泛濫都對人們的生命安全和社會正常運轉造成了巨大的威脅,阻礙了社會經濟的可持續發展[1]。洪水具有突發性強、頻率高、預測預防難度大、危害性強的特點[2-3]。隨著人口、經濟、城市的不斷發展對孕災環境的改變及全球變暖帶來的降水影響,洪水帶來的風險會繼續增加[4]。為了減少洪水帶來的人員傷亡和經濟損失,許多研究人員把目光聚集在了洪水的空間預測,通過預測模型來規劃洪澇風險,對脆弱區域進行管理。
洪澇災害的發生、發展過程極其復雜,洪水風險評估基于洪水的形成機制,收集地形數據和歷史洪水位置數據,對空間上的點發生洪水的可能性進行預測,繪制洪水風險圖識別出易發生洪水的敏感區域,可以為人們主動應對洪水災害預留時間,并為可持續的洪水風險管理提供有效的技術決策支撐[5-6]。根據使用的方法不同,洪水風險評估可以分為機理模型方法、知識驅動方法和數據驅動方法3類[7]。機理模型針對不同頻率的降雨過程,利用水動力學模型及洪水淹沒模型模擬推求可能的淹沒范圍,但在實際應用中存在水動力模型求解時間長數據精度要求高、洪水淹沒模型數據需求量大等[8-9]不可忽視的問題。知識驅動方法運用領域專家的理論和經驗知識選取和洪水成因有關的洪水風險的指標并對權重的定量化取值,其代表性方法有層次分析法[10-13]、網絡分析過程(ANP)[14-15]、TOPSIS(Technique for Order Preference by Similarity to Ideal Solution)[16]等,但由專家主觀判斷造成的不確定性仍未有詳細的解決和分析方法。
數據驅動方法指的是通過數據驅動模型,參考歷史洪水的位置數據和與洪水環境特征相關的數據來預測區域上發生洪災的空間概率,主要可以分為統計分析方法和機器學習方法[17]。與定性的分析方法相比,數據驅動方法可以客觀地反映影響因子和洪水已發性之間的關系,需要更少的數據并且縮短了風險評估所需時間[18]。對于研究人員來說,數據驅動方法可以從研究結果了解輸入數據的質量和所用方法的弱點,對不同研究區域做對比研究。對于風險管理者來說,數據驅動方法為風險管理措施的優先級排序和相關資源的分配提供了基礎[19]。在遙感圖像識別泛洪區域的技術不斷發展[20]以及GIS系統強大的空間分析能力[21]的驅動下,最近使用數據驅動方法進行洪水風險分析的英文文章數量不斷增加,文章的主要內容主要集中于特定模型的應用和模型之前的比較[22-23],中文文章還處于初步應用階段。面對層出不窮的新的數據驅動方法的應用,有必要對其進行較為全面的概述,為水利水務相關研究者及管理部門提供學術研究和業務應用的方法論參考。
統計分析的方法被廣泛地用于風險評估的研究當中,其優點是建模過程和所得結果易于理解并且花費時間較少,缺點是在使用之前進行了嚴格的假設,在單獨使用時具有一定的局限性[24]。統計分析方法可以分為兩大類:二元統計分析(Bivariate Statistics Analysis,BSA)和多元統計分析(Multivariate Statistics Analysis,MSA)。
1.1.1二元統計分析
在洪水風險評估研究中,二元統計分析的方法用于評價各等級評價因子對洪水發生之間的關聯性[24],二元統計分析方法可以單獨使用,也可以作為構建機器學習模型的前處理步驟,排除關聯性較弱的評價因子以保證預測模型的準確性。代表方法有頻率比(Frequency Ratio,FR)、證據權(Weight of Evidence,WofE)和信息量法[25]。
頻率比是一種實現簡單、易于理解的二元統計方法,通過計算得到的頻率比值,頻率比的值越大,洪水的發生與評價因子之間的關聯性越強,比較不同評價因子頻率比值的大小可以識別出貢獻最大的因子。Samanta等[26]使用FR模型對印度Subarnarekha河下游進行洪水風險評估,選取11個可能的評價因子進行分析,認為強降水、農業用地、較低高程和沖擊土壤類型是影響該地區洪水發生的主要影響因素。頻率比方法也被指出其缺點是忽略了變量之間有可能存在的線性關系[27]。
證據權方法已廣泛應用于洪水[15]、滑坡[28]和山火[29]風險評估研究,是一種基于貝葉斯概率模型的二元統計方法[30]。Costache等[31]選擇12個指標對羅馬尼亞Izvorul Dorului河流域洪水爆發可能性進行評估,并采用證據權法指出主要的地貌影響因素。多項研究對比了頻率比方法與證據權方法得到的權重,發現2種二元分析方法在識別主要風險因素上得到的結果有很大的相似性[32-33]。
1.1.2多元統計分析
Logistic回歸是一種常用的多元統計分析方法,其原理是基于概率論及其參數值采用最大似然估計的方法進行估計。該方法的優點是數據不需要呈正態分布,并且影響因子的數據可以是連續的或離散的,也可以是2種類型的組合[34]。Logistic回歸模型在風險評估問題中被用來確定各個因子對洪水形成的影響以及因子之間的相關性。Tehrany等[17]用FR-Logistic回歸集成模型對馬來西亞Kelantan地區進行洪水風險評估,FR模型作為二元統計分析工具獲取每個因子每級的權重,將得到的權重歸一化處理后作為Logistic回歸模型的輸入,利用Logistic回歸模型獲取每個因子和洪水事件之間的關系。曾忠平等[35]從互聯網媒體報告和公眾分享數據提取歷史洪災數據,采用Logistic回歸模型進行洪澇災害評價。
隨著機器學習理論的發展,機器學習技術與GIS空間分析技術耦合進行洪水風險評估已取得了較好的成果。與傳統的統計分析方法相比,機器學習模型能更準確地表達洪水發生與環境因子之間的非線性關系,并且不要求環境因子呈正態分布,更適合在大面積區域使用[36]。運用到洪水風險評估的主流方法有人工神經網絡(ANN)、自適應神經模糊推理系統(ANFIS)、支持向量機(SVM)和決策樹(DT)等。
1.2.1機器學習建模評估洪水風險概述
利用機器學習技術進行洪水風險評估的基本流程見圖1,可以大致分為數據準備、機器學習模型的構建、模型評估和風險圖繪制等步驟。模型的輸入數據包括歷史洪水清單地圖和洪水影響因子等。歷史洪水清單地圖記錄了歷史洪水發生的空間位置、發生日期等信息,可以取自遙感衛星影像[37]、機載激光雷達[38]、政府公報和報紙[39]等來源。為了訓練機器學習模型并評估模型的預測和泛化能力,歷史洪水點位數據集還包括與洪水事件數量相同的非洪水事件數據,其中洪水發生的數據由1表示,1的值表示存在,非洪水的位置由0表示,并按照一定的比例隨機分為訓練數據集和驗證數據集。
在數據準備過程中,選擇合適的影響因子是風險評估的關鍵步驟。造成洪水的自然、社會因素多種多樣,目前沒有統一的選擇標準,應結合當地實地考察情況和專家意見決定。機器學習方法中主要采用的影響因子可以分為以下幾類:地形因素(海拔、坡度、高程、坡度角、曲率、巖性、與河流的距離等)、氣象因素(三日內最大降雨量、風暴潮頻率等)、人為因素(與主路的距離、植被覆蓋率、排水管網密度等)[39-41]。
圖1 機器學習建模評估洪水風險流程
為了評估所用機器學習模型的精度,比較不同機器學習方法性能,常用的方法有統計參數計算、ROC曲線(Receiver Operating Characteristic)、ROC曲線下面積值(Area Under the Curve,AUC)等方法[42-43]。ROC曲線可以直觀地反映模型性能,ROC曲線是評估二分類機器學習模型性能的常用工具[23,44],以敏感性(真陽率)為橫坐標、1-準確率(假陽率)為縱坐標繪制的,ROC曲線下面積AUC是直觀反映當前機器學習模型準確度的指標,AUC的值越大,說明模型的效果越好。
1.2.2人工神經網絡
人工神經網絡(Artificial Neural Network,ANN)是模擬人類大腦神經網絡設計的一種模型,它與生物神經元類似,由多個節點(人工神經元)互相連接而成,可以用來對數據之間的復雜關系進行建模。ANN模型在水質預測[45]、河流流量預測[46]、降雨徑流模型[47]等相關領域有著廣泛的應用。
最早發明的簡單神經網絡稱為前饋神經網絡,有時也被稱為多層感知器(Multi-layer Perceptron,MLP)[48],由輸入層、隱藏層和輸出層組成,輸入層輸入的是洪水的影響因子,輸出層為洪水發生或未發生網格單元,隱藏層將輸入轉為輸出。MLP模型常使用反向傳播算法(Back Propagation,BP)調整網絡的結構,算法最開始隨機選擇神經元之間的初始權重,通過比較網絡計算輸出值與真實值之間的偏差,重新調整權重至獲得最小偏差。Costache等[49]比較了MLP模型和梯度提升樹模型在洪水空間預測上的準確性,通過分析結果指出是因為MLP模型這種不斷試錯獲取最小偏差的方法使其獲得更高的預測準確率。
深度學習起初是人工神經網絡的隱藏層從結構上向多層進行拓展,在之后的發展中逐漸衍生出卷積神經網絡(Convolutional Neural Network,CNN)、循環神經網絡等等算法,在語音識別、數字圖像處理和自然語言處理等其他科學領域有著廣泛應用[50]。以卷積神經網絡為代表的深度學習算法可以直接對圖像形式數據進行處理,提前將洪水歷史清單和影響因子圖像堆疊在一起合成一張“多通道圖像”,CNN可以直接從圖像中提取有用的信息。Wang等[51]采用一維、二維、三維3種數據表現形式結合卷積神經網絡對江西上猶縣繪制了洪水風險圖。其次,在面對大量數據集的問題時,深度學習模型占有很大的優勢,Khosravi等[52]收集了伊朗2 769場洪水的空間點位數據,采用CNN模型繪制全國范圍內的洪水風險圖,取得了較好的效果。
1.2.3自適應神經模糊推理系統
自適應神經模糊推理系統(Adaptive Neuro-Fuzzy Inference System,ANFIS)于1993年提出,是洪水風險評估中很受歡迎的一種方法,它通過將人工神經網絡和模糊邏輯相結合,提供了更高的學習能力,并且快速簡便易于實現[53]。盡管ANFIS在ANN的基礎上進行了改進,但它的缺點是無法找到最佳參數,容易陷入局部最小值[42]。針對這一缺陷,近期的研究通常采用優化算法尋找最佳參數,對ANFIS算法進行改進。Hong等[54]運用差分進化算法和遺傳算法對ANFIS模型進行改進,研究了江西橫峰縣的洪水危險性,分析發現ANFIS和差分進化算法結合得到結果更快,洪水危險性區劃結果的準確性更高。Wang等[55]使用BBO(Biogeograpgy Based Optimization)算法和ICA(Imperialistic Competitive Algotirhm)算法分別與ANFIS算法進行結合,將贛州定南縣的洪水風險區劃分為5級,研究結果顯示集成方法相較ANFIS在預測的準確度上有很大提高。
1.2.4支持向量機
支持向量機(Support Vector Machine,SVM)是基于統計學習理論開發機器學習方法,其基本思想是將原始數據集從輸入空間映射到高維甚至無限維的特征空間,使分類問題在特征空間中變得更加簡單,通過學習已發生洪災和未發生洪災2類樣本,在高維特征空間尋找最優分類超平面,將2類數據正確分開[56]。SVM算法的性能與核函數的選擇及參數取值緊密相關[57],常用的核函數有4種:線性(Linear)核函數、多項式(Polynomial)核函數、徑向基(Radial Basis Function,RBF)核函數和S型(Sigmoid)核函數,見表1。Tehery等[58]選取馬來西亞Kuala Terengganu盆地作為風險評估研究區域比較了上述4種不同核函數的支持向量機模型的預測效果,結果表明SVM-Sigmoid模型和訓練集的擬合程度最好,而SVM-RBF的預測準確率最高。
表1 常用的支持向量機核函數
支持向量機參數中的核函數參數及懲罰系數C一般使用交叉驗證的方法選取。傳統的參數估計方法耗時較長,因此Panahi等[59]采用元啟發式算法對參數搜索過程進行改進,將方法用于伊朗西北部的Qazvin平原地區,得到的區劃結果優于傳統方法。SVM模型雖然泛化能力強,缺點是很難識別出重要的變量。針對這一問題,有研究使用二元統計分析模型如FR、WoE等排除與洪水發生關聯性很小的影響因子降低模型輸入的不確定性,以求獲得更好的預測效果。Zhao等[39]認為以前的研究工作對樣本點之外的數據集利用不足,導致在高度空間異質化的城市地區使用效果不夠理想,因此提出采用半監督式模型——弱標記支持向量機對北京地區的易澇地區進行識別,與其他模型對比發現弱標記支持向量機的區劃結果展現出更多的街區和道路細節,區劃結果更加合理。支持向量機是一種適用小樣本訓練集的學習方法,在研究區域很大的情況下,訓練集的數據量增大,SVM模型訓練需要花費的時間成本會增加,可能在預測的準確率上也會下降[60]。
1.2.5決策樹
決策樹(Decision Tree,DT)是由一些內部決策節點和終端樹葉組成的樹結構機器學習模型[61],在洪水風險空間預測問題中,通常選取一定數量發生洪水的歷史事件和不發生洪水的隨機點位作為訓練樣本,按照一定的屬性選擇度量逐級遞歸分割,直到每個節點只有一種類型或記錄數低于某個閾值,從而構建起決策樹。決策樹模型的特點是簡單易于使用,離散和連續的數據均能進行處理,且輸入數據不需標準化[62];其另一特點是可以在模型訓練過程中找到對洪水是否發生產生關鍵性影響的因素,并且隨著樹自上而下移動,影響因素的重要性依次降低[17]。Wang等[63]使用決策樹的算法之一——分類回歸樹模型對江西鄱陽12個洪水風險因素進行識別,根據分類回歸樹的訓練結果,與該地區洪水發生最相關的3個地理因素分別是坡度、高程和土壤種類。
隨機森林(Random Forest,RF)是另外一個洪水風險評估常用的決策樹衍生模型,其實質是將許多決策樹合并在一起,提高了模型的預測精度,并且能處理數據量較大的訓練集。Zhao等[64]在中國大尺度范圍內進行了山區洪水風險評估,對RF、ANN、SVM算法進行了對比,結果發現RF模型表現出最佳的性能。吳小君等[65]從觸發因子、下墊面孕災環境和承災體角度選取9個評價指標識別出了江西省的山洪高發區域,隨機森林算法在研究中表現出較好的預測準確性。
對洪水風險評估中的數據驅動方法做了綜述性回顧,將其分為統計分析方法和機器學習方法,探討了不同方法下優化發展方向,比較了各種方法的優點及局限性。筆者認為以下幾個問題還需要深入解決。
a)確定評價指標之間的線性關系及其影響。洪水事件受多方面的因素的影響,根據研究區域的不同地理特征和數據的獲取情況,評價指標的選擇具有地區差異性。一個評價指標可能對特定區域的洪水具有高影響性,對另外一地區影響甚微。因此在研究中對評價指標的相對重要性作分析是很重要的步驟,主要方法有信息增益[49]、頻率比、隨機森林[66]和SWARA法[67]。值得注意的是,有文章觀察到增加指標數量有助于模型精確度的提高[64],但指標之間還會存在多重線性的關系,其線性關系對于模型精確度的影響還有待探討。
b)遙感識別技術與風險評估模型的進一步集成。遙感圖像識別模型與風險評估評估模型的集成也有待進一步擴展。洪水風險評估依賴于較高精度的數據高程模型數據(DEM),而新的衛星發射帶來了更好的傳感器,更短的返回周期,更快的圖像采集和處理,讓更高質量和更高分辨率的遙感數據變得更容易獲取[68]。已有機器學習算法如決策樹模型用于從數據中提取更準確、更大量的信息,這為洪水風險管理提供更廣闊的空間[24]。拓展遙感圖像識別的模型與洪水風險評估模型集成,將有利于快速評估災害狀況和需求,有利于災情的快速分析和管理。
c)離散化處理和尺度效應的影響。在洪水風險分析影響因子中,有土地利用類型、土壤類型等離散型數據和坡度、坡向等大量連續性數據,空間分析柵格化時需要對這些連續數據進行離散化處理。連續數據的離散化處理過程中造成的圖層信息損失以及不同尺度的柵格給預測結果帶來的影響需要進一步的分析。
d)拓展機器學習模型方法。數據驅動方法應用的更新存在以下幾個趨勢:一是不同機器學習方法聯合使用,相較于單一模型,集成模型從泛化能力、求解速度和預測準確性方面都具有顯著的優越性;二是機器學習模型和模糊系統、統計方法集成;三是機器學習模型與尋優算法集成。數據驅動方法在不斷增多,不同的研究區域和不同規模的樣本和數據集,模型的性能表現有所不同。但從現有的文章來看,還沒有哪個模型在各種研究區域都擁有絕對的優勢,更高質量的集成模型仍有待進一步探索。