郗 婕,傅 微
(北京建筑大學 建筑與城市規劃學院, 北京 100044)
0 引言
全球每年有約7.5~8.2億hm2的土地遭遇焚毀。近年來,美國、澳大利亞、俄羅斯和法國等國家均發生大規模的森林火災,2022年夏季,歐洲27個國家已有約66萬hm2森林焚毀。在法國、丹麥和西班牙,2022年夏季火災規模是過去15 a平均水平的6倍以上[1]。俄羅斯西伯利亞地區的火災事件數量從 2007 年的 733 起增加到 2019 年的 2400 起,同期受火災影響的總面積從不到3萬hm2增加到 2億hm2[2]。我國是世界上森林火災最嚴重的國家之一,森林火災的損失已位于我國森林的四大自然災害之首[3-4]。森林火災的發生,造成了巨大的經濟損失,給人民財產帶來危害,林區的房屋、農作物等常常受到森林火災的威脅。同時,森林火災對區域生態平衡,人類活動也產生了很大的影響。森林火災嚴重威脅人民健康和生態安全,釋放大量有害氣體,影響區域空氣質量[5]。火災對生物多樣性有重要影響,直接危及動植物、土壤甚至于微生物[6]。因此,必須制定適當的應急計劃和應對措施。此外,迫切需要具有指導意義的規劃工作來系統地減少森林火災風險以保護林區[7]。森林火災的頻繁發生推動林火預測的更快發展,林火預測工作需要更為明確劃分最不穩定和火災風險最高的地區。
森林火災的發生和蔓延與氣候條件、立地條件、可燃物類型和社會活動等因素有關[8],作為受氣候變化影響反應最快的指標之一[9],其發生造成全球性的環境污染,越來越受到各國政府的重視。森林對維持陸地生態系統平衡起著重要的支撐作用。減少森林火災的發生、減少林火損失,是一項十分緊迫的任務[10]。從近些年國內外所發生的特大森林火災統計資料來看,大都是由于缺乏早期的預測、大范圍監測等措施。隨著經濟的發展、科技水平的提高,世界各國日益重視對林火預測技術的研究和應用,高效的預測是緩解這一環境威脅的關鍵[11]。
自20世紀60年代,北美洲等地域先后將遙感(remote sensing, RS)和地理信息系統(geographic information system, GIS)用于自然災害制圖,并取得了巨大進展,RS在信息獲取上具有實時性強、覆蓋范圍廣和數據客觀可靠的優點,GIS具有較強的空間分析和信息集成等優勢[12],幫助確定與災害相關的風險區域,如山體滑坡[13]、雪崩[14]和洪澇災害[15],對災害風險的地區展開詳細的分析和深入的調查。我國遙感與地理信息系統技術應用于區域的林火監測中。監測工作有利于減少火災的發生和減少火災造成的損失,在森林防災工作中具有重要作用。經過幾十年的研究發展,目前3S技術已被廣泛地應用于森林防火工作中,其應用技術日益成熟[16-17],但呈現出“監測多、預測少”的應用不匹配。預測采用的方法大致分為基于專家、統計學和機器學習(machine learning, ML)的方法[18]。基于專家的預測法通過流體力學、熱傳遞機制和冠層燃燒的概率數學方程來預測森林火災,該預測方法需要詳細的數據,因此僅限于小尺度區域,不適用于較大的區域。如八達嶺林場油松林冠層可燃物特征及潛在火行為[19]。統計預測技術用于森林火災風險分區,包括邏輯回歸、泊松回歸,蒙特卡洛分布和皮爾遜分布,如貝葉斯模型[20]。火災點空間大數據的監測積累,有助于機器學習的預測準確性。近年來,基于機器學習的火災預測研究逐漸涌現,如火點大數據深度學習[21]、粒子群優化的神經模糊模型[22]、人工神經網絡[23]、隨機森林[24]和邏輯斯蒂回歸[25]。測試機器學習模型性能,如人工神經網絡、支持向量機、隨機森林和梯度提升決策樹性能,發現各個機器學習模型的性能在預測研究中有所差異[26],針對多種機器學習模型的準確性對比評價在林火預測的這一領域仍有很大的發展空間,為進一步選擇優化模型提供參考。
森林火災災害風險制圖將3S技術與預測方法融合,促使火災災害風險制圖過程自動化[27]。根據引發火災的原因和空間發生模式來確定火災危險區,識別具有相似環境特征的地區,從而預測出火災高風險區[28]。我國研究可燃物分類與區域劃分[29]較多,地形、土地條件、植被、氣象和人類活動等多方面地理空間因子對林火發生的綜合影響少有研究,這些因素是影響林火發生及模型預測精度的主要驅動因子,且已有基于統計分析的研究證明補充了地理加權后的空間回歸模型能更好地預測林火的發生[30]。
因此,本研究以重慶嘉陵江流域為研究區域,基于GIS疊加地理空間因子與火災分布點獲得數據集,引發火災的地理空間因子包含高程、坡度、坡向、平面曲率、地形位置指數、地形濕度指數、土地覆蓋、歸一化植被差異指數、潛在蒸散發、干旱指數、風速、相對濕度、年均氣溫、年均降雨、距離河流、道路以及建成區的距離。提取用于機器學習的火災點和非火災點所對應的地理空間因子的值,形成數據集,構建機器學習模型,人工神經網絡、支持向量機、隨機森林和梯度提升決策樹,測試模型性能,最終選擇最優模型進行森林火災災害風險評價與制圖。
嘉陵江是長江上游左岸的主要支流,研究區位于重慶境內嘉陵江流域,該段全長約152 km。嘉陵江進入重慶境內,在合川區有渠江、涪江匯入,繼續流經北碚區、沙坪壩區、渝北區、江北區和渝中區,在渝中區朝天門匯入長江。流域地勢北、西、東較高,向東南傾斜,河道走向順著地勢從西北流向東南。重慶有“山城”之稱,嘉陵江流域所在的重慶西部低山與丘陵谷地有序排列,是地質特征明顯的褶皺山地川東平行嶺谷,形成了“重慶嘉陵江小三峽”景觀,國家級自然保護區縉云山坐落其中。重慶市年平均氣溫16~18 ℃,夏季炎熱,7月平均氣溫35 ℃ 以上,極端氣溫最高43 ℃,年平均降水量較豐富,大部分地區在1000~1350 mm,重慶市年平均相對濕度多在70%~80%,在中國屬高濕區,氣候溫和,屬亞熱帶季風性濕潤氣候。
1.2.1 林火數據
火災數據來源是VIIRS 375 m熱異常/主動火災產品提供,來自 NASA/NOAA Suomi NPP和 NOAA-20 聯合衛星上的 VIIRS 傳感器的數據。從NASA 的資源管理系統火災信息(fire information for resource management system, FIRMS)獲取2018—2022年的火災點數據集,如圖1所示,包含地理坐標、發生火災程度、發生火災時間等重要信息。

圖1 研究區2018—2022年森林火災火點分布圖Fig.1 Distribution of forest fire sites in the study area from 2018 to 2022
1.2.2 因子數據
理解林火的空間格局應綜合考慮地形、植被、土壤、氣候和人類活動對林火的影響[31]。研究采用18個地理空間因子作為火災預測的環境因變量(X),如圖2所示,是否發生火災為預測目標變量(y)。

地形因子是影響火災發生的一大因素。其中海拔對溫度、降雨量、濕度和風有直接影響,對植被和燃料濕度有間接影響。火勢會在更陡峭的斜坡上蔓延得更快,即坡度越大,火勢蔓延速度越快。朝南的表面往往會受到更多的陽光照射,從而會產生更高的溫度、更大的風和更低的濕度水平。曲率代表了地形的形態,反映坡度變化,影響火勢蔓延。地面上某點的地形位置指數的值等于該點高程值與該點鄰域內其他點的高程平均值之差。它反映的是一個點與鄰域其他點在地形上的相對位置關系。通常用于地形的形態分類,如山脊山谷、上中下坡位以及平坡等。并已用于使用 GIS 根據其地形對區域進行分類。地形濕度指數指單位等高線長度集水面積,已被納入研究水文條件對地區火災發生的影響。
土壤質地影響著森林火災的發生,同時森林火災的發生也對區域土壤產生一定的影響,因此被考慮在內。土地及其周圍環境的土地覆蓋與導致林火發生的可燃物類型息息相關,土地覆蓋也是引發林火的因素之一。作為植被健康狀況指標的歸一化植被指數(normalized difference vegetation index, NDVI)也被納入研究。氣候因素對區域林火發生影響巨大,年溫度、年降雨量、風速、干旱指數、相對濕度和潛在蒸散量等因素也被納入研究[4]。與河流的距離遠近影響著森林植被的健康,被考慮用于預測森林火災。人為因素與林火發生密切相關,本研究已將與道路和建成區的距離包括在內。
通過地理空間數據云獲取30 m 精度的數字高程模型圖像,推導出坡度、坡向、高程、平面曲率、地形濕度指數和地形位置指數的圖像數據集。通過美國地質調查局(United States Geological Survey, USGS)獲取土地覆蓋數據。通過NASA LANDSAT8獲取反射波段數據,處理獲得歸一化植被差異指數。通過國家地理系統科學數據中心獲得1 km 精度的土壤質地、潛在蒸散發、干旱指數、風速、相對濕度、年均氣溫和年均降雨數據。通過數字高程模型處理獲得河網圖像,從開源地圖獲得道路圖像,從FIRMS獲取建成區信息,基于GIS對這三者進行以1 km 為遞增數據的多環緩沖區處理,得到距這三者距離的圖像信息。火災點數據來源于FIRMS網站,通過GIS處理火災研究區火災點分布圖,等量的非火災點使用 GIS 的點采樣完成。森林火災相關因子信息如表1所示,最終應用于機器學習的數據包含1308個點及其所對應的環境條件因子數據,其中近5 a研究區范圍內有654個火災點。

表1 研究區域內森林火災相關因子來源、精度與原始數據格式Table 1 Research on the source, accuracy and original data format of forest fire factors in the study area
機器學習方法在預測系統的發展中做出了重大貢獻,提供了增強的性能和有效的結果。機器學習方法的持續進步使其適用于各種自然災害預測,并在一定程度上超越了傳統方法。ML獨立于專家知識,完全取決于庫存數據。
使用4種ML方法進行火災風險評估,包含隨機森林、支持向量機、人工神經網絡和梯度提升決策樹。多層感知機(multilayer perceptron, MLP)是人工神經網絡(artificial neural network, ANN)的一種類型,是一種可用于處理具有多個節點和多個輸出點的實際問題的網絡結構。支持向量機(support vector machines, SVM)對做出標記的2組向量,使得2組離超平面最近向量到此超平面距離都盡可能遠。隨機森林(random forests, RF)采用重抽樣方法和決策樹算法相結合,通過建立多個決策樹合并進行分類和預測[32]。梯度提升決策樹(gradient boosting decision tree,GBDT)由梯度下降、boosting、分類和回歸樹(classification and regression tree, CART)構成。運用Anaconda Navigator平臺Jupyter Notebook進行模型構建。
將近5 a火災分布總圖火災點與等量隨機非火災點數據集分成8(訓練模型)∶2(測試模型),經歷過火災的點被描述為屬于具有值“1”的類標簽,非森林火災位置屬于具有值“0”的類標簽。然后將數據集以8∶2的比例拆分,分別用于訓練和測試模型。后續將火災數據與研究區空間地理特征,氣象特點,人類活動所涉及到的條件因子相結合,進一步分析因子與火災高風險區域的關聯,即分別獲得所有火災點和等量非火災點對應條件因子的值(X),同時新增一列(y)為火災發生情況,發生“1”或不發生“0”,利用Python進行數據預處理,最后進行機器學習模型的訓練與測試。經過測試得到性能最好的模型用以進行災害風險制圖,在GIS中利用點采樣的方法隨機繪制研究區范圍內6 000個點,提取這些點對應條件因子的值(X),通過性能最好的模型對所有點的y值進行預測,得到數值后通過 GIS 中的反距離加權插值對風險指數進行插值來完成森林火災災害風險制圖。
2.2.1 混淆矩陣
混淆矩陣是一種特殊的矩陣用來呈現算法性能的可視化效果,通常用于有監督的學習,混淆矩陣是二分類模型中一個十分重要的概念,各類指標都是在此之上衍生而來。它衡量的是模型預測情況和真實情況之間的差異,具體表示如下:二分類模型中,樣本標簽本身有好壞之分;模型預測之后,可通過設定閾值將樣本劃分為好壞。因此,模型預測和實際情況構成二維矩陣如表2所示。
真正例(true positive, TP)表示當模型預測為正類,并且該預測是正確的,實際發生火災的點被正確分類為發生火災點;真反例(true negative, TN)表示當模型預測為負類,并且該預測是正確的,實際未發生火災的點被正確分類為非火災點;假正例(false positive, FP)表示當模型預測為正類,但該預測是錯誤的,實際未發生火災的點被錯誤分類為發生火災的點;假反例(false negative, FN)表示當模型預測為負類,但該預測是錯誤的,實際發生火災的點被錯誤分類為未發生火災的點[33],如表2所示。

表2 混淆矩陣Table 2 Confusion matrix
2.2.2 受試者工作曲線
受試者工作曲線(receiver operating characteristic, ROC)是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率為縱坐標,假陽性率為橫坐標繪制的曲線[34]。真陽性率(true positive rate, TPR)表示真實值為陽性的樣本中預測為陽性的,假陽性率(false positive rate, FPR)真實值為陰性的樣本中預測陽性的樣本占比,表達式為
TPR=TP/P=TP/(TP+FN)
(1)
FPR=FP/N=FP/(FP+TN)
(2)
ROC曲線下面積(area under curve, AUC)為ROC曲線所覆蓋的區域面積,完全隨機的二分類器的AUC為0.5。
機器學習模型主要通過混淆矩陣來進行測試,混淆矩陣結果如圖3所示。GBDT模型真正例率為97.79%,即模型對森林火點正確分類的概率,假正例率為2.52%,即模型對森林火點分類錯誤的概率。混淆矩陣結果表明GBDT與RF這2個模型預測表現優于MLP與SVM。


圖3 4種機器學習模型混淆矩陣對比Fig.3 Comparison of confusion matrix of 4 machine learning models
對各個機器學習模型進行評價,選取性能最好的模型進行森林火災風險評價與制圖。比較梯度提升決策(GBDT)、多層感知器(MLP)、隨機森林 (RF)、支持向量機 (SVM)、決策樹 (DT) 的性能,結果如表3所示。

表3 4種機器學習模型性能對比Table 3 Performance comparison of 4 machine learning models %
在測試數據集上提出的模型的ROC 曲線如圖4所示。橫軸即假陽性率,該值越小越好;縱軸為真陽性率,該值越大越好。即TPR越高,同時FPR越低,即ROC曲線越陡,模型的性能越好。AUC面積越大,更靠近左上角的曲線代表二分類器更穩定,分類效果更好[35]。
由圖4和表4可知,GBDT模型優于RF、MLP和SVM等模型,同時4個機器學習模型平均準確率達到92.8%,平均AUC值達到 95.0%。GBDT模型的準確性為95.0%,AUC值為98.3%,被用于構建該區域的森林火災災害風險制圖。

圖4 4種機器學習模型ROC曲線與AUC值對比Fig.4 Comparison of ROC curves and AUC values of four machine learning models表4 梯度提升決策樹參數與準確率Table 4 Gradient boosting decision tree parameters and accuracy梯度提升決策樹參數最優值決策樹數量2000學習速率0.1最大樹深6分割所需最小樣本數2測試集準確率0.950

通過使用所提出的模型計算研究區域內隨機分布的 6 000 個點的風險指數并使用 GIS 中的反距離加權插值對風險指數進行插值來完成,如圖5所示。根據風險范圍將這些區域分為五類,分別為風險指數非常低[0,0.078)、低[0.078,0.234)、中等[0.234,0.441)、高[0.441,0.675)和非常高[0.675,1)。由圖可知,4%的區域非常容易受到火災的影響,其范圍為[0.675,1];5%的區域風險較高,其范圍為[0.441,0.675);中度風險區面積8%,其范圍為[0.234,0.441);低風險區域面積為 17%,其范圍為[0.078,0.234);發現該地區66% 的區域受到火災的影響非常低,其范圍為[0,0.078)。

圖5 基于GBDT模型的森林火災災害風險制圖Fig.5 Forest fire risk map derived from the GBDT model
研究區域內北碚縉云山火災風險極高,北碚區極高風險區域面積最大,其次是江北和合川區,銅梁高風險區域面積最小。北碚區處于平行嶺谷地帶,地形復雜,山體坡度坡向變化大,植被覆蓋非常高。合川區也是火災風險較高的區域,其植被覆蓋相對較少,農業用地面積較大,該區火災風險高的地塊多分布于道路和建成區臨近。森林火災災害風險區域的劃定將有助于政府災害管理,以期針對森林火災高風險的地區制定相應減少火災發生的應對措施。
對比四類機器學習模型,基于GIS應用性能最優模型GBDT所得預測結果完成重慶地區內嘉陵江流域森林火災災害風險制圖。所得結論如下:
1)對GBDT、RF、MLP、SVM模型通過混淆矩陣與ROC曲線進行性能評估,4個模型表現均較好的同時存在一定差異,其中梯度提升決策樹(GBDT)模型優于隨機森林(RF)、多層感知機(MLP)和支持向量機(SVM)等模型。
2)GBDT模型用于森林火災災害風險制圖,研究區所處平行嶺谷區域森林火災風險最高,其中縉云山極高風險區域面積最大,引發森林火災的主要原因是可燃物自燃。
由于條件因子數據來源不同,精度也有一定差異。機器學習的方法研究地理空間因子與森林火災發生的關系,主要采用數據歸一化來進行數據預處理,該過程對最終模型訓練結果有很大影響。所用模型可以進一步優化,采取不同的數據預處理方式與模型進化優化方法,嘗試獲得更高的性能,使模型能更好地對研究區森林火災發生概率進行預測。使用ROC曲線評估每個ML方法的性能的準確性,MLP和SVM的準確性較低,這表明這些方法不適合研究區火災災害風險制圖。但是,在其他領域這些方法可能具有更高的準確度,具體取決于條件因子和訓練數據集。
森林火災已成為全球頻繁發生的災害,所造成的生命財產損失、生態系統破壞的影響持續擴大。森林火災災害風險制圖是應急土地管理、森林火災預防,通過即時響應減輕火災影響和恢復管理的重要組成部分,本文分析得出流域尺度火災高風險區域,可以基于該圖的高風險區域進一步進行局部小流域范圍的制圖,識別出高風險小流域的空間位置。 深入分析地理空間因子對火災的具體影響以增加其積極效益,減少有害影響。從研究結果可以推測北碚縉云山森林火災的主要成因是植被地形因素,應采取減少森林可燃物,合理疏伐,依據現有條件及火災風險預測結果建設隔離帶等措施。對于合川區應盡量減少人為因素的影響,沿道路布局火災監測系統,加強火災管理與宣傳,激發公眾護林防火的意識。
可控的火災有維持生物多樣性和關鍵生態系統服務的基礎作用,森林火災與文化、環境和社會經濟都是相互作用的,規劃管理需要更協調的方法和完整的框架來進行風險管理和景觀規劃,將視角從僅僅減少可燃物轉到因地制宜地應用本土智慧實現與森林火災的可持續共存。本文基于流域尺度研究森林火災災害風險,研究區預測監測工作可以流域為單位推進,提高火災高風險區域濕地連通性,提高濕地活力,改善濕地生態環境。在火災高風險區域建設國家公園自然保護地,加強跨行業領域的工作協同體系建設,整合技術資源,推進以流域為單元的國土綜合整治與生態修復。除了森林火災之外,該方法還可以擴展到其他自然災害問題,例如根據歷史遙感數據預測該地區發生洪澇、山體滑坡等現象的可能性;將對全球其他山城避災規劃起到借鑒作用,引導規劃降低森林火災風險,從而保護林區,維護生態平衡。