



摘要:本文通過整合氣象數據、地理信息、人口經濟等多源異構數據,構建了一套基于機器學習的火災預測與風險評估模型。本文采用XGBoost、Light GBM等多種算法進行對比實驗,結果表明XGBoost算法在預測準確率上表現最優,達到91.30%。通過特征重要性分析發現,日照時間、氣溫、GDP等因素是影響火災發生的關鍵驅動因子。基于預測結果,利用GIS技術繪制了區域火險等級分布圖,為火災防控提供了數據支撐。
關鍵詞:大數據分析;火災預測;火災風險評估;XGBoost算法
引言
火災預防與控制一直是公共安全領域的重要課題。隨著大數據、人工智能技術的發展,基于數據驅動的火災預測模型展現出巨大潛力。傳統的火災預測方法主要依賴單一數據源和簡單的統計分析,難以充分刻畫火災發生的復雜機制。而融合多源異構數據的機器學習方法,能夠更好地捕捉各類影響因素之間的非線性關系,提高預測精度。因此,構建準確可靠的火災預測模型,對于指導消防部門科學部署防控資源、降低火災風險具有重要意義。
1. 數據獲取與預處理
1.1 數據來源
本文以廣東省會城市主城區為研究范圍,收集了多源異構數據,主要面向城市火災預測建模需求,時間跨度為2001~2017年。該城市作為典型的大型城市,具有建筑密集、人口聚集、功能復雜等特征,具有較好的代表性。火災事故數據來自消防救援部門的火災事故數據庫,記錄了火災發生的時空位置、火災類型、燃燒物質等屬性[1]。氣象數據采集自中國國家氣象數據網,涵蓋日均溫度、濕度、風速、降水量等影響城市火災發生的關鍵氣象要素[2]。建筑數據源自城市規劃部門,包括建筑密度、建筑年代、建筑類型、建筑高度等屬性信息[3]。用地性質數據來自土地利用現狀圖,用于表征不同功能區的空間分布[4]。社會經濟數據包括1km網格的GDP、人口密度、流動人口等統計指標,反映區域人類活動強度[5]。基礎設施數據整合了消防站點、消防栓分布等信息,用于分析消防救援資源可達性與火災風險的關系[6]。
1.2 特征工程
針對城市火災發生的復雜機理,本文構建了24個特征因子體系。氣象特征包括日累計降水量、日平均風速、日平均氣溫、日平均濕度、日照時間等,這些因素影響建筑物內外溫度差異和可燃物狀態。建筑特征包括建筑密度、建筑年代、建筑高度、建筑結構類型、消防設施配置等,這些因素直接關系到火災發生風險和蔓延速度。用地功能特征包括居住區、商業區、工業區的空間分布。人文社會特征包括常住人口密度、流動人口比例、GDP、月份、節假日等時空屬性,這些因素反映人類活動強度與火災風險的關聯。基礎設施特征計算了采樣點到消防站、消防栓的響應時間,以及消防通道的可達性,用于評估消防救援能力。安全隱患特征包括電氣線路老化程度、燃氣管網分布、危險品倉儲位置、消防違章建筑等,用于識別火災隱患點。
1.3 數據標準化
為消除不同特征量綱差異對城市火災預測模型的影響,采用了多種標準化方法。連續型特征如建筑密度、人口密度、氣溫、風速等采用最小-最大歸一化,將數值映射到[0,1]區間,標準化公式為
式中,xi和x*i分別表示特征歸一化前后的值,max(X)和min(X)分別為樣本中的最大值和最小值。這種轉換確保特征對模型的貢獻權重相對均衡。建筑高度數據通過對數函數轉換log(x),降低高層建筑的極值影響。相對濕度和建筑密度采用比例轉換,將百分比轉化為0-1范圍之內的比例值。分類特征如建筑類型、用地性質、消防設施等級等,采用獨熱編碼轉換為數值型特征。時間特征如月份、節假日、時段等,采用周期性編碼,保留時間的循環特性。對于距離類特征(如到消防站、消防栓的距離),考慮到應急響應的時效性,采用指數衰減轉換,其中d為特征響應半徑。為確保數據處理的一致性,構建了標準化參數查找表,記錄各特征的轉換參數和閾值。同時,建立了異常值檢測機制,對超出合理范圍的數據進行修正[7]。
2. 預測模型構建
2.1 算法選擇與對比
本文針對城市火災預測的復雜性特點,從主流機器學習算法中篩選了五種算法構建預測模型。XGBoost算法通過連續建樹的方式捕捉城市火災發生的非線性特征,每棵新樹專注于修正此前預測的偏差,模型結構如圖1所示。該算法在處理高維建筑特征、人文因素時表現出色,能有效降低過擬合風險。Light GBM算法采用直方圖加速技術處理海量火災事故記錄,在訓練速度和內存占用上具有優勢,特別適合處理多源異構的城市火災數據。CatBoost算法在處理建筑類型、用地性質等分類特征時表現突出,通過對稱決策樹有效整合不同類型的火災影響因素。深度神經網絡(deep neural networks,DNN)采用8層網絡結構,通過多層非線性變換學習城市火災風險的潛在模式,每層使用ReLU激活函數提高模型表達能力。隨機森林(random forest,RF)算法通過895棵決策樹的投票機制提高預測穩定性,對異常火災數據具有較強的魯棒性[8]。
2.2 模型參數優化
本文基于Optuna框架實現了模型超參數的自動優化。對基于XGBoost算法的模型,優化的關鍵參數包括最大樹深度、樹的數量、學習率、正則化參數(eg_alppha=1.892,reg_lambda=1.418)和分裂閾值。這些參數的優化提高了模型對建筑密度、人口流動等城市特征的學習能力。基于Light GBM算法的模型優化了樹深度、葉子數量、學習率等參數。基于CatBoost算法的模型調整了迭代次數、學習率和L2正則化系數。基于DNN的模型優化了批次大小、訓練輪數、激活函數和神經元數量。基于RF算法的模型優化了樹的數量、特征選擇方式和最小分裂樣本數。通過交叉驗證評估不同參數組合的性能,Optuna采用貝葉斯優化算法自動搜索最優參數配置,顯著提升了模型精度。
2.3 模型評估指標
構建了多維度的評估體系,包括準確率(OA)、召回率(R)、精密度(P)、F1值和AUC等指標。準確率計算公式為
式中,TP表示真陽性預測數,TN表示真陰性預測數,FP表示假陽性預測數,FN表示假陰性預測數,反映了模型的總體預測準確性。召回率衡量正例識別能力,精密度反映預測結果的可靠性。F1值為召回率和精密度的調和平均,計算公式為,綜合評估模型性能。AUC值通過計算ROC曲線下面積評估模型的分類性能。
3. 實驗結果分析
3.1 模型性能對比
通過五種機器學習模型對城市火災數據進行預測實驗,結果顯示各模型性能存在明顯差異。表1展示了模型評估的詳細指標。基于XGBoost算法的模型表現最優,準確率達91.30%,召回率為93.51%,精密度為89.68%,F1值為91.56%,AUC值為0.970。基于Light GBM算法的模型次之,各項指標均略低于基于XGBoost算法的模型,準確率為88.71%。基于CatBoost算法、RF算法和DNN的模型的準確率分別為88.09%、87.14%和83.57%。性能差異主要源于模型對特征的學習能力不同,基于XGBoost算法的模型在處理高維特征和捕捉非線性關系方面具有明顯優勢。
3.2 特征重要性分析
利用XGBoost算法的平均降低精度方法,對24個特征因素的重要性進行了定量分析。建筑密度對模型貢獻最大,重要性得分為0.07479,這與其直接影響火災蔓延速度和救援難度相關。人口流動性和消防設施配備分別以0.05790和0.04102的得分位居第二、三位,反映了人類活動密集度和應急響應能力對城市火災的顯著影響。基礎設施因素如建筑年代(0.03646)、用電負荷(0.02339)、消防栓密度(0.02235)等也顯示出較大的重要性。安全隱患特征如電氣線路老化程度(0.01662)、危險品存儲(0.01515)等對火災預測也有重要貢獻。
3.3 驗證實驗
為檢驗模型的泛化能力,本文采用2018年的城市火災事故數據進行獨立驗證。表2展示了各模型在驗證集上的預測性能。基于XGBoost算法的模型依然表現最佳,總體準確率達87.81%,其中對火災發生情況的預測準確率為82%,對非火災情況的預測準確率為93%。其優異表現尤其體現在對商業區和高密度住宅區火災風險的準確預判上。基于Light GBM和CatBoost算法的模型的驗證準確率分別為82.68%和82.30%,在處理混合功能區的火災預測時表現穩定。基于RF算法和DNN的模型表現相對較弱,可能是由于城市火災影響因素的高度耦合性導致的。
4. 風險評估與應用
4.1 風險等級劃分
基于XGBoost算法的模型預測結果,采用ArcGIS地理信息系統的克里格插值法對城市火災風險進行空間化處理。將火災風險劃分為五個等級:Ⅰ級(極低風險區),預測概率小于0.2;Ⅱ級(低風險區),預測概率在0.2~0.4之間;Ⅲ級(中風險區),預測概率在0.4~0.6之間;Ⅳ級(高風險區),預測概率在0.6~0.8之間;Ⅴ級(極高風險區),預測概率大于0.8。研究發現風險等級呈現顯著的時空變化,節假日期間商業區和文娛場所的風險等級明顯升高,這與人口流動性和活動密度密切相關。
4.2 空間分布特征
城市火災風險呈現明顯的空間分異規律。老城區分布著大量Ⅳ級和Ⅴ級高風險區,這些地區不僅建筑密集老化,而且消防通道狹窄,基礎設施陳舊[9]。商業中心區域也存在較多中高風險區域,主要受人流密集和用電負荷大的影響。城鄉接合部的風險等級分布較為零散,呈現出顯著的碎片化特征。新建住宅區和規劃完善的城區火災風險相對較低,主要分布為Ⅰ級和Ⅱ級風險區。
4.3 防控建議
對于老城區等高風險區域,建議加強消防設施改造升級,擴展消防通道,優化消防栓布局;在商業繁華區域,增派消防巡查人員,加強用電安全檢查。對于中等風險區域,重點加強智能監測預警,建立火災預警平臺,實時監控火災隱患[10]。在低風險區域,以日常巡檢和安全教育為主,增強居民消防意識。同時建議在重點區域安裝智能消防設備,建設智慧消防系統,配備先進的滅火裝備。加強社區消防網格化管理,建立多部門聯動機制,提升城市火災防控的整體效能。
結語
通過多源數據融合與機器學習方法,成功構建了一套高精度的火災預測與風險評估模型。實驗結果表明,基于XGBoost算法的預測模型具有優異的性能,不僅能準確預測火災發生概率,還能識別關鍵影響因素。模型為制定差異化防控策略提供了科學依據。未來研究將進一步擴展數據維度,提升模型的時空預測能力。
參考文獻:
[1]國家消防救援局.數說2018年全國火災及出警情況[EB/OL].(2020-02-07)[2024-12-20].https://www.119.gov.cn/gk/sjtj/2022/54.shtml.
[2]廣東氣象.廣東省2017年1月:氣溫顯著偏高,降水顯著偏少,日照偏多[EB/OL].(2017-02-07)[2024-12-20].https://www.gd121.cn/tq/qhpd/2017/02/97155.shtml.
[3]資源環境科學數據平臺.中國主要城市建筑底面輪廓和建筑高度空間分布數據[EB/OL].https://www.resdc.cn/data.aspx?DATAID=270.
[4]資源環境科學數據平臺.中國多時期土地利用遙感監測數據集[EB/OL].[2024-12-20].https://www.resdc.cn/DOI/doi.aspx?DOIid=54.
[5]國家統計局.中華人民共和國2017年國民經濟和社會發展統計公報[EB/OL].(2018-02-28)[2024-12-20].https://www.stats.gov.cn/sj/zxfb/202302/t20230203_1899855.html.
[6]廣東省應急管理廳.廣東省各市消防救援支隊地址及聯系方式[EB/OL].[2024-12-20].http://yjgl.gd.gov.cn/attachment/0/526/526860/4223420.pdf.
[7]謝筱依,董雷,董志勇,等.基于大數據技術的消防火災風險分析體系[J].今日消防,2020,5(1):106-108,110.
[8]陳俊雹.基于機器學習的森林火險因子大數據的深度約簡機制研究[J].現代信息科技,2020,4(1):86-87.
[9]朱龍祥,王自法,張昕,等.基于GIS和多種機器學習算法的廣東省森林火災預測模型[J].林業工程學報,2024,9(3):159-167.
[10]宋鵬,岳夢奎.基于大數據分析的電網火災風險預測與防范策略研究[J].消防界(電子版),2024,10(7):55-57.
作者簡介:張曉珺,碩士研究生,工程師,amber_z_purple@163.com,研究方向:消防監督。