基于隨機森林的突發事件分級模型研究*

2018-04-13 09:13:13徐緒堪

中國安全生產科學技術 2018年2期

徐緒堪，王　京

(1.河海大學企業管理學院，江蘇常州，213000；2.南京大學信息管理學院，江蘇南京，210023)

0　引言

近年來，國內自然災害、事故災害等突發事件頻發，如2013年10月發生的“余姚水災”、2015年6月發生的“常州特大暴雨”、2015年8月發生的“8·12天津濱海新區爆炸事故”等，隨著各類突發事件風險的日益增多，相關應急管理工作面臨著更高的要求和更大的挑戰。而在實際應急管理工作中，突發事件的分級是快速響應和有效應對的基礎，如果應急決策者無法快速、有效地識別突發事件的級別，在應急預案和處置方案的選擇上，將缺乏針對性，甚至延誤救援時機[1]。目前，我國已初步建立起突發事件“四類四級”的總體框架，在《特別重大、重大突發公共事件分級標準》中，對自然災害、事故災害、公共衛生事件和社會安全事件分級處置標準也做了相應的規定。如在水旱災害中，符合特別重大的情況為：一個流域發生特大洪水，或多個流域同時發生大水；大江大河干流重要河段堤防發生決口；重點大型水庫發生垮堤等。而特別重大地震災害則為：造成300人以上死亡，直接經濟損失占該省(區、市)上年國內生產總值1%以上的地震；發生在人口較密集地區7.0級以上地震。從以上內容可以看出，目前針對不同類型的突發事件，分級評估指標也不相同，而對于水旱災害，其分級標準仍以 “多個”、“重點”等模糊性描述詞為主，缺乏量化指標，操作性不強，加之突發事件爆發本身具有的不確定性、動態性和復雜性等特點，突發事件分級面臨著分級寬泛、主觀性強、過程繁雜和動態適應性弱等問題。一旦發生突發事件，難以快速、準確地定位到相應的突發事件級別，難以達到針對性地響應和應對。因此，本文嘗試通過建立相應的突發事件分級模型，用以快速識別突發事件的級別，進而在界定突發事件自身級別的基礎上，提升突發事件快速響應和應急的有效性。

在突發事件分級方面，國內外學者已經開展相關工作。國外方面，Dragan，Vladimir[2]指出，結合原因、后果、強度等標準可以完成突發事件分級；Kuma等[3]提出多維度突發事件分級方法；Schulz等[4]基于控制理論，設計能源類突發事件分類分級。國內方面，薛瀾和鐘開斌[5]系統地探討了我國應急管理體制框架的建立，在突發事件分級的問題上，指出分級標準需要依據事件的性質、嚴重程度、可控性和影響范圍等4個要素加以確定和細化；宋莎莎等[6]將模糊層次法和聚類分析結合，以旱災為例，確定了突發事件分級的度量指標，完成了自動分級；吳鳳平、程鐵軍[7]在聚類分析方法的基礎上，提出了基于三角模糊數的灰色定權聚類方法，用以實現具有不確定性和模糊性的突發事件的分級；鐘茂華、陳寶智[8]采用神經網絡分類方法，訓練出重大危險源分類器；徐國等[9]以洪澇災害應急響應級別為研究對象，基于C4.5算法獲得分級結果；商麗媛、譚清美[10]借助支持向量機在小樣本、高維和非線性樣本中的分類優勢，將其引入突發事件分級研究中，并通過地震樣本數據加以驗證。

從以上現有研究可以看出，學者們借助統計學習理論中聚類和分類方法，在突發事件分級標準定量化和分級過程動態化上，取得了一定的成果。但就研究內容而言，根據事后統計，分析事件嚴重程度或影響范圍，屬于靜態評估，在統計所耗時間和精確度上存在不足；就研究方法而言，一方面，聚類分析不依賴于預先定義的類別標簽，這使得不同聚類分析方法下，突發事件分級結果存在差異；另一方面，由于目前突發事件在分級問題上多采用單分類器，導致突發事件分級結果面臨樣本擬合過度和分類精度低等風險，為了避免聚類分析中分類標準的不確定性，改善單分類器在樣本選擇和參數設定上的局限，提高分類準確率，采用多個分類器組合進行分類，在機器學習領域得到了應用[11]。隨機森林[12](Random Forest，RF)是一種組合分類器，它能很好的容忍異常值和噪聲，且不容易出現過度擬合，在分類精度上高于單分類器，目前已經在多個領域得到應用研究，如：Chen[13]基于隨機森林模型分析基因組數據；蔡加欣等[14]基于局部輪廓和隨機森林，完成人體行為識別；賴成光等[15]基于隨機森林，構建風險評價模型，并應用于洪澇災害評估領域。在分類分級的問題上，隨機森林也取得了一定的成果，郭東鋒等[16]實現了烤煙香型分類；馬玥等[17]研究了農耕區土地利用分類；Dong等[18]使用隨機森林預測巖爆事件分級。因此，本文基于隨機森林方法在分類精度、擬合程度和樣本參數設定上的優勢以及在多領域的應用實踐，將其引入突發事件分級的問題中，以洪澇災害事件為例，探索實現突發事件分級標準定量化和分級過程動態化的新途徑。

1　突發事件分級的隨機森林模型

1.1　隨機森林模型的建立

隨機森林是由多個決策樹{h(x,θn)}組成的分類器，其中x是輸入向量；θn是獨立同分布的隨機向量，n是分類樹個數。

隨機森林模型的構建步驟如圖1所示：

1)隨機、有放回地從訓練集S中抽取n個子訓練樣本集組成分類樹，未被抽到的樣本組成袋外數據。

2)在n棵分類樹中，每1個分類樹節點處有m個特征指標，從特征指標中抽取變量mtry，其中mtry≤m，選擇最具有分類能力的變量完成分類樹的分裂。

3)不修剪分類樹，實現其最大限度地生長。

4)隨機森林分類器就由這些生長的分類樹組成，最終可獲得分類結果。

圖1　隨機森林模型Fig.1　Random forest model

1.2　基于隨機森林的突發事件分級過程

突發事件的分級是依據事件類別屬性而建立的。因此在選擇分級特征指標時，需要立足于突發事件的共有特性，如事件性質、嚴重程度和影響范圍等，形成隨機森林預測所需的屬性訓練集。基于隨機森林的突發事件分級過程如圖2所示。

圖2　基于隨機森林的突發事件分級過程Fig.2　Emergency classification process based on random forests

1) 依據突發事件類別屬性挖掘共有特征，提取分級指標，以洪澇災害為例，依據事件性質、嚴重程度和影響范圍等，選擇含受災人口(萬人)、死亡人口(人)、房屋倒塌(萬間)、房屋損壞(萬間)、農作物受災面積(千公頃)、農作物絕收面積(千公頃)和直接經濟損失(億元)等7個特征變量。

2)根據分級指標采集突發事件數據信息，構成訓練樣本集，本文主要從中華人民共和國民政部網站獲取2012—2016年洪澇災害事件信息，以事件發生時間作為劃分訓練樣本和待分級樣本依據，將2012—2015年洪澇事件劃分為訓練數據，2016年洪澇事件則為待分級樣本。

3)借助隨機森林模型，輸入待分級對象指標，主要借助R語言實現隨機森林參數設置和模型構建。

4)完成分類學習，得到突發事件分級結果。

2　基于洪澇災害的案例應用分析

2.1　樣本選取

隨著國家自然災害管理系統在我國災情管理工作中日益普及，各省民政部門近年來已能夠較好地按照《自然災害情況統計制度》中的時間節點規定進行報送，從而在報災系統中形成較為完整的災情指標時間序列，為研究洪澇災害提供了必要的數據支撐和基礎[19]。因此，本文以中華人民共和國民政部門網站提供的洪澇災害事件為例，選取了2012-2016年210個洪澇災害數據，其中205個作為訓練數據，5個作為測試數據，以此驗證隨機森林模型下突發事件分級方法的可行性。選取的洪澇災害數據包括特征屬性7個：受災人口(萬人)、死亡人口(人)、房屋倒塌(萬間)、房屋損壞(萬間)、農作物受災面積(千公頃)、農作物絕收面積(千公頃)和直接經濟損失(億元)，分別由a～g字母表示。由于我國特大洪澇災害數據樣本較少，本文僅選取等級為嚴重、中等和一般3個級別的數據，分別以Ⅰ、Ⅱ、Ⅲ表示。部分數據如表1所示。

表1　2014—2016年部分洪澇災害數據

資料來源：中華人民共和國民政部

2.2　模型實現及參數設定

借助開源軟件R語言附帶的軟件程序包randomForest，對所構建的隨機森林方法模型進行分類預測。建立模型需要對參數mtry和ntree進行設定。其中，參數mtry表示在分割數據時，抽取的變量數據，通常選擇解釋變量數目的平方根，本文輸入變量有7個，所以參數設置為2；ntree表示模型中包括的單棵樹數量，數量過多并不會對模型造成影響，一般建議不要小于100，本文將其設為10 000。

2.3　實證結果分析

使用上述參數mtry=2，ntree=10 000，對205個樣本進行訓練，得到隨機模型分類結果。同時，基于R語言附帶的e1071軟件程序包，實現支持向量機下樣本分類，得到2種方法下分類測試精度評估，如表2所示。

表2　測試精度評估

由表2可以看出，支持向量機方法下，Ⅰ類誤判數為26，Ⅱ類誤判數為14，Ⅲ類錯判數為24，總體分類精度為68.78%；隨機森林方法下，突發事件Ⅰ類誤判數為1，Ⅱ類誤判數為2，Ⅲ類誤判數為2，總體袋外數據誤差率為2.44%，總體精度為97.56%。與支持向量機相比，隨機森林誤判率低，總體分類精度高，在洪澇災害事件分級上效果更為理想。

隨機森林的每棵分類樹都是有放回的重抽樣后生成，本身算法類似于交叉驗證，因此其結果內含判別函數，可以直接使用R語言中的Predict函數，基于歷史數據對新的數據進行判別和分類，實現突發事件分級問題的快速識別和實時更新。以“2016年4月20日強降雨致南方9省區15人死亡失蹤”為例，借助Predict函數實現預測，判別為Ⅰ，Ⅱ和Ⅲ的概率分別為88.68%，11.26%和0.06%，最終判別結果為Ⅰ。基于此對5個測試樣本進行分級預測，預測結果如表3所示。

表3　對測試樣本的分級結果

由表3可知，5個測試樣本中有3個測試結果與實際結果相同，結果表明：基于隨機森林多分類器的分級可較好地避免主觀性和隨意性，能快速有效識別突發事件，并完成動態分級，分級結果可為應急決策部門提供信息支撐和參考。

3　結論

1)隨機森林作為機器學習的一種，其模型構建的關鍵在于特征指標的選擇。在洪澇災害突發事件分級中，選用事件性質、嚴重程度和影響范圍等共有特征提取分級指標，完成洪澇災害分級。

2)以洪澇災害事件為例，基于隨機森林模型對樣本數據進行處理和測試，結果表明其能較好地容忍異常值和噪聲，預測精度高于支持向量機，其在突發事件分級標準定量化和分級上是可行的。

3)借助隨機森林分類器，應急決策部門可以根據采集到的事件數據信息，實時分析、更新事件級別，并采取相應的措施，達到科學、合理地配置應急資源的目的，最終降低突發事件帶來的損失和危害。

[1]楊靜，陳建明，趙紅. 應急管理中的突發事件分類分級研究[J]. 管理評論，2005，17(4):37-41.

YANG Jing，CHEN Jianming，ZHAO Hong. Research on emergency classification in emergency management[J]. Journal of management review，2005，17(4):37-41.

[3]KUMAR V，MOVAHEDI B M，MOVAHEDI K M. E-Marketplace Emergence: Evolution，Developments and Classification[J]. Journal of Electronic Commerce in Organizations，2012，10(1):14-32.

[4]SCHULZ R P，PRICE W W. Classification and identification of power system emergencies[J]. IEEE Transactions on Power Apparatus & Systems，1984，PAS-103(12):3470-3479.

[5]薛瀾，鐘開斌. 突發公共事件分類、分級與分期:應急體制的管理基礎[J]. 中國行政管理，2005(2):102-107.

XUE Lan，ZHONG Kaibin. Classification of types，levels and stages for emergencies: managerial foundation of government emergency response system[J]. Chinese Public Administration，2005(2):102-107.

[6]宋莎莎，戴鋒，衛保璐. 基于模糊層次分析法和聚類分析的突發事件分級研究[J]. 科學決策，2010(10):68-72.

SONG Shasha，DAI Feng，WEI Baolu. A research of emergency classification based fuzzy AHP and cluster analysis[J]. Scientific Decision Making，2010(10):68-72.

[7]吳鳳平，程鐵軍. 基于改進的灰色定權聚類分析的突發事件分級研究[J]. 中國管理科學，2013(s1):110-113.

WU Fengping，CHENG Tiejun. The classification of emergency based on improved gray clustering model[J]. Chinese journal of management Science，2013(s1):110-113.

[8]鐘茂華，陳寶智. 基于神經網絡的重大危險源動態分級研究[J]. 中國安全科學學報，1997(2):6-9.

ZHONG Maohua，CHEN Baozhi. Study in dynamic risk classification of major hazards based on neural networks[J]. China Safety Science Journal，1997(2):6-9.

[9]徐國，烏云，王儒敬,等. 基于C4.5算法的洪澇災害應急響應級別分析[J]. 計算機系統應用，2012，21(4):55-58.

XU Guo,WU Yun,WANG Rujing，et al. Flood disaster emergency response level analysis based on C4.5 algorithm[J]. Computer systems and application，2012，21(4):55-58.

[10]商麗媛，譚清美. 基于支持向量機的突發事件分級研究[J]. 管理工程學報，2014，28(1):119-123.

SHANG Liyuan，TAN Qingmei. Emergency classification based on support vector machine[J]. Journal of management engineering，2014，28(1):119-123.

[11]DIETTERICH T G. Ensemble methods in machine learning[J]. Proc. 1st International Workshgp on Multiple Classifier Systems，2000，1857(1):1-15.

[12]BREIMAN L. Random Forests[J]. Machine Learning，2001，45(1):5-32.

[13]CHEN X，ISHWARAN H. Random forests for genomic data analysis[J]. Genomics，2012，99(6):323-329.

[14]蔡加欣，馮國燦，湯鑫,等. 基于局部輪廓和隨機森林的人體行為識別[J]. 光學學報，2014，34(10):204-213.

CAI Jiaxin，FENG Guocan，TANG Xin，et al. Human action recognition based on local image contour and random forest[J]. Acta Optica Sinica，2014，34(10):204-213.

[15]賴成光，陳曉宏，趙仕威,等. 基于隨機森林的洪災風險評價模型及其應用[J]. 水利學報，2015，46(1):58-66.

LAI Chengguang，CHEN Xiaohong,ZHAO Shiwei，et al. A flood risk assessment model based on random forest and its application[J]. Journal of Hydraulic Engineering，2015，46(1):58-66.

[16]郭東鋒，胡海洲，汪季濤,等. 基于隨機森林的烤煙香型分類研究[J]. 中國農學通報，2015，31(6):241-246.

GUO Dongfeng,HU Haizhou,WANG Jitao，et al. Study on the classification of flue-cured tobacco based on the random forest algorithm[J].Chinese Agricultural Science Bulletin，2015，31(6):241-246.

[17]馬玥,姜琦剛,孟治國,等. 基于隨機森林算法的農耕區土地利用分類研究[J]. 農業機械學報,2016(1):297-303.

MA Yue，JIANG Qigang，MENG Zhiguo，et al. Classification of land use in farming area based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery，2016(1):297-303.

[18]DONG L J，L I X B，PENG K. Prediction of rockburst classification using Random Forest[J]. Transactions of Nonferrous Metals Society of China，2013，23(2):472-477.

[19]張鵬，郭邵俊，劉哲，等. 重大洪澇災害過程災情時變模式挖掘[J].自然災害學報，2014，23(4)：13-18.

ZHANG Peng,GUO Shaojun,LIU Zhe,et al.Tapping the temporal pattern of diaster loss data on critical floods[J].Journal of natrual of natrual diaseters,2014,23(4):13-18.

基于隨機森林的突發事件分級模型研究*

0 引言

1 突發事件分級的隨機森林模型

1.1 隨機森林模型的建立

1.2 基于隨機森林的突發事件分級過程

2 基于洪澇災害的案例應用分析

2.1 樣本選取

2.2 模型實現及參數設定

2.3 實證結果分析

3 結論