徐緒堪,王 京
(1.河海大學 企業管理學院,江蘇 常州,213000;2.南京大學 信息管理學院,江蘇 南京,210023)
近年來,國內自然災害、事故災害等突發事件頻發,如2013年10月發生的“余姚水災”、2015年6月發生的“常州特大暴雨”、2015年8月發生的“8·12天津濱海新區爆炸事故”等,隨著各類突發事件風險的日益增多,相關應急管理工作面臨著更高的要求和更大的挑戰。而在實際應急管理工作中,突發事件的分級是快速響應和有效應對的基礎,如果應急決策者無法快速、有效地識別突發事件的級別,在應急預案和處置方案的選擇上,將缺乏針對性,甚至延誤救援時機[1]。目前,我國已初步建立起突發事件“四類四級”的總體框架,在《特別重大、重大突發公共事件分級標準》中,對自然災害、事故災害、公共衛生事件和社會安全事件分級處置標準也做了相應的規定。如在水旱災害中,符合特別重大的情況為:一個流域發生特大洪水,或多個流域同時發生大水;大江大河干流重要河段堤防發生決口;重點大型水庫發生垮堤等。而特別重大地震災害則為:造成300人以上死亡,直接經濟損失占該省(區、市)上年國內生產總值1%以上的地震;發生在人口較密集地區7.0級以上地震。從以上內容可以看出,目前針對不同類型的突發事件,分級評估指標也不相同,而對于水旱災害,其分級標準仍以 “多個”、“重點”等模糊性描述詞為主,缺乏量化指標,操作性不強,加之突發事件爆發本身具有的不確定性、動態性和復雜性等特點,突發事件分級面臨著分級寬泛、主觀性強、過程繁雜和動態適應性弱等問題。一旦發生突發事件,難以快速、準確地定位到相應的突發事件級別,難以達到針對性地響應和應對。因此,本文嘗試通過建立相應的突發事件分級模型,用以快速識別突發事件的級別,進而在界定突發事件自身級別的基礎上,提升突發事件快速響應和應急的有效性。
在突發事件分級方面,國內外學者已經開展相關工作。國外方面,Dragan,Vladimir[2]指出,結合原因、后果、強度等標準可以完成突發事件分級;Kuma等[3]提出多維度突發事件分級方法;Schulz等[4]基于控制理論,設計能源類突發事件分類分級。國內方面,薛瀾和鐘開斌[5]系統地探討了我國應急管理體制框架的建立,在突發事件分級的問題上,指出分級標準需要依據事件的性質、嚴重程度、可控性和影響范圍等4個要素加以確定和細化;宋莎莎等[6]將模糊層次法和聚類分析結合,以旱災為例,確定了突發事件分級的度量指標,完成了自動分級;吳鳳平、程鐵軍[7]在聚類分析方法的基礎上,提出了基于三角模糊數的灰色定權聚類方法,用以實現具有不確定性和模糊性的突發事件的分級;鐘茂華、陳寶智[8]采用神經網絡分類方法,訓練出重大危險源分類器;徐國等[9]以洪澇災害應急響應級別為研究對象,基于C4.5算法獲得分級結果;商麗媛、譚清美[10]借助支持向量機在小樣本、高維和非線性樣本中的分類優勢,將其引入突發事件分級研究中,并通過地震樣本數據加以驗證。
從以上現有研究可以看出,學者們借助統計學習理論中聚類和分類方法,在突發事件分級標準定量化和分級過程動態化上,取得了一定的成果。但就研究內容而言,根據事后統計,分析事件嚴重程度或影響范圍,屬于靜態評估,在統計所耗時間和精確度上存在不足;就研究方法而言,一方面,聚類分析不依賴于預先定義的類別標簽,這使得不同聚類分析方法下,突發事件分級結果存在差異;另一方面,由于目前突發事件在分級問題上多采用單分類器,導致突發事件分級結果面臨樣本擬合過度和分類精度低等風險,為了避免聚類分析中分類標準的不確定性,改善單分類器在樣本選擇和參數設定上的局限,提高分類準確率,采用多個分類器組合進行分類,在機器學習領域得到了應用[11]。隨機森林[12](Random Forest,RF)是一種組合分類器,它能很好的容忍異常值和噪聲,且不容易出現過度擬合,在分類精度上高于單分類器,目前已經在多個領域得到應用研究,如:Chen[13]基于隨機森林模型分析基因組數據;蔡加欣等[14]基于局部輪廓和隨機森林,完成人體行為識別;賴成光等[15]基于隨機森林,構建風險評價模型,并應用于洪澇災害評估領域。在分類分級的問題上,隨機森林也取得了一定的成果,郭東鋒等[16]實現了烤煙香型分類;馬玥等[17]研究了農耕區土地利用分類;Dong等[18]使用隨機森林預測巖爆事件分級。因此,本文基于隨機森林方法在分類精度、擬合程度和樣本參數設定上的優勢以及在多領域的應用實踐,將其引入突發事件分級的問題中,以洪澇災害事件為例,探索實現突發事件分級標準定量化和分級過程動態化的新途徑。
隨機森林是由多個決策樹{h(x,θn)}組成的分類器,其中x是輸入向量;θn是獨立同分布的隨機向量,n是分類樹個數。
隨機森林模型的構建步驟如圖1所示:
1)隨機、有放回地從訓練集S中抽取n個子訓練樣本集組成分類樹,未被抽到的樣本組成袋外數據。
2)在n棵分類樹中,每1個分類樹節點處有m個特征指標,從特征指標中抽取變量mtry,其中mtry≤m,選擇最具有分類能力的變量完成分類樹的分裂。
3)不修剪分類樹,實現其最大限度地生長。
4)隨機森林分類器就由這些生長的分類樹組成,最終可獲得分類結果。

圖1 隨機森林模型Fig.1 Random forest model
突發事件的分級是依據事件類別屬性而建立的。因此在選擇分級特征指標時,需要立足于突發事件的共有特性,如事件性質、嚴重程度和影響范圍等,形成隨機森林預測所需的屬性訓練集。基于隨機森林的突發事件分級過程如圖2所示。

圖2 基于隨機森林的突發事件分級過程Fig.2 Emergency classification process based on random forests
1) 依據突發事件類別屬性挖掘共有特征,提取分級指標,以洪澇災害為例,依據事件性質、嚴重程度和影響范圍等,選擇含受災人口(萬人)、死亡人口(人)、房屋倒塌(萬間)、房屋損壞(萬間)、農作物受災面積(千公頃)、農作物絕收面積(千公頃)和直接經濟損失(億元)等7個特征變量。
2)根據分級指標采集突發事件數據信息,構成訓練樣本集,本文主要從中華人民共和國民政部網站獲取2012—2016年洪澇災害事件信息,以事件發生時間作為劃分訓練樣本和待分級樣本依據,將2012—2015年洪澇事件劃分為訓練數據,2016年洪澇事件則為待分級樣本。
3)借助隨機森林模型,輸入待分級對象指標,主要借助R語言實現隨機森林參數設置和模型構建。
4)完成分類學習,得到突發事件分級結果。
隨著國家自然災害管理系統在我國災情管理工作中日益普及,各省民政部門近年來已能夠較好地按照《自然災害情況統計制度》中的時間節點規定進行報送,從而在報災系統中形成較為完整的災情指標時間序列,為研究洪澇災害提供了必要的數據支撐和基礎[19]。因此,本文以中華人民共和國民政部門網站提供的洪澇災害事件為例,選取了2012-2016年210個洪澇災害數據,其中205個作為訓練數據,5個作為測試數據,以此驗證隨機森林模型下突發事件分級方法的可行性。選取的洪澇災害數據包括特征屬性7個:受災人口(萬人)、死亡人口(人)、房屋倒塌(萬間)、房屋損壞(萬間)、農作物受災面積(千公頃)、農作物絕收面積(千公頃)和直接經濟損失(億元),分別由a~g字母表示。由于我國特大洪澇災害數據樣本較少,本文僅選取等級為嚴重、中等和一般3個級別的數據,分別以Ⅰ、Ⅱ、Ⅲ表示。部分數據如表1所示。

表1 2014—2016年部分洪澇災害數據
資料來源:中華人民共和國民政部
借助開源軟件R語言附帶的軟件程序包randomForest,對所構建的隨機森林方法模型進行分類預測。建立模型需要對參數mtry和ntree進行設定。其中,參數mtry表示在分割數據時,抽取的變量數據,通常選擇解釋變量數目的平方根,本文輸入變量有7個,所以參數設置為2;ntree表示模型中包括的單棵樹數量,數量過多并不會對模型造成影響,一般建議不要小于100,本文將其設為10 000。
使用上述參數mtry=2,ntree=10 000,對205個樣本進行訓練,得到隨機模型分類結果。同時,基于R語言附帶的e1071軟件程序包,實現支持向量機下樣本分類,得到2種方法下分類測試精度評估,如表2所示。

表2 測試精度評估
由表2可以看出,支持向量機方法下,Ⅰ類誤判數為26,Ⅱ類誤判數為14,Ⅲ類錯判數為24,總體分類精度為68.78%;隨機森林方法下,突發事件Ⅰ類誤判數為1,Ⅱ類誤判數為2,Ⅲ類誤判數為2,總體袋外數據誤差率為2.44%,總體精度為97.56%。與支持向量機相比,隨機森林誤判率低,總體分類精度高,在洪澇災害事件分級上效果更為理想。
隨機森林的每棵分類樹都是有放回的重抽樣后生成,本身算法類似于交叉驗證,因此其結果內含判別函數,可以直接使用R語言中的Predict函數,基于歷史數據對新的數據進行判別和分類,實現突發事件分級問題的快速識別和實時更新。以“2016年4月20日強降雨致南方9省區15人死亡失蹤”為例,借助Predict函數實現預測,判別為Ⅰ,Ⅱ和Ⅲ的概率分別為88.68%,11.26%和0.06%,最終判別結果為Ⅰ。基于此對5個測試樣本進行分級預測,預測結果如表3所示。

表3 對測試樣本的分級結果
由表3可知,5個測試樣本中有3個測試結果與實際結果相同,結果表明:基于隨機森林多分類器的分級可較好地避免主觀性和隨意性,能快速有效識別突發事件,并完成動態分級,分級結果可為應急決策部門提供信息支撐和參考。
1)隨機森林作為機器學習的一種,其模型構建的關鍵在于特征指標的選擇。在洪澇災害突發事件分級中,選用事件性質、嚴重程度和影響范圍等共有特征提取分級指標,完成洪澇災害分級。
2)以洪澇災害事件為例,基于隨機森林模型對樣本數據進行處理和測試,結果表明其能較好地容忍異常值和噪聲,預測精度高于支持向量機,其在突發事件分級標準定量化和分級上是可行的。
3)借助隨機森林分類器,應急決策部門可以根據采集到的事件數據信息,實時分析、更新事件級別,并采取相應的措施,達到科學、合理地配置應急資源的目的,最終降低突發事件帶來的損失和危害。
[1]楊靜,陳建明,趙紅. 應急管理中的突發事件分類分級研究[J]. 管理評論,2005,17(4):37-41.
YANG Jing,CHEN Jianming,ZHAO Hong. Research on emergency classification in emergency management[J]. Journal of management review,2005,17(4):37-41.
[3]KUMAR V,MOVAHEDI B M,MOVAHEDI K M. E-Marketplace Emergence: Evolution,Developments and Classification[J]. Journal of Electronic Commerce in Organizations,2012,10(1):14-32.
[4]SCHULZ R P,PRICE W W. Classification and identification of power system emergencies[J]. IEEE Transactions on Power Apparatus & Systems,1984,PAS-103(12):3470-3479.
[5]薛瀾,鐘開斌. 突發公共事件分類、分級與分期:應急體制的管理基礎[J]. 中國行政管理,2005(2):102-107.
XUE Lan,ZHONG Kaibin. Classification of types,levels and stages for emergencies: managerial foundation of government emergency response system[J]. Chinese Public Administration,2005(2):102-107.
[6]宋莎莎,戴鋒,衛保璐. 基于模糊層次分析法和聚類分析的突發事件分級研究[J]. 科學決策,2010(10):68-72.
SONG Shasha,DAI Feng,WEI Baolu. A research of emergency classification based fuzzy AHP and cluster analysis[J]. Scientific Decision Making,2010(10):68-72.
[7]吳鳳平,程鐵軍. 基于改進的灰色定權聚類分析的突發事件分級研究[J]. 中國管理科學,2013(s1):110-113.
WU Fengping,CHENG Tiejun. The classification of emergency based on improved gray clustering model[J]. Chinese journal of management Science,2013(s1):110-113.
[8]鐘茂華,陳寶智. 基于神經網絡的重大危險源動態分級研究[J]. 中國安全科學學報,1997(2):6-9.
ZHONG Maohua,CHEN Baozhi. Study in dynamic risk classification of major hazards based on neural networks[J]. China Safety Science Journal,1997(2):6-9.
[9]徐國,烏云,王儒敬,等. 基于C4.5算法的洪澇災害應急響應級別分析[J]. 計算機系統應用,2012,21(4):55-58.
XU Guo,WU Yun,WANG Rujing,et al. Flood disaster emergency response level analysis based on C4.5 algorithm[J]. Computer systems and application,2012,21(4):55-58.
[10]商麗媛,譚清美. 基于支持向量機的突發事件分級研究[J]. 管理工程學報,2014,28(1):119-123.
SHANG Liyuan,TAN Qingmei. Emergency classification based on support vector machine[J]. Journal of management engineering,2014,28(1):119-123.
[11]DIETTERICH T G. Ensemble methods in machine learning[J]. Proc. 1st International Workshgp on Multiple Classifier Systems,2000,1857(1):1-15.
[12]BREIMAN L. Random Forests[J]. Machine Learning,2001,45(1):5-32.
[13]CHEN X,ISHWARAN H. Random forests for genomic data analysis[J]. Genomics,2012,99(6):323-329.
[14]蔡加欣,馮國燦,湯鑫,等. 基于局部輪廓和隨機森林的人體行為識別[J]. 光學學報,2014,34(10):204-213.
CAI Jiaxin,FENG Guocan,TANG Xin,et al. Human action recognition based on local image contour and random forest[J]. Acta Optica Sinica,2014,34(10):204-213.
[15]賴成光,陳曉宏,趙仕威,等. 基于隨機森林的洪災風險評價模型及其應用[J]. 水利學報,2015,46(1):58-66.
LAI Chengguang,CHEN Xiaohong,ZHAO Shiwei,et al. A flood risk assessment model based on random forest and its application[J]. Journal of Hydraulic Engineering,2015,46(1):58-66.
[16]郭東鋒,胡海洲,汪季濤,等. 基于隨機森林的烤煙香型分類研究[J]. 中國農學通報,2015,31(6):241-246.
GUO Dongfeng,HU Haizhou,WANG Jitao,et al. Study on the classification of flue-cured tobacco based on the random forest algorithm[J].Chinese Agricultural Science Bulletin,2015,31(6):241-246.
[17]馬玥,姜琦剛,孟治國,等. 基于隨機森林算法的農耕區土地利用分類研究[J]. 農業機械學報,2016(1):297-303.
MA Yue,JIANG Qigang,MENG Zhiguo,et al. Classification of land use in farming area based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery,2016(1):297-303.
[18]DONG L J,L I X B,PENG K. Prediction of rockburst classification using Random Forest[J]. Transactions of Nonferrous Metals Society of China,2013,23(2):472-477.
[19]張鵬,郭邵俊,劉哲,等. 重大洪澇災害過程災情時變模式挖掘[J].自然災害學報,2014,23(4):13-18.
ZHANG Peng,GUO Shaojun,LIU Zhe,et al.Tapping the temporal pattern of diaster loss data on critical floods[J].Journal of natrual of natrual diaseters,2014,23(4):13-18.