龔艷冰,楊舒馨,戴靚靚,劉高峰
(1.河海大學 企業管理學院,江蘇 常州 213022;2.江蘇省“世界水谷”與水生態文明協同創新中心,南京 211100)
洪澇災害發生具有突發性、多樣性、難以確定性等特點,使得人們無法迅速做出反應,難以有效的控制災情。面對突發性自然災害,決策者快速準確的識別災害等級,顯得尤為重要。只有在確定等級基礎上,采取恰當預案措施和資源調配,才能將災害損失降到最低。傳統突發事件分級的方法屬于靜態法,完全依賴專家主觀經驗打分,分級的標準和級數都是統一規定,不可更改的。但事實上突發事件爆發難以確定,具體損失復雜難以評估,靜態法不再適用,容易造成分級結果的偏差,為應急管理和資源調配帶來不便。因此,國內外學者開始從理論層面對災害分級問題進行探討。例如,張艷瓊等[1]將云模型引入分級模型中,利用云模型理論將定性概念與定量數據進行轉化,較好解決了突發事件的模糊性與隨機性帶來的決策難點;蔡正杰等[2]提出一種基于改進模糊綜合評價方法的突發環境事件分級模型,將災害數據轉化成模糊評價矩陣,此基礎上得到最終評價結果;商麗媛等[3]基于支持向量機算法,構建決策函數,對地震突發事件進行了分級;吳鳳平等[4]提出一種基于三角模糊數改進的灰色定權聚類方法,以三角模糊數作為分級指標的判斷依據;宋莎莎等[5]在使用模糊層次分析法確定旱災分級的度量指標基礎上,用聚類分級法進行分級。
在現有研究的基礎之上,本文提出一種基于數據場理論改進的K-means聚類算法,并將其應用于洪澇災害分級研究。該算法避免傳統聚類算法中需提前設定聚類參數,聚類類別個數和聚類中心的問題,可以根據樣本間的相似性將數據集劃分成多個不同的類簇,使同一類簇的對象相似度高,不同類簇相似度低。如何確定對象之間的相似度,即緊密程度?該算法引用數據場的勢函數,確定聚類個數k及初始聚類中心,既保留原本K-means算法簡潔、迅速的特點,又彌補了算法本身存在的主觀性,使不確定性突發事件的分級結果更加準確合理,為決策者提供科學的理論指導。
借鑒物理場的思想,李德毅將物質間的相互作用引入抽象的數域空間,創造性提出數據場思想。在描述數據場屬性時,引入標量函數——勢函數。勢函數反映了一個數據對象受到其他所有數據對象的影響程度,克服了傳統聚類算法僅考慮兩個對象之間影響關系的局限性,認為空間中任一點的狀態是其他所有的對象共同作用的結果[6,7]。數據場勢函數定義如下:
定義1:空間Ω中共有n個對象{x1,x2,…,xn} 及其產生的數據場,空間任一點的勢值可表示為:

在空間中,由于數據點勢函數的存在,數據點間在無外力的作用下會發生相向運動,但受σ的約束,σ越大,所有數據點的影響力越大,輻射范圍的影響也越大;σ越小,所有數據點的影響力越小,輻射范圍的影響也越小[8]。

數據場理論能夠較好地刻畫數據與數據之間多對一的作用關系,克服了原先聚類算法只關注一對一的相互影響,能夠獲得更加科學合理的聚類分級結果。
K-means聚類算法是一種將距離相近的樣本組成一個簇的傳統統計聚類算法。首先確定聚類個數k,再在樣本集合中找到k個初始聚類中心,計算聚類目標函數或聚類效果判別準則,采用迭代更新聚類中心的方法,使得聚類結果向目標函數值或判別值逐漸減小的方向進行,目標函數值或判別值出現最小時便達到最佳聚類結果[9]。引入了數據場思想后,無需事先確定聚類數,而是從數據樣本間相互作用出發,根據式(2)計算每個樣本數據xi的勢值?(xi),勢值越大的數據對象,說明其受其他數據點共同作用越大,另一個側面反映該點周圍的數據點越多,該點極可能是簇類集合的中心。勢值越小的對象,說明受其他數據點共同作用越小,反映該點周圍的數據點較少,該點極大可能是異常值點。以勢值極大點作為聚類中心,提供K-means聚類算法所需的先驗知識,迭代時間更短,聚類效果更好。洪澇災害突發事件分級具體算法步驟如下:
步驟1:根據災情事件類型,建立災情分級指標體系,輸入數據集D={x1,x2,…,xn} 和影響因子σ的值;
步驟2:根據公式(2)計算每個災情數據對象xi的勢值;
步驟3:根據每個災情數據對象的勢值?(xi),分析勢值極大值點,確定洪澇災害分級的聚類中心和聚類個數k;
步驟4:利用K-means聚類算法進行洪澇災害分級聚類,得到最終聚類結果。
根據民政部災情評估統計指標,洪澇災害災情評估主要是統計人口受災情況、房屋損壞情況、農作物受災情況以及經濟損失情況四個方面[10]。本文依據民政部提供的洪澇災害相關數據,依據四個指標選取我國2012—2016年洪澇災害樣本數據112個。在實際操作中,房屋損壞情況實際屬于經濟損失情況一類。因此,最終選取三個指標建立如表1所示的洪澇災害突發事件分級指標體系。

表1 洪澇災害突發事件分級指標體系
為消除原始數據各維度量綱不一致對分級結果的影響,本文采用min-max標準化方法將原始數據進行標準化處理。112個樣本數據的三維分布圖如圖1所示(每一個*代表一次洪澇災害)。

圖1 洪澇災害數據三維屬性分布圖
依據數據場勢值計算公式(2),可得112個樣本數據的勢值分布如下頁圖2所示,這里計算勢值時,假定σ=1。將每次洪澇災害看成一數據點,勢值的大小表示其他數據點對該點的綜合影響。勢值越大,說明該數據點的影響力越大,可選取該點作為聚類中心。
從圖2中可以看出,數據場勢值存在三個極大值點,根據前述理論,認為該極大值點就是分級結果的三個簇中心,因此,可將112個樣本數據分成三類,分別對應等級Ⅰ級(重大),Ⅱ級(較大),Ⅲ級(一般)。

圖2 樣本數據場勢值分布圖
根據K-means聚類分級結果如圖3所示。由圖3分析可以發現,本文提出的數據場K-means聚類算法將112個樣本數據分成三類。第一類中含有64個樣本,這些樣本三個屬性值偏小,所以可以定義它們為洪澇災害突發事件的Ⅲ級(一般),此級事件的嚴重程度和影響范圍都較小。政府可以合理分配人力物力,將災害的損失程度加以控制。第二類中有36個樣本,為洪澇災害突發事件的Ⅱ級(較大),此級事件不論受災情況還是經濟損失都較第Ⅲ級嚴重。政府部門需加大投入,控制災情的進一步擴散,將社會損失降到最低。最后一級有12個樣本,為Ⅰ級(重大)。政府需要高度重視Ⅰ級,調用一切資源控制災情。Ⅰ級事件從受災人口、經濟損失、農作物受災面積看均屬于重大災害事件,處理稍有耽誤,容易造成嚴重的社會危害,準確及時科學的應急管理刻不容緩。

圖3 洪澇災害數據分級效果圖
同時,為了比較本文算法和傳統K-means算法的分級效果,將傳統K-means聚類算法與本文改進算法進行對比。考慮到K-means聚類算法隨機選取聚類中心和聚類數目,會得到不同的結果,這里選擇20次聚類結果的平均值。所得分級結果和本文算法分級結果比較如表2所示。由表2可以看出,K-means聚類算法雖然用時短,但是聚類準確率低,而本文算法克服單一算法的不足,具有較高準確率,給洪澇災害提供更加科學的分級方式,使應急決策更加具有針對性。

表2 分級算法對比結果
洪澇災害突發事件分級受諸多不確定因素的影響,是一個動態復雜的問題。考慮突發事件的多樣性和難確定性,本文提出將數據場和K-means聚類算法融合起來應用于洪澇災害突發事件的分級問題,具體描述了算法的實現原理和分級過程,并給出了驗證該方法可行性的洪澇災害分級評估實例。針對災害分類中存在的聚類個數與聚類中心不確定問題,構建數據場改進的K-means聚類算法,采用數據場方法確定聚類個數和聚類中心,通過對實際樣本數據的檢驗,基于數據場K-means聚類算法的洪澇災害事件分級方法是可行且有效的,相比傳統的K-means聚類算法,本文方法極大的提高了災害分級正確率,且計算簡單,有利于決策者據此采取科學有效的應急管理措施,保障人民生命安全,維護社會安定。當然,由于本文算法中需要預先假定輸入σ的取值,而σ的值在計算數據場勢函數中是關鍵。因此,如何確定σ的值,使算法更加客觀,這將是下一步應該討論的問題。