陳燕璇,劉合香,譚金凱
(廣西師范學院 數學與統(tǒng)計科學學院,廣西 南寧 530023)
?
基于等距特征映射降維的臺風災情概率神經網絡預評估模型*
陳燕璇,劉合香,譚金凱
(廣西師范學院 數學與統(tǒng)計科學學院,廣西 南寧 530023)
摘要:臺風致災因子、承災體和災情之間是一個復雜的非線性動力系統(tǒng),準確高效地提取重要指標對臺風災情等級進行預評估,是防災救災工作的重要依據。采用主成分分析、等距特征映射和信息熵特征提取的承災體關鍵指標,和致災源作為輸入神經元,災情等級作為輸出神經元,建立臺風災情概率神經網絡預評估模型。結果表明,基于等距映射非線性特征提取的概率神經網絡預評估模型的準確率達到90%。
關鍵詞:概率神經網絡;等距特征映射;信息熵;臺風;災害;預評估
熱帶氣旋是生成于熱帶或副熱帶洋面上,具有對流和確定氣旋性環(huán)流的非鋒面性漩禍[1]。臺風作為熱帶氣旋的一種,登陸我國的臺風平均每年有7個左右,影響廣西的臺風平均每年有5個左右。據不完全統(tǒng)計,1984-2012年,廣西因臺風災害造成的受災人數為8 148萬人次,死亡801人,直接經濟損失1 205億元(占氣象災害總經濟損失的12.3%)[2]。災害發(fā)生過程根據氣象致災因子預報與承災體脆弱性快速預測災情等級是災害的預評估。人工神經網絡是非線性自適應系統(tǒng),與耗散、復雜的高階非線性自然災害系統(tǒng)相似[3],災情等級預評估實際是人工神經網絡模式識別問題[4]。
近年來,很多專家學者從不同角度對臺風災害進行預評估研究[5-8]。魏章進等[9]基于聚類與回歸方法建立臺風災情預評估模型;芮建勛等[10]設計了基于元組時間標記法的臺風災害評估的多尺度數據管理模式。在地理信息系統(tǒng)方面,劉合香等[11]利用模糊數學、非線性數據處理方法和ArcGIS空間進行Kriging插值,分析廣西洪澇災害發(fā)生的頻率,結果表明洪澇多發(fā)生地與實際洪澇災害擬合較好;劉少軍等[12]采用可拓分析方法計算綜合關聯度判斷災害損失的等級,建立基于GIS的臺風災害損失評估模型,以實現臺風災害動態(tài)評估。
承災體的脆弱性是指受到危險因素威脅所有人生命和財產的損害程度,是災害風險形成的關鍵因素[13],一般當承災體指標比較多時,會導致數據的高維特征,增加數據處理的困難。鞏在武等[14]利用相關分析從致災因子、承災體和防災減災能力方面選取重要影響因子,實例證明所選指標的合理性。但相關分析只表示變量間線性關系,不能反映變量間的非線性關系,且易受觀測值影響。流形學習是根據高維數據空間的內部幾何結構,構造低維流形嵌入,以實現數據降維,提高計算效率[15]。非線性流形降維方法主要由有局部線性嵌入(LLE)和等距特征映射(ISOMAP)。黃穎等[16]利用局部線性嵌入與逐步回歸相結合的預報因子挖掘技術,建立非線性人工智能集合預報模型,為臺風強度客觀預報提供了新方法;等距特征映射算法(ISOMAP)是Tenenbaum等[17]于2000年提出的,它結合了主成分分析(PCA)和多維標度法(MDS)的算法特征,在醫(yī)學方面的肺癌基因數據分析中,在低維空間揭示出數據集的本質結構,實現非線性數據降維[18],而在臺風災害系統(tǒng)指標降維方面的應用還鮮為少見。
針對上述問題,為了比較不同的變量選取方法的預評估效果,本研究運用主成分分析(PCA)、等距特征映射(ISOMAP)和信息熵特征提取方法試圖建立概率神經網絡模型,并將該模型應用于臺風災情預評估工作中。
1模型輸入的特征提取方法
1.1ISOMAP降維方法
ISOMAP的思想關鍵在于用測地距離代替歐氏距離,通過等距映射獲得高維數據空間在低維空間的表示,更好地實現非線性數據降維[17]。ISOMAP算法設定K個近鄰點是相互連接的,通過歐氏距離構造臨接矩陣,用Floyd算法計算樣本點的最短距離,作為測地距離的逼近[19],主要包括以下的步驟。
(a)構造鄰域圖G。在空間X中的樣本點xi和xj,其歐氏距離為dx(i,j)。若xi是xj的K個近鄰點之一,說明鄰域圖G有邊,邊長為dx(i,j)。
(b)計算最短距離。當xi和xj之間有一條邊,則dG(i,j)=dx(i,j);當xi和xj之間無邊,則dG(i,j)= ∞;對K=1,2,…,N,dG(xi,xj)= min{dG(xi,xj),dG(xi,xk)+dG(xk,xj)},D={dG(xi,xj)}是鄰域圖G中所有點的最短距離構成。

1.2信息熵方法
信息論中,若某項指標提供的信息越多,則對決策的精度和可靠性越大[20]。基于熵權理論構建臺風災情指數,可以避免人為確定指標權重的主觀性,具有更高的客觀性和科學性。熵權也可作為選取關鍵指標的辦法,主要計算步驟如下所示。
(a)計算熵值Hj

(b)計算熵權ωj

(1)

2概率神經網絡模型
鑒于臺風災情與變化的致災氣象因子和承災體脆弱性之間是非線性關系,復雜的相互作用和變化增加了預評估的困難。概率神經網絡(PNN)是基于貝葉斯原理,構造概率密度函數(PDF)分類估計,在處理非線性問題和模式識別方面比BP等更具有顯著優(yōu)勢[21-23]。PNN的拓撲結構由輸入層、模式層、求和層和輸出層組成,主要計算步驟如下所示。
(a)輸入層
將提取的承災體關鍵指標作為輸入層神經元,神經元數目與輸入樣本維數相等。
(b)模式層(神經元與給定類別以權值連接)

(2)
式中:X為降維后提取的關鍵指標矩陣; Xji為類別j第i個訓練向量;m為訓練樣本數目;δ為平滑系數;P為待分類的向量X及訓練向量的維數。
(c)求和層(屬于某一類別的概率累積)

(3)

(d)輸出層(競爭神經元)
PDF最大的神經元輸出為1,表示所對應的那一類為待識別的模式類別,其他輸出神經元輸出為0,即:
(4)
3模型應用與分析
3.1數據來源及預處理
本研究的致災源數據來自《熱帶氣旋年鑒》中1985-2013年之間登陸或影響廣西的60個臺風致災的降水過程數據,1985-2013年的社會經濟情況數據取自《廣西統(tǒng)計年鑒》。災情數據來自廣西氣象信息中心、廣西農業(yè)廳、廣西民政廳和廣西防汛抗旱指揮部的災情綜述統(tǒng)計。
為了消除指標間的量綱影響,進行歸一化處理:

(5)
式中:xmin和xmax表示同一指標下的最小值和最大值,將指標數據范圍壓縮到0~1之間。
3.2構造災情指數與劃分災情等級
考慮到臺風災害對生命財產和社會經濟的影響,選取受災人口C1(萬人)、死亡人口C2(人)、農作物受災面積C3(khm2)、倒塌房屋C4(千間)和直接經濟損失C5(千萬元)這5個指標作為構造災情指數的關鍵指標。
臺風災情的綜合評價方法是對各指標在災情評估的權重進行確定,利用綜合指數來衡量災情的嚴重程度[24]。本文以信息熵構造綜合災情指數為:

(6)


表1 基于熵權的臺風災情評估指標權重
由表1可以看出,受災人口C1和直接經濟損失C5的權重較大,其次是農作物受災面積C3和倒塌房屋C4的權重,死亡人口C2的權重最小。受災人口指的是因災傷亡人數、因災失蹤人數等,直接經濟損失指的是農業(yè)、林業(yè)、漁業(yè)和建筑及室內財產的損失[25],二者是反映災情的生命財產損失情況的核心指標,因此二者權重較大。而死亡人數由氣象因子導致的具有偶然性,受災區(qū)經濟、居住環(huán)境等條件影響的程度更大[26],因此其權重最小是客觀合理。根據災情指數的大小,我們將災情劃分為幾個等級,這是災后評價、災情預估進行救助與管理的重要依據。系統(tǒng)聚類方法基本思想是將個樣品分成若干類,距離最小的一對合并成新一類,計算新類與其他類之間的距離,再將距離最近的兩類合并,依次聚類直至所有的樣品合為一類為止。本文參考馬宗晉等[27]等級劃分的思想,結合系統(tǒng)聚類方法,采用歐氏距離將災情指數劃分為5個等級(I級為微災,II級為小災,III級為中災,IV級為大災,V級為巨災)(見表2),避免了主觀劃分災情指數等級。
據廣西區(qū)民政廳的災情綜述,2008年9月24-27日全區(qū)受強臺風“黑格比”的影響,受災人口664.99萬人,農作物受災面積656.570 khm2,倒塌房屋19 358間,直接經濟損失高達69.7億元,由表2可知,災情指數為0.621,災情等級為大災(IV級),是受臺風災害很嚴重的災情。2013年8月14-20日全區(qū)受熱帶風暴“尤特”的影響,造成農作物受災面積59.28 khm2,直接經濟損失12.82億元,災情指數為0.529,災情等級為大災(IV級)。同年8月22日20時-25日20時,受臺風“潭美”減弱后的環(huán)流和西南季風共同影響,造成9市30縣(市、區(qū))25.37萬人受災,農作物受災面積15.18 khm2,直接經濟損失6 600.82萬元。“潭美”的移動速度快,在廣西的持續(xù)降水時間與“尤特”相比要短得多[28],受災情況較為輕,由表2可知,災情指數為0.165,災情等級為微災(I級)。上述表明該災情等級劃分合理,符合實際情況,可以作為災后救助與管理的重要依據。

表2 廣西1985-2013年臺風災情指數與災情等級
3.3基于ISOMAP降維、PCA降維和熵權特征提取的PNN預評估模型
承災體是指一個地區(qū)的社會經濟和發(fā)展狀況,比如人員、農作物、房屋等方面的指標。因此,本文選取單位面積GDPB1(億元)、人口密度B2(人/km2)、農作物總播種面積B3(khm2)、城鎮(zhèn)居民人均居住面積B4(m2)、農村居民人均生活用房面積B5(m2)、人均GDPB6(元/人)、就業(yè)人數B7(萬人)、每萬人在校大學生人數B8(人)、公路網密度B9(km/104km2)、每萬人擁有床位B10(床)、每萬人擁有醫(yī)生B11(人)、電話普及率B12(部/萬人)共12項指標。在致災源方面,本研究選取暴雨過程的時間長度A1(h)、暴雨過程降水極值A2(mm)和暴雨過程降水均值A3(mm)。
通過ISOMAP方法進行非線性降維。在構造鄰域圖G圖時,采用K-近鄰方法確定樣本鄰域,為了保持圖連通性,確定最小值K=8,用Floyd算法計算最短距離,作為測地距離的逼近,降維后的殘差曲線圖如圖1所示。

圖1 ISOMAP降維的殘差曲線圖
ISOMAP算法降維維數的方法一是當殘差曲線出現拐點,方法二是殘差值小于一定的閾值[12]。由圖1可知,當維數降到3維時,殘差曲線出現明顯拐點,且殘差值為3.199×10-4<0.05,確定采用ISOMAP降維后的3維向量代表承災體原始矩陣的多維向量。
采用主成分分析(PCA)對承災體原始矩陣進行線性降維,見表3。主成分1和主成分2的累積貢獻率是96%>80%,符合主成分降維的要求,將標準化后的原始數據代入主成分表達式得到承災體主成分得分矩陣。

表3 基于PCA降維的特征值、貢獻率和累積貢獻率
采用信息熵計算承災體各個指標的權重,計算結果見表4,選取對承災體系統(tǒng)起重要影響的指標(權重值>0.1)為單位面積GDPB1(億元)、每萬人擁有床位B10(床)這2項關鍵指標。

表4 基于熵權的承災體指標提取
分別將ISOMAP降維后的三維向量、PCA降維后的主成分得分矩陣和信息熵提取的關鍵指標,聯合致災源數據作為神經網絡的輸入神經元(矩陣p),將災情等級作為期望輸出(矩陣t),進行概率神經網絡的分類訓練和預測。Matlab創(chuàng)建PNN網絡的調用函數為net=newpnn(p,t,spread),其中,spread為網絡的擴展速度,spread值過大,需較多的神經元適應網絡快速變化,計算效率差;spread值過小,需較多的神經元適應網絡緩慢變化,網絡訓練性能差。經過多次實驗,最終確定spread取0.1,創(chuàng)建的PNN是個近鄰分類器,訓練準確度高。PNN具有網絡訓練性能好,訓練不需大量樣本等優(yōu)點,故本文選取10組登陸或影響廣西的重要臺風災害作為測試樣本,其他50組樣本作為訓練樣本,PNN預測結果如圖2~4所示。

圖2 基于ISOMAP降維的PNN預評估結果

圖3 基于PCA降維的PNN預評估結果

圖4 基于信息熵特征提取的PNN預評估結果
由圖2可知,在10組預測樣本中,基于ISOMAP降維的PNN預評估只有8號樣本(1311號臺風)誤判,其他樣本預判類別和實際類別重合說明預判準確,分類效果最好。由圖3可知,基于主成分分析降維的PNN預評估中,6號樣本(1213號臺風)和8號樣本(1311號臺風)誤判,其他樣本預判準確。由圖4可知,基于信息熵特征提取的重要指標的PNN預評估模型,4號樣本(1117號臺風)、8號樣本(1311號臺風)和10號樣本(1330號臺風)誤判,其他樣本預判準確。基于三種變量提取方法的PNN預評估結果對比如表5所示。
根據表5可知,基于ISOMAP降維的PNN預測災情等級的準確率最高(90%),運行時間最短(0.227 1 s),預評估效果最好。造成不同預測效果的原因是,PNN模型輸入指標提取的方法將直接或間接影響預評估結果的準確度,因此要深入分析致災源、承災體與災情之間的信息傳遞,有效的特征選取方法能提高PNN預評估的精準度。
在三種特征選取方法中,基于信息熵特征提取模型,因只選取對承災體系統(tǒng)的2項關鍵指標對
預評估會造成一定的信息損失,雖然計算效率有所提高,但對預評估的精確度有一定影響。基于主成分特征提取的模型,提取了承災體系統(tǒng)線性相關度高的特征分量,比信息熵方法減少信息損失,但忽略了高維數據內部的非線性結構。實驗結果表明,ISOMAP比PCA更好的地將高維數據的非線性流形結構挖掘,保留更多原始信息,計算效率最高,采用ISOMAP算法對承災體指標進行非線性降維過程中,鄰域K的取值和降維維數n是決定其降維效果優(yōu)劣的重要參數[17],K取值過大會導致數據集變成局部鄰域,K取值過小會導致鄰域圖不連通,本實驗K取最優(yōu)值8。在K取定值情況下,由殘差曲線圖的明顯拐點確定降維維數n。若n值過大,會增加數據冗余度,若n值過小,會導致數據集分離部分被映射到一起。本實驗由殘差曲線圖確定n為3,降維效果最好。
此外,我們注意到1311號臺風“尤特”在三種特征選取的PNN預評估模型均預測錯誤,可視作異常點分析。1311號臺風“尤特”以熱帶風暴強度進入廣西,先后造成15日(15日08時—16日08時)和18日(18日08時—19日08時) 2個特大暴雨,部分暴雨落區(qū)重疊,造成當地重大生命財產損失[29]。根據廣西民政廳統(tǒng)計,臺風“尤特”造成全區(qū)直接經濟損失12.82億元,153.17萬人受災,災情等級劃分為大災(IV級)較合理。
4結論與展望
(1)基于概率神經網絡的災情等級識別是利用其強大的非線性處理能力,將致災因子和承災體的特征空間映射到災情等級類型空間中,形成了一個較強容錯能力和自適應能力的識別網絡系統(tǒng),網絡訓練不需大量樣本,總收斂于Bayes優(yōu)化解,穩(wěn)定性高。

表5 基于三種方法選指標的PNN預評估結果
(2)在采用概率神經網絡進行臺風災情等級預評估模型時,模型輸入的影響因子選擇是一個重要問題,選擇起關鍵作用的因子,提高計算效率和模型預評估的精確度。主成分分析方法本質是個二階統(tǒng)計特征的線性映射方法,而很多自然災害系統(tǒng)的數據信息都包含高階非線性關系中。基于等距映射的非線性特征提取方法可以充分有效地挖掘預報因子的信息,算法效率高,具有全局優(yōu)化性和漸近收斂性的優(yōu)點,且在臺風災情評估指標選取方面鮮少研究。
(3)ISOMAP算法適用于自然災害系統(tǒng)的指標降維。本研究基于等距映射的非線性特征提取建立概率神經網絡預評估模型,該模型預測精度高,對臺風可能造成的災害進行有效的預評估,有助于相關部門更好的對災情的預防與救助做出有效的決策。
(4)采用信息熵構造災情指數,對災情指數采用系統(tǒng)聚類方法進行災情劃分等級,克服了人為劃分災情等級的主觀隨意性。
(5)本研究對異常極值點的預測仍存在誤差,還需對臺風災情預評估模型進一步優(yōu)化。臺風災害系統(tǒng)是由致災源的強度、承災體的脆弱性及防災減災應急能力等因素共同作用的結果,關于臺風災情的預評估工作還需考慮更多實際的影響因素,例如臺風登陸路徑、最大風速和最低氣壓等預報因素,還可以將城市護林、排水和城市建設實施的損害情況等因素一并考慮到災情預評估的研究中。
參考文獻:
[1]溫克剛,楊年珠.中國氣象災害大典-廣西卷[M].北京:氣象出版社,2007.
[2]黃雪松,廖雪萍,覃衛(wèi)堅.廣西熱帶氣旋特征變化與災損變化態(tài)勢[J].氣象研究與應用,2014,35(1):2-6.
[3]彭昱忠,王謙,元昌安,等.數據挖掘技術在氣象預報研究中的應用[J].干旱氣象,2015,33(1):19-27.
[4]葉雯,劉美南,陳曉宏,等.基于模式識別的臺風風暴潮災情[J].海洋通報,2004,23(4):65-70.
[5]劉合香,簡茂球.基于粒子群-投影尋蹤和遺傳-神經網絡集成的預測模型[J].中山大學學報:自然科學版,2012,51(5):113-119.
[6]陳佩燕,楊玉華,雷小途.我國臺風災害成因分析及災情預估[J].自然災害學報,2009,18(1):64-73.
[7]徐明,雷小途,楊秋珍.應用聯合極值分布評估熱帶氣旋影響風險——以“海葵”對上海地區(qū)影響為例[J].災害學,2014,29(3):124-130.
[8]吳先華,徐中兵,袁迎蕾,等.臺風災害的關聯經濟損失評估——以江蘇省為例[J].災害學,2014,29(2):77-83.
[9]魏章進,隋廣軍,唐丹玲.基于聚類與回歸方法的臺風災情統(tǒng)計評估[J].數理統(tǒng)計與管理,2014,33(3):400-407.
[10]芮建勛,張發(fā)勇,鮑曙明,等.面向臺風事件與災害影響評估的時空數據管理模式[J].災害學,2015,30(3):43-46.
[11]劉合香,秦川,倪增華.組合權重和ArcGIS相結合的廣西洪澇災害風險分析[J].災害學,2015,30(3):76-79.
[12]劉少軍,張京紅,何政偉,等.基于GIS的臺風災害損失評估模型研究[J].災害學,2010,25(2):64-67.
[13]Blaikie P,Cannon T,Davis I,et al.At Risk:Natural Hazard,People’s Vulnerability and Disasters[M].London:Routledge,1994:210.
[14]鞏在武,胡麗.臺風災害評估中的影響因子分析[J].自然災害學報,2015,24(1):203-213.
[15]倪艷.Isomap算法在地震屬性參數降維中的應用[J].西南民族大學學報:自然科學版,2008,34(2):397-400.
[16]黃穎,金龍,黃小燕,等.基于局部線性嵌人的人工智能臺風強度集合預報模型[J].氣象,2014,40(7):806-815.
[17]Tenenbaum J B,Silva V,Langford J C.A global geometric framework for nonliner dimensionnality reduction[J].Science,2000,290(5500):2319-2323.
[18]翁時鋒,張長水,張學工.非線性降維在高維醫(yī)學數據處理中的應用[J].清華大學學報:自然科學版,2004,44(4):485-488.
[19]尹煥.基于ISOMAP的機械故障診斷方法研究與應用[D].廣州:華南理工大學,2012:15-22.
[20]張星.自然災害災情的熵權綜合評價模型[J].自然災害學報,2009,18(6):189-191.
[21]Specht D F.Probabilistic neural networks[J].Neural Networks,1990,3(1):109-118.
[22]郭聯金,羅炳軍.PNN與BP神經網絡在鋼板表明缺陷分類中的應用研究[J].機電工程,2015,32(3):352-357.
[23]王雨虹,付華,張洋,等.基于KPCA和CIPSO-PNN的煤與瓦斯突出強度辨識模型[J].傳感技術學報,2015,28(2):271-277.
[24]胡永宏,賀思輝.綜合評價方法[M].北京:科學出版社,2000.
[25]王志強,陳思宇,呂雪鋒,等.風暴潮災害受災人口與直接經濟損失評估方法研究進展[J].北京師范大學學報,2015,51(3):274-279.
[26]陳舜華,呂純濂,李吉順.福建省臺風災害評估試驗[J].中國減災,1994,4(3):31-34.
[27]趙阿興,馬宗晉.自然災害損失評估指標體系的研究[J].自然災害學報,1993,2(3):1-7.
[28]張芳琳.“潭美”入桂待一天暴雨集中桂中北[N].南寧晚報,2013-8-24(5).
[29]陳見,賴珍權,羅小莉,等.“尤特”超強臺風殘留低渦引發(fā)的廣西特大暴雨成因分析[J].暴雨災害,2014,33(1):20-25.
*收稿日期:2016-01-13修回日期:2016-03-11
基金項目:國家自然科學基金(41465003);廣西研究生教育創(chuàng)新計劃項目(YCSZ201585)
第一作者簡介:陳燕璇(1988-),女,廣東汕頭人,碩士研究生,研究方向為概率統(tǒng)計、數學模型、自然災害風險分析. E-mail:colourful48@qq.com 通訊作者:劉合香(1962-),女,山東荏平人,教授,碩士生導師,研究方向為概率統(tǒng)計、數學模型、自然災害風險分析. E-mail:hx_post@163.com
中圖分類號:X43;TP3
文獻標志碼:A
文章編號:1000-811X(2016)03-0020-07
doi:10.3969/j.issn.1000-811X.2016.03.004
Probabilistic Neural Network Pre-Assessment Model Based on Isometric Feature Mapping Dimentional Reduction in Typhoon Disaster
CHEN Yanxuan, LIU Hexiang and TAN Jinkai
(CollegeofMathematicsandStatisticsSciences,GuangxiTeachersEducationUniversity,Nanning530023,China)
Abstract:Typhoon hazard, between hazard bearing body and the disaster is a complex nonlinear dynamical system; accurately and efficiently extract the important indicators for the pre-assessment of typhoon disaster grade is an important basis for disaster prevention and relief work. In this paper, we apply principal component analysis, isometric feature mapping and entropy to extract key indicators of hazard bearing body, with hazard source as the input neurons, and disaster grade as output neurons, establishing probabilistic neural network pre-assessment model in typhoon disaster. The results show that the accuracy of probabilistic neural network pre-assessment model based on the non-linear feature extraction isometric feature mapping reaches 90%, the model has a satisfactory level of accuracy and generalization ability, provide a new way for natural disaster risk assessment, having certain reference value.
Key words:probabilistic neural network; Isometric Feature Mapping; entropy; typhoon; disaster; pre-assessment
陳燕璇,劉合香,譚金凱. 基于等距特征映射降維的臺風災情概率神經網絡預評估模型[J]. 災害學,2016,31(3):20-25,30. [CHEN Yanxuan, LIU Hexiang and TAN Jinkai.Probabilistic Neural Network Pre-Assessment Model Based on Isometric Feature Mapping Dimentional Reduction in Typhoon Disaster[J].Journal of Catastrophology,2016,31(3):20-25,30.]