基于主成分分析法和遺傳算法優(yōu)化支持向量機(jī)模型的泥石流危險(xiǎn)度預(yù)測
我國幅員遼闊,地形多山,泥石流災(zāi)害頻發(fā),其短時(shí)間內(nèi)造成的巨大破壞嚴(yán)重威脅山區(qū)人民的生命財(cái)產(chǎn)安全[1-3],因此對泥石流進(jìn)行危險(xiǎn)度預(yù)測有著至關(guān)重要的現(xiàn)實(shí)意義。
泥石流危險(xiǎn)度受多個(gè)影響因子共同作用,且危險(xiǎn)度與指標(biāo)之間的復(fù)雜關(guān)系很難直觀地表示出來。針對這一難題,許多專家學(xué)者進(jìn)行了深入的探索和研究。陳華[4]等引入BP神經(jīng)網(wǎng)絡(luò)對泥石流危險(xiǎn)度進(jìn)行評價(jià),沈簡[5]等利用模糊數(shù)學(xué)建立了泥石流危險(xiǎn)度綜合評判模型,毛碩[6]等將層次分析法和灰色關(guān)聯(lián)度法相結(jié)合對泥石流危險(xiǎn)度進(jìn)行了預(yù)測。以上研究均取得了一定的效果,但神經(jīng)網(wǎng)絡(luò)存在收斂速度過慢、局部最小值的缺陷,模糊數(shù)學(xué)本身的隸屬度函數(shù)制定規(guī)則缺少必要的依據(jù)。
基于此,本文提出了主成分分析法和遺傳算法優(yōu)化的支持向量機(jī)模型,實(shí)現(xiàn)對泥石流危險(xiǎn)度的預(yù)測。首先采用主成分分析法提取泥石流危險(xiǎn)度影響因子的主成分,然后利用遺傳算法優(yōu)化支持向量機(jī)參數(shù),訓(xùn)練得到PCA-GA-SVM模型,用該模型對預(yù)測泥石流溝樣本的危險(xiǎn)度進(jìn)行預(yù)測,為泥石流危險(xiǎn)度評價(jià)提供了一個(gè)新的思路。
(一)主成分分析法
主成分分析法[7-8]是通過構(gòu)造原變量的線性組合來得到維數(shù)較少且互不相關(guān)的新變量,這些新變量能夠反映原始變量所提供的大部分信息,通過分析新變量來解決實(shí)際問題。其具體實(shí)現(xiàn)步驟為:設(shè)(X1, X2,…,Xn)是總體X的n個(gè)樣本,每個(gè)樣本觀察m維變量,觀測數(shù)據(jù)矩陣可記為:

首先計(jì)算該矩陣的協(xié)方差陣,為了避免不同變量間量綱差異導(dǎo)致的總體方差受較大方差變量控制的問題,根據(jù)公式將協(xié)方差陣化為其對應(yīng)的相關(guān)系數(shù)陣。然后求出相關(guān)系數(shù)陣的特征值λ1≥ λ2≥ … λm≥0,計(jì)算得到它們對應(yīng)的正交單位化特征向量e1,e2,…,em。第i個(gè)主成分的貢獻(xiàn)率為λi/P,其中i=1, 2, 3, …,m,前q個(gè)主成分的累計(jì)貢獻(xiàn)率為當(dāng)前q個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)85%以上時(shí),用這q個(gè)主成分來代替初始的影響因素進(jìn)行分析,一般是滿足工程要求的。
(二)遺傳算法
遺傳算法[9-10]是一種汲取自然進(jìn)化基本思想尋求最優(yōu)解的方法,有較強(qiáng)的全局優(yōu)化特性和全局搜索能力。其基本思路為:任取一組參數(shù)作為支持向量機(jī)初始參數(shù),并對參數(shù)進(jìn)行編碼,編碼原則視具體情況需要,從而構(gòu)造了第一代遺傳群體;通過計(jì)算誤差求出其適應(yīng)度。若誤差越大,則適應(yīng)度越小;將所有適應(yīng)度大個(gè)體遺傳給下一代;通過對當(dāng)前一代群體算子進(jìn)行交叉、變異等遺傳操作處理,產(chǎn)生下一代群體;重復(fù)以上步驟,不斷優(yōu)化支持向量機(jī)參數(shù),直到參數(shù)滿足條件或達(dá)到最大迭代次數(shù)。
(三)支持向量機(jī)
支持向量機(jī)[11-14]是由Vapnik于1995年根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種在有限樣本下進(jìn)行機(jī)器學(xué)習(xí)的方法,其原理如下:

其中:w稱為可調(diào)的權(quán)值向量,b為偏置值,且w和Φ(Xi)均為n維向量。尋找最優(yōu)的分類超平面亦即尋找最優(yōu)的w和b。由于擬合誤差的存在,引入ξ和ξ*作為松弛變量,采用ε-SVR模型建立帶有約束條件的模型優(yōu)化函數(shù):


將(3)式分別對w和b求偏導(dǎo)并置零,反代回(3)式中就可以得到上述問題的對偶問題,找到對應(yīng)的KKT條件,并使用二次規(guī)劃優(yōu)化算法(Sequential Minimal Optimization,SMO)作為訓(xùn)練算法依次計(jì)算得到參數(shù)對應(yīng)的最優(yōu)乘子同時(shí)構(gòu)造得到預(yù)測函數(shù):

非線性映射Φ的表達(dá)式很難確定,故引入核函數(shù)(Kernel)將原始特征的內(nèi)積平方和等價(jià)為映射后的特征內(nèi)積平方和,從而間接的求解非線性映射Φ。滿足泛函Mercer定理的核函數(shù)均可作為有效核函數(shù),其中徑向基核函數(shù)具有較寬的收斂域,為解決實(shí)際問題中最常用的核函數(shù)。
通過總結(jié)分析前人經(jīng)驗(yàn),采用云南省37條泥石流溝數(shù)據(jù)為樣本(見表1),隨機(jī)選擇28條泥石流溝作為學(xué)習(xí)樣本訓(xùn)練支持向量機(jī)模型,剩余9條泥石流溝作為預(yù)測樣本。輸出為泥石流危險(xiǎn)度,分為4類:輕度危險(xiǎn)、中度危險(xiǎn)、高度危險(xiǎn)和極度危險(xiǎn),對應(yīng)數(shù)值分別為1、2、3、4。
其中,S1:一次泥石流(可能)最大沖出量(104m3);S2:泥石流發(fā)生頻率(次/100a);S3:流域面積(km2);S4:主溝長度(km);S5:流域最大相對高差(km);S6:流域切割密度(km/ km2);S7:泥沙補(bǔ)給段長度比。

表1 云南省37條泥石流溝原始數(shù)據(jù)
(一)主成分分析
利用PCA對7個(gè)泥石流危險(xiǎn)度影響因子進(jìn)行分析,相關(guān)系數(shù)矩陣如表2所示,得到歸一化特征值,各成分貢獻(xiàn)率和累計(jì)貢獻(xiàn)率如表3所示。從表3中可以看出,前4個(gè)主成分的累計(jì)貢獻(xiàn)率為89.037%,基本能夠反映原來7個(gè)變量所攜帶的信息。這3個(gè)主成分的表達(dá)式見式(5)。將提取出的3個(gè)線性無關(guān)的主成分代替原來的7個(gè)影響因素作為輸入變量來建立支持向量機(jī)模型,模型維度由7維降低到3維,大大簡化了模型的建立與運(yùn)算。

表2 相關(guān)系數(shù)陣

表3 歸一化特征值、貢獻(xiàn)率和累計(jì)貢獻(xiàn)率

(二)模型建立
本文選取SVM的核函數(shù)為(RBF)徑向基函數(shù),同時(shí)運(yùn)用MATLAB語言編寫GA優(yōu)化SVM模型參數(shù)程序,以式(5)的3個(gè)主成分作為輸入變量,采用遺傳算法確定SVM的參數(shù)C和g,種群數(shù)量n=20,終止代數(shù)為100,經(jīng)過多次訓(xùn)練,得到最優(yōu)的遺傳算法適應(yīng)度曲線如圖1所示。確定SVM的最優(yōu)懲罰參數(shù)為c=74.655,g=46.221。利用參數(shù)c和g確定的GA-SVM模型對學(xué)習(xí)樣本進(jìn)行訓(xùn)練和回判,結(jié)果如圖2所示。

圖1 遺傳算法適應(yīng)度曲線
由圖2可以直觀的看出,前28條泥石流中第2、16和27回判偏高,其余全部一致,回判準(zhǔn)確率達(dá)89.3%,綜合分析誤差可知危險(xiǎn)度為1類的泥石流僅有兩條,數(shù)據(jù)信息較少影響對SVM模型的訓(xùn)練,回判出現(xiàn)誤差,而且第27條黑水河泥石流發(fā)生頻率較高,若發(fā)生泥石流易造成重大災(zāi)害,定為高危險(xiǎn)等級(即3類)較為合理。因此該模型回判準(zhǔn)確能夠滿足工程要求,可以用于預(yù)測樣本的預(yù)測。

圖2 學(xué)習(xí)樣本回判結(jié)果
(三)預(yù)測結(jié)果與分析
將建立的PCA-GA-SVM模型用于預(yù)測樣本的預(yù)測,同時(shí)運(yùn)用未經(jīng)主成分分析的學(xué)習(xí)樣本原始數(shù)據(jù)訓(xùn)練GA-SVM模型,并對預(yù)測樣本進(jìn)行預(yù)測,兩種模型預(yù)測結(jié)果如表4所示。

表4 兩種模型預(yù)測結(jié)果
從表4中可以發(fā)現(xiàn)9條泥石流中僅小白泥溝預(yù)測偏高,其余全部一致,預(yù)測準(zhǔn)確率達(dá)88.9%,而小白泥溝發(fā)生頻率高,一次性沖出量大,定為4類危險(xiǎn)度較為合理,表明運(yùn)用PCA-GA-SVM模型預(yù)測泥石流危險(xiǎn)度是有效的。此外,無論是將原始數(shù)據(jù)還是提取的主成分作為模型輸入,支持向量機(jī)的泥石流危險(xiǎn)度預(yù)測模型均有著很高的準(zhǔn)確率,再次證明了支持向量機(jī)在解決小樣本、非線性、高維數(shù)問題時(shí)具有獨(dú)特的優(yōu)越性。同時(shí)也可以看到,在運(yùn)用主成分分析法降低樣本維度縮短運(yùn)行時(shí)間的情況下,模型的預(yù)測精度并未受到影響。
1.泥石流危險(xiǎn)度受多個(gè)影響因子間共同作用,主成分分析法降低了影響因子的維度,確定的3個(gè)主成分代表了7個(gè)變量所攜帶信息量的89.037%,有效地剔除了變量之間的冗余信息,提高了模型運(yùn)行效率。
2.GA遺傳算法具有易于實(shí)現(xiàn)、收斂速度快且能夠找到全局最優(yōu)解的特點(diǎn),尋優(yōu)得到了最優(yōu)的支持向量機(jī)參數(shù)c=74.655,g=46.221,由此建立的PCAGA-SVM模型預(yù)測準(zhǔn)確率達(dá)88.9%,預(yù)測精度滿足工程要求。
3.泥石流危險(xiǎn)度與多個(gè)影響因子間存在復(fù)雜的非線性關(guān)系,本文通過主成分分析法結(jié)合遺傳算法優(yōu)化的支持向量機(jī)模型較好地實(shí)現(xiàn)了泥石流危險(xiǎn)度預(yù)測,但模型的普遍適用性還需要進(jìn)一步驗(yàn)證。
[1] 陳鵬宇, 喬景順, 彭祖武, 等. 基于等級相關(guān)的泥石流危險(xiǎn)因子篩選與危險(xiǎn)度評價(jià)[J]. 巖土力學(xué), 2013(5): 1409-1415.
[2] 劉希林. 溝谷泥石流危險(xiǎn)度計(jì)算公式的由來及其應(yīng)用實(shí)例[J].防災(zāi)減災(zāi)工程學(xué)報(bào), 2010(3):241-245.
[3] 袁穎, 王晨暉, 周愛紅. 泥石流危險(xiǎn)性評價(jià)的支持向量機(jī)模型相關(guān)問題研究[C]//第十屆全國工程地質(zhì)學(xué)術(shù)年會論文集. 成都:科學(xué)出版社, 2016: 841-847.
[4] 陳華, 上官云龍. 基于BP神經(jīng)網(wǎng)絡(luò)的方法評價(jià)泥石流危險(xiǎn)度[J].山西建筑, 2013(10): 89-90.
[5] 沈簡, 饒軍, 傅旭東. 基于模糊綜合評價(jià)法的泥石流風(fēng)險(xiǎn)評價(jià)[J]. 災(zāi)害學(xué), 2016(2): 171-175.
[6] 毛碩, 王運(yùn)生, 曹水合. 基于可拓和組合賦權(quán)的泥石流危險(xiǎn)性評價(jià)[J]. 工業(yè)安全與環(huán)保, 2016(1): 56-60.
[7] 孫占全, 潘景山, 張贊軍, 等. 基于主成分分析與支持向量機(jī)結(jié)合的交通流預(yù)測[J]. 公路交通科技, 2009(5): 127-131.
[8] 姚智勝, 邵春福, 熊志華, 等. 基于主成分分析和支持向量機(jī)的道路網(wǎng)短時(shí)交通流量預(yù)測[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2008(1): 48-52.
[9] 陳偉根, 滕黎, 劉軍, 等. 基于遺傳優(yōu)化支持向量機(jī)的變壓器繞組熱點(diǎn)溫度預(yù)測模型[J]. 電工技術(shù)學(xué)報(bào), 2014(1): 44-51.
[10] 吳景龍, 楊淑霞, 劉承水. 基于遺傳算法優(yōu)化參數(shù)的支持向量機(jī)短期負(fù)荷預(yù)測方法[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009(1): 180-184.
[11] VAPNIK V N. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1995: 23-105.
[12] 孫繼平, 佘杰. 基于支持向量機(jī)的煤巖圖像特征抽取與分類識別[J]. 煤炭學(xué)報(bào), 2013(S2): 508-512.
[13] 丁世飛, 齊丙娟, 譚紅艷. 支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào), 2011(1): 2-10.
[14] 吳景龍, 楊淑霞, 劉承水. 基于遺傳算法優(yōu)化參數(shù)的支持向量機(jī)短期負(fù)荷預(yù)測方法[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009(1): 180-184.
(責(zé)任編輯:劉格云)
Debris Flow Risk Prediction Based on PCA-GA-SVM Model
王晨暉,張 超
WANG Chen-hui,ZHANG Chao
河北地質(zhì)大學(xué) 勘查技術(shù)與工程學(xué)院,河北 石家莊 050031
Hebei GEO University, Shijiazhuang, Hebei 050031
為準(zhǔn)確預(yù)測泥石流危險(xiǎn)度,提出了基于主成分分析法(PCA)和遺傳算法(GA)優(yōu)化的支持向量機(jī)(SVM)模型。首先利用主成分分析法對7個(gè)泥石流危險(xiǎn)度影響因子進(jìn)行數(shù)據(jù)降維,將提取出的主成分作為支持向量機(jī)模型的輸入向量,以泥石流危險(xiǎn)度作為輸出向量,并運(yùn)用遺傳算法尋優(yōu)獲得最佳支持向量機(jī)模型參數(shù),最終建立了基于PCA-GA-SVM的泥石流危險(xiǎn)度預(yù)測模型,并對9條泥石流溝的危險(xiǎn)度進(jìn)行預(yù)測,結(jié)果表明:PCA-GA-SVM模型的預(yù)測準(zhǔn)確率達(dá)88.9%,滿足工程要求。
泥石流危險(xiǎn)度;主成分分析法;遺傳算法;支持向量機(jī)
In order to predict debris flow risk accurately, support vector machine (SVM) model optimized by genetic algorithm (GA) based on principle component analysis (PCA) was proposed. First, using PCA to make data dimension reduction for 7 influencing factors of debris flow risk, then the extracted principle components were used as model input vectors, and debris risk degree as model output vectors, and the best SVM parameters were optimized by GA, finally the prediction model for debris flow risk based on PCA-GA-SVM was established, and it was used to predict the risk of 9 debris flow gullies. The result shows that the prediction accuracy of PCA-GA-SVM model is 88.9%, which meets general requirements of engineering.
debris flow risk; principal component analysis; genetic algorithm; support vector machine
P642.23
A
1007-6875(2017)02-0020-05
??日期:2017-03-02
10.13937/j.cnki.hbdzdxxb.2017.02.004
河北地質(zhì)大學(xué)第十三屆學(xué)生科技基金重點(diǎn)科研項(xiàng)目(KAG201607)。
王晨暉(1992—),男,河北邢臺人,碩士研究生,主要從事地質(zhì)災(zāi)害治理與防治研究。