(成都理工大學 地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護國家重點實驗室,四川 成都 610059)
滑坡是山區(qū)環(huán)境常見的一種多發(fā)性地質(zhì)災(zāi)害,由于其具有極強的突發(fā)性、破壞性及隨機性特點,往往造成不可估量的生命財產(chǎn)損失和巨大的社會影響[1]。如2017年四川茂縣磨子溝滑坡、2017年四川茂縣新磨村滑坡和2018年金沙江白格滑坡,都造成了巨大人員財產(chǎn)損失。為減少災(zāi)害造成的損失,自20世紀60年代開始,大量學者針對滑坡位移預(yù)測展開研究,提出了灰色理論模型(Grey Model,GM)[2]、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[3]及非線性系統(tǒng)理論方法等[4-5],上述方法在位移預(yù)測中具有一定優(yōu)點,但通常也存在以下不足之處:灰色模型在預(yù)測中缺乏對數(shù)據(jù)的學習環(huán)節(jié),難以預(yù)測非線性滑坡位移;人工神經(jīng)網(wǎng)絡(luò)易受局部最優(yōu)與網(wǎng)絡(luò)結(jié)構(gòu)類型干擾,模型收斂緩慢,導(dǎo)致預(yù)測結(jié)果不理想。可見,滑坡在變形發(fā)展的過程中受到坡體內(nèi)部控制因素與外部誘發(fā)因素的共同作用,在位移數(shù)據(jù)上常表現(xiàn)出顯著的非線性與高度的隨機性。如果在滑坡位移預(yù)測中,直接采用原始位移曲線分析滑坡變形發(fā)展,其預(yù)測結(jié)果受到了較大干擾,往往效果不好。
基于時間序列的分析方法在滑坡位移預(yù)測中是一個相對集中的研究方向。此時,在建立預(yù)測統(tǒng)計模型時不必知道滑坡變形中的力學過程與機制,以及其他復(fù)雜地質(zhì)因素,這是該類方法突出優(yōu)勢[6-7]。其中,支持向量機(SVM)方法在眾多滑坡預(yù)測方法中較為突出,可良好地解決眾多學習方法中的困難,如小樣本、非線性、過學習、高維數(shù)等,有很好的推廣性。
基于此,本文以位于湖北省恩施市崔壩鎮(zhèn)香爐壩村滑坡為例,采用2017年10月12日至2018年5月27日共計227 d監(jiān)測數(shù)據(jù)作為學習樣本,其中前190 d數(shù)據(jù)作為訓練樣本,后37 d作為驗證樣本,開展滑坡位移預(yù)測深入研究。訓練樣本通過集合經(jīng)驗?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition, EEMD)將復(fù)雜的位移數(shù)據(jù)進行分解,使得分解的各子序列具有一定物理意義及規(guī)律,能反映滑坡位移真實變化的固有模態(tài)函數(shù)(Intrinsic Mode Function, IMF),避免了直接采用原始位移數(shù)據(jù)所遇到的非線性與隨機性問題;再將得到的各個 IMF 分別輸入到 GA-SVM 模型中進行訓練,通過機器自學習,避免未學習、人為干預(yù)而導(dǎo)致的預(yù)測效果不佳問題;最后建立 GA-SVM 預(yù)測模型,并采用高斯核(Radial Basis Function,RBF)作為核函數(shù),擬合預(yù)測各子序列得到預(yù)測結(jié)果,疊加各子序列預(yù)測結(jié)果即可獲得最終滑坡的預(yù)測值。通過建立預(yù)測模型評價體系,將預(yù)測結(jié)果與驗證樣本進行對比,再與傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(SVM)、遺傳算法優(yōu)化的支持向量機(GA-SVM)進行對比,從而證實該模型的合理性與優(yōu)勢性。
Huang等[8]針對非線性、非平穩(wěn)信號提出了一種自適應(yīng)信號分解算法,并提出固有模態(tài)函數(shù)概念,通過經(jīng)驗?zāi)B(tài)分解(EMD)方法,可將所有時間序列分解成多組 IMF 子序列和一組余項序列。通過查閱文獻[8]可知EMD的工作原理: 將原有序列不斷剔除極大值與極小值,并連接所有極值點形成上下包裹曲線,通過平均上下曲線得到均值,將原有序列分解成如下公式:
(1)
式中,n為固有模態(tài)函數(shù)的個數(shù);rn(t)為余量序列,一般是x(t)的平均趨勢;Ci(t)為第i個固有模態(tài)函數(shù)。
經(jīng)驗?zāi)B(tài)分解在分解原序列的過程中可能存在相似尺度的局部序列被分解在不同 IMF 子序列中或者同一個 IMF 子序列存在尺度差異巨大的幾種序列等現(xiàn)象。集合經(jīng)驗?zāi)B(tài)分解[9]是在 EMD 的基礎(chǔ)上補充了部分理論,解決了 EMD 自身的缺陷問題。EEMD在原有序列中增加白噪聲,再將分解出的各個 IMF 子序列取平均值作為最終的 IMF。EEMD 算法中所加高斯白噪聲的次數(shù)服從如下公式規(guī)律:
(2)
式中,N為添加噪聲序列的數(shù)目;ε為添加高斯噪聲序列的振幅;εn為最終標準離差,為原有序列與分量疊加結(jié)果的偏離。
EEMD需要確定的參數(shù)為N和εn。添加噪聲序列的最佳數(shù)目通常設(shè)為100~200,可得到較為滿意的分解子序列。通過網(wǎng)格搜索法,本文將噪聲序列數(shù)目N設(shè)為200 ,將εn設(shè)定為0.15。
通過EEMD分解得到的 IMF 的頻率和振幅都是變化的,第一個 IMF 的頻率最高,之后 IMF 的頻率依次遞減,余項rn(t)的頻率最低,周期最長。
EEMD 通過數(shù)據(jù)本身的時間尺度進行分解,不依靠人為干預(yù)子序列的函數(shù)類型,通常滿足了各種數(shù)據(jù)的分解要求。
支持向量機(SVM)是V.Vapnik[10]在統(tǒng)計學習理論基礎(chǔ)中首次提出的一種理論模型。SVM 模型解決了小樣本、高維數(shù)和非線性等問題,還可以實現(xiàn)基于小樣本的高維非線性系統(tǒng)的精確擬合法,在機器學習研究中得到廣泛的應(yīng)用[11]。已知一組訓練集如下:
D={(x1,y1),(x2,y2),…,(xl,yl),x∈R,y∈R}
(3)
式中,l為樣本數(shù),R為實數(shù)集。
公式(3)中的訓練集通過非線性映射可將一組向量映射在新的高位特征空間,巧妙地將非線性問題轉(zhuǎn)化為線性問題,通過解決線性回歸問題避免了非線性計算的復(fù)雜性。設(shè)原訓練集為D,通過映射Z=φ(x)轉(zhuǎn)化為高維空間E。通過核函數(shù)等效高維空間內(nèi)積形式,避免計算復(fù)雜性。設(shè)u,v為原空間D中的兩向量,定義對稱函數(shù)k(u,v)且滿足 Mercer 條件,可得到k(u,v)=φ(u)φ(v)。通過映射的方法可以使計算與高維空間的維數(shù)無關(guān),從而使得非線性問題轉(zhuǎn)化為線性回歸問題。SVM 算法將求解過程替換成一個線性約束的凸二次規(guī)劃優(yōu)化問題,并且保證了解在全局的最優(yōu)性和唯一性[12〗。支持向量機回歸模型為
(4)

核函數(shù)的選擇與參數(shù)的確定是支持向量機建模精度的關(guān)鍵所在,通過查閱文獻[13]可知,高斯核可適用于任意分布的樣本,并且已經(jīng)被證實是在樣本數(shù)據(jù)缺少先驗知識的情況下應(yīng)用效果最好的,本文選擇高斯核作為此次SVM模型核函數(shù)。
SVM 的預(yù)測精度會受到模型參數(shù)的影響,但是這些參數(shù)需要預(yù)測者依靠經(jīng)驗選擇,人為設(shè)置參數(shù)值可能存在“欠學習”“過學習”或精度不高等問題,在實際構(gòu)建模型中往往效果不佳,難以保證模型預(yù)測結(jié)果最優(yōu)。
遺傳算法(Genetic Algorithm, GA)具有非常強的魯棒性與全局優(yōu)化搜索能力,適合復(fù)雜的優(yōu)化問題[14]。本文采用GA 優(yōu)化支持向量機的方法對 EEMD 分解的各子序列進行分類識別,構(gòu)建支持向量機模型,利用GA優(yōu)化SVM模型懲罰系數(shù)c、不敏感系數(shù)ε和核函數(shù)參數(shù)σ,從而進行滑坡位移預(yù)測,這樣將大幅提升SVM模型精度和使用范圍。基于 GA-SVM的參數(shù)尋優(yōu)流程見圖 1 。

圖1 GA-SVM尋優(yōu)流程Fig.1 Flow chart of parameters optimizationbased on GA-SVM


圖2 EES-260監(jiān)測點布置Fig.2 Layout of monitoring points of EES-260 landslide

圖3 各監(jiān)測點滑坡變形時間序列Fig.3 Landslide deformation time series of eachmonitoring point
根據(jù)現(xiàn)場滑坡破壞情況,可知坡體右側(cè)變形嚴重,出現(xiàn)多處剪切裂縫,坡體處于不穩(wěn)定狀態(tài),需要重點關(guān)注管道本體安全,因此本文選取 EES-260 滑坡中變形劇烈 JC04 監(jiān)測點作為研究對象,將2017年10月13日至2018年4月20日共190 d數(shù)據(jù)作為訓練樣本(驗證樣本采用交叉驗證方式中“留一法”生成),2018年4月21日至5月27日共37 d數(shù)據(jù)作為測試樣本,如圖3所示。應(yīng)用EEMD-GA-SVM 模型進行訓練和預(yù)測,并建立相應(yīng)的BPNN、SVM、GA-SVM模型和 EEMD-GA-SVM 作對比,具體流程如圖4所示。

圖4 基于聚類經(jīng)驗?zāi)B(tài)分解的 GA-SVM 耦合模型計算流程Fig.4 Calculation flow of EEMD-GA-SVM model
EEMD 能將非線性與非平穩(wěn)的信號分解成具有不同特征尺度且平穩(wěn)的信號,可以解決固有模態(tài)局部相似的問題。SVM 能較好地解決多因素影響下的復(fù)雜系統(tǒng)建模問題,并且具有小樣本、全局最優(yōu)、良好推廣性等特點。結(jié)合EEMD 與 SVM 各自優(yōu)勢,構(gòu)建滑坡預(yù)測模型并預(yù)測位移發(fā)展變化情況。
滑坡變形極其不穩(wěn)定、波動性較強,表現(xiàn)出顯著地非線性與高度隨機性的特點。采用 EEMD 對監(jiān)測數(shù)據(jù)進行分解處理,得到 5 個 IMF 子序列和一個余項 RES 子序列,如圖5所示。

圖5 滑坡位移量EEMD分解結(jié)果Fig.5 Decomposition subseries based on EEMD
分別對 IMF1,IMF2,IMF3,IMF4系列建立 GA-SVM 預(yù)測模型,進化代數(shù)maxgen設(shè)為 100 ,種群數(shù)sizepop設(shè)為20,交叉率Pc設(shè)為0.8,變異率Pm設(shè)為0.2,適應(yīng)度函數(shù)為5折交叉驗證(cross validation,CV)的MSE。經(jīng)過 GA 模型尋優(yōu)計算,得到最佳適應(yīng)度曲線如圖6所示。

圖6 適應(yīng)度曲線Fig.6 Fitting curve
在訓練之后,可以得到以下結(jié)論:進過遺傳算法尋優(yōu)之后,在第50代及之后,適應(yīng)度達到本次最佳效果,為0.168 54%,經(jīng)過尋優(yōu)后得到的最優(yōu)化參數(shù):懲罰因子c=77.791 2,核函數(shù)參數(shù)σ=0.095 21,ε=0.069 5,均方誤差MSE=0.168 54%。
從圖6不僅可以看出平均適應(yīng)度與最佳適應(yīng)度逐漸進化的過程,還可以得到平均適應(yīng)度在逐漸收斂到較小值并且接近最佳適應(yīng)度的結(jié)論,證明了遺傳算法的收斂性較好且接近最優(yōu)解,可以滿足計算的精度要求。
通過EEMD分解的各子序列經(jīng)過GA尋優(yōu)之后,分別針對IMF1,IMF2,IMF3,IMF4,IMF5和 RES 建立 GA-SVM 預(yù)測模型。將各子序列的預(yù)測結(jié)果依次疊加,得到模型最終的預(yù)測結(jié)果,如圖7所示。

圖7 各子序列實際值與模型預(yù)測值比較Fig.7 Comparison of predicted and extracted values ofeach subseries
從圖7中可以得出:由于 IMF1、IMF2振幅較為劇烈,所得到的子序列預(yù)測結(jié)果在某些突變點還存在一定誤差,從IMF3至RES,子序列隨著振幅的逐漸降低,預(yù)測精度也逐漸理想,最終的預(yù)測結(jié)果較好。
為驗證本文模構(gòu)所建型的準確性和優(yōu)越性,另外采用 BPNN(采用“試錯法”設(shè)置結(jié)構(gòu)和參數(shù))、SVM、GA-SVM、EEMD-SVM、和 EEMD-GA-SVM 對樣本進行分析預(yù)測,再將所有結(jié)果最終展示,各個模型的預(yù)測結(jié)果如圖8所示。

圖8 JC04監(jiān)測點各模型預(yù)測結(jié)果Fig.8 Prediction results of different modelsbased on point of JC04
為了更加精準地分析各個模型之間的可靠性與準確性,得到直觀的、數(shù)據(jù)化的結(jié)論,本文采用均方根誤差(RMSE)與平均絕對百分誤差(MAPE)作為衡量誤差精度的標準
(5)
(6)
式中,di為實際值;Di為預(yù)測值;n為樣本個數(shù)。各個模型預(yù)測效果數(shù)據(jù)見表1。
由表 1 可見,在未進行 EEMD 重構(gòu)的單一神經(jīng)網(wǎng)絡(luò)模型中,GA-SVM預(yù)測效果相對于BPNN模型和SVM模型最好,說明GA-SVM模型性能的優(yōu)越性。隨后基于GA-SVM模型采用 EEMD 重構(gòu)的3個模型與單一神經(jīng)網(wǎng)絡(luò)模型進行對比,在計算精度上EEMD-GA-SVM模型具有顯著優(yōu)勢,樣本的誤差評價參數(shù) RMSE 和 MAPE 顯著均小于前三者。在這4種模型中,用了遺傳算法尋優(yōu)的模型GA-SVM,較未用遺傳算法的模型SVM,測試樣本 RMSE 和 MAPE 分別提高了 0.15 635 和 0.23 804%,采用EEMD重構(gòu)之后再使用遺傳算法尋優(yōu)的EEMD-GA-SVM模型較未重構(gòu)的GA-SVM模型 EMSE和 MAPE 分別提高了0.14 304和 0.28 274%,模型誤差有較大程度的減小。通過對比不難發(fā)現(xiàn)該模型準確性高的特點。但由于算法結(jié)構(gòu)復(fù)雜程度的提升,模型用時有不可避免的增加,與精度提升相比這是值得的。

表1 各模型預(yù)測效果對比Tab.1 Comparison of each model predicted results
針對滑坡變形時間序列的非線性與隨機性特點,本文基于 EEMD 與 GA-SVM,提出了一種 EEMD-GA-SVM 預(yù)測模型,通過對EES-260邊坡JC04監(jiān)測點的變形數(shù)據(jù)進行預(yù)測分析,得到如下結(jié)論。
(1) 運用集合經(jīng)驗?zāi)B(tài)(EEMD)來分解邊坡位移時間序列分解方法,原始序列分解成多組振幅、頻率差異明顯的新位移變形子序列,有效克服了傳統(tǒng)分解方法人為主觀、信息丟失和計算規(guī)模大的不足,為原始滑坡位移時間序列的合理分解提供了新的思路與手段。
(2) 對新位移變形子序列分別構(gòu)建 GA-SVM 模型進行訓練和預(yù)測,使用一種具有較強全局搜索能力的遺傳算法對每個模型進行參數(shù)尋優(yōu),進一步提高了預(yù)測結(jié)果的準確性。
(3) 最終的計算結(jié)果表明,本文提出的EEMD-GA-SVM模型在RMSE和MAPE均優(yōu)于BPNN、SVM、GA-SVM模型,是一種有效的邊坡變形預(yù)測新方法,能夠為滑坡安全監(jiān)測提供參考。