基于主成分分析和長短期記憶網(wǎng)絡(luò)的滑坡地表位移監(jiān)測數(shù)據(jù)缺失插補算法

2023-10-09 01:32:30張坤肖慧徐哈寧胡佳超范凌峰

科學(xué)技術(shù)與工程 2023年26期

關(guān)鍵詞：模型

張坤, 肖慧,2*, 徐哈寧, 胡佳超, 范凌峰

(1.東華理工大學(xué)核技術(shù)應(yīng)用教育部工程研究中心, 南昌 330013; 2.江西省放射性地學(xué)大數(shù)據(jù)技術(shù)工程實驗室, 東華理工大學(xué), 南昌 330013)

滑坡地表位移監(jiān)測中,經(jīng)常由于監(jiān)測設(shè)備通信故障或者供電異常,致使監(jiān)測數(shù)據(jù)出現(xiàn)長時間序列的缺失。數(shù)據(jù)缺失易導(dǎo)致滑坡預(yù)測模型計算失效而不能及時有效預(yù)警,因此對監(jiān)測數(shù)據(jù)進行插補是數(shù)據(jù)運行前必不可少的預(yù)處理工作。常用的插補方法有刪除法、簡單插補、冷熱卡插補法、回歸插補法、機器學(xué)習(xí)插補法和多重插補法等[1]。滑坡監(jiān)測數(shù)據(jù)是多元數(shù)據(jù)序列,基于機器學(xué)習(xí)的插補法能通過多變量建立回歸模型來預(yù)測缺失值,在處理多元數(shù)據(jù)序列上有一定的優(yōu)勢[2]。

機器學(xué)習(xí)算法在數(shù)據(jù)插補中有著廣泛的應(yīng)用,呂勤學(xué)等[3]提出一種基于優(yōu)化隨機森林的數(shù)據(jù)插補模型,實現(xiàn)缺失數(shù)據(jù)的插補;趙春霞等[4]使用K最鄰近算法(K-nearest neighbor,KNN)對不完整信息進行填充;遇茜等[5]通過建立支持向量機填補模型,填補缺失數(shù)據(jù);游穎等[6]利用粒子群算法改進BP(back propagation)神經(jīng)網(wǎng)絡(luò),對缺失數(shù)據(jù)進行重構(gòu)。上述研究均基于淺層結(jié)構(gòu)的機器學(xué)習(xí)算法,很難提取具有復(fù)雜時空相關(guān)性的時序數(shù)據(jù)的特征,忽略了監(jiān)測數(shù)據(jù)隨時間變化的影響和數(shù)據(jù)的前后聯(lián)系,不能有效處理時序數(shù)據(jù)問題[7]。

長短期記憶網(wǎng)絡(luò)(long-short term memory,LSTM)是深度學(xué)習(xí)算法的一種,能夠提取數(shù)據(jù)時間維度上的周期特征和模式,具有強大的高度抽象化特征能力,相比傳機器學(xué)習(xí)算法具有更強的數(shù)據(jù)學(xué)習(xí)能力和泛化能力,在處理時序數(shù)據(jù)上有很大的優(yōu)勢[8]。楊旭等[9]通過卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)特征,結(jié)合LSTM對連續(xù)缺失數(shù)據(jù)進行插補;宋維等[10]用LSTM建立插補模型,通過分析缺失數(shù)據(jù)前后完整序列,對缺失數(shù)據(jù)進行插補;盧繼哲等[11]利用編碼器優(yōu)化聚類,把相似的數(shù)據(jù)序列劃分在一起,再通過LSTM插補缺失數(shù)據(jù);可見LSTM在數(shù)據(jù)插補中的可行性,但目前,鮮見LSTM應(yīng)用在滑坡地表位移監(jiān)測數(shù)據(jù)插補領(lǐng)域的研究報道。上述研究只分析了存在數(shù)據(jù)缺失的單一變量,而滑坡監(jiān)測數(shù)據(jù)為多元數(shù)據(jù)序列,數(shù)據(jù)間存在相關(guān)性會降低LSTM模型的計算效率和精度,為了解決這一問題,對模型輸入進行降維處理。主成分分析(principal component analysis,PCA)能在原始監(jiān)測變量的基礎(chǔ)上找出幾個綜合性能強且互不相關(guān)的變量代替原始變量,實現(xiàn)數(shù)據(jù)的降維,消除數(shù)據(jù)間的相關(guān)性,在模型優(yōu)化中有著廣泛的應(yīng)用[12-16]。

基于上述研究背景,針對滑坡地表位移長時間序列的數(shù)據(jù)缺失問題,現(xiàn)將LSTM算法和PCA算法相融合,建立基于PCA-LSTM的插補模型,以湖北省利川市某滑坡監(jiān)測數(shù)據(jù)為樣本對模型進行分析,并與其他同類模型進行對比,驗證本文方法的有效性。

1 數(shù)據(jù)獲取與預(yù)處理

1.1 數(shù)據(jù)來源

樣本數(shù)據(jù)來自湖北省利川市某滑坡,滑坡平面形態(tài)呈不規(guī)則長條形,規(guī)模等級為中型。滑坡地處鄂西南構(gòu)造剝蝕中低山區(qū),位于傾向南東方向的斜坡地段,周圍植被茂密。該站點監(jiān)測內(nèi)容包括雨量(YL)、不同深度的土壤含水率(HS1、HS2、HS3)、地下水位(DX)、泥水位(NW)、3個方向傾角加速度(VX,VY,VZ)、3個方向傾角(X,Y,Z)、裂縫(LF1、LF2)以及地表位移(SD)等。

圖1為監(jiān)測現(xiàn)場的全球?qū)Ш叫l(wèi)星系統(tǒng)(global navigation satellite system,GNSS)設(shè)備,由于植被遮擋太陽能面板,設(shè)備供電異常,導(dǎo)致地表位移監(jiān)測數(shù)據(jù)出現(xiàn)長時間序列缺失,為了更加準確地分析此滑坡的變形規(guī)律,需要插補缺失數(shù)據(jù)。針對這種數(shù)據(jù)缺失的情況,本文研究考慮把數(shù)據(jù)插補問題轉(zhuǎn)化成預(yù)測問題,通過分析同一監(jiān)測點的其他相關(guān)監(jiān)測變量與地表位移之間的關(guān)系,建立地表位移預(yù)測模型,再采用預(yù)測數(shù)據(jù)填補缺失數(shù)據(jù)空缺。

圖1 監(jiān)測現(xiàn)場的GNSS設(shè)備

1.2 數(shù)據(jù)預(yù)處理

提取滑坡監(jiān)測點2020年5月—2020年6月的監(jiān)測數(shù)據(jù),滑坡監(jiān)測設(shè)備每小時采集一次數(shù)據(jù),得到共計615組樣本數(shù)據(jù)。對于離散程度較大的異常值,首先刪除特異值,取均值和眾數(shù)值,然后對數(shù)據(jù)進行標準化處理,消除數(shù)據(jù)序列間綱量的影響。

1.3 地表位移影響因素篩選

根據(jù)式(1),利用Pearson相關(guān)系數(shù)得到各個監(jiān)測變量與滑坡地表位移之間的相關(guān)系數(shù),篩選出與地表位移相關(guān)度高的監(jiān)測變量作為模型輸入。

(1)

圖2為Pearson相關(guān)性分析結(jié)果,選擇r>0.3的變量作為地表位移的插補參證。經(jīng)過篩選,用于地表位移預(yù)測的監(jiān)測變量為X、Y、Z、LF1、LF2、NW、DX、HS1、HS2、HS3、YL。

圖2 Pearson相關(guān)性分析結(jié)果

2 PCA-LSTM插補模型設(shè)計

2.1 主成分分析

由Pearson相關(guān)系數(shù)分析結(jié)果可知,滑坡地表位移與多個監(jiān)測變量相關(guān)。為了提高LSTM的精度和計算效率,對Pearson相關(guān)系數(shù)篩選的結(jié)果進行PCA降維處理,消除相關(guān)監(jiān)測變量之間的相關(guān)性,將累計貢獻率超過95%的主成分作為插補參證。PCA處理步驟[12-13]如下:①首先對Pearson篩選得到的11個監(jiān)測變量進行標準化處理得到標準化矩陣y;②再根據(jù)式(1)計算得到y(tǒng)的相關(guān)系數(shù)矩陣R,通過特征方程|λE-R|=0,其中E為單位矩陣,進一步求得R矩陣的特征值和特征向量;③最后計算累計貢獻率,設(shè)定百分比閾值來決定保留主成分的個數(shù);④把累計貢獻率達到95%的特征值所對應(yīng)的特征向量組成特征矩陣,得到降維結(jié)果。

PCA處理結(jié)果如圖3所示,可以看出前5個主成分的累計貢獻率達到了95%。此時模型輸入由11維變?yōu)?維,并且5組數(shù)據(jù)之間互不相關(guān)。

圖3 PCA處理結(jié)果

2.2 LSTM神經(jīng)網(wǎng)絡(luò)

LSTM神經(jīng)網(wǎng)絡(luò)是改良后的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),能夠通過歷史監(jiān)測項對地表位移進行映射,充分考慮了地表位移的時序性。LSTM以細胞作為一個基本單元來記憶每個時刻的地表位移信息,通過細胞的更迭,反映長期記憶效應(yīng)。細胞結(jié)構(gòu)如圖4所示。

圖4 LSTM細胞結(jié)構(gòu)

與RNN相比,LSTM神經(jīng)網(wǎng)絡(luò)通過增加門結(jié)構(gòu)控制細胞存儲信息,解決了RNN在處理長期依賴時出現(xiàn)的梯度消失和爆炸,使其能夠更好地處理長時間序列的滑坡地表位移數(shù)據(jù),其前向計算過程[17]如下。

ft=δ(Wxfxt+Whfht-1+Wxfct-1+bf)

(2)

it=δ(Wxfxt+Whfht-1+Wxfct-1+bi)

(3)

ct=ftct-1+ittanh(Wxcxt+Wxcht-1+bc)

(4)

ot=δ(Wxoxt+Whoht-1+bo)

(5)

ht=ottanh(ct)

(6)

式中:δ為sigmoid激活函數(shù);tanh為雙曲正切激活函數(shù),用于實現(xiàn)門結(jié)構(gòu)的篩選功能;輸入門it通過δ函數(shù)對新輸入的地表位移特征信息進行篩選,更新細胞中的滑坡位移信息;遺忘門ft通過δ函數(shù)控制儲存狀態(tài)選擇性保留歷史位移信息;整個細胞通過it、ft更新儲存狀態(tài)ct,輸出門ot用于確定儲存狀態(tài)需要輸出的地表位移信息;ht為t時刻細胞單元輸出的地表位移信息;Wxf、Wxc、Wxo分別為各個門對輸入信息x的權(quán)值;Whf、Whc、Who分別為各個門對前一時刻的輸出ht-1的權(quán)值;bf、bc、bo、bi分別為對應(yīng)各個門的偏置[18]。

2.3 PCA-LSTM滑坡位移預(yù)測模型

根據(jù)上述算法,為了提高插補精度,構(gòu)建基于PCA-LSTM的滑坡位移數(shù)據(jù)插補的模型。模型插補流程如圖5所示,詳細步驟如下。

圖5 基于PCA-LSTM的數(shù)據(jù)插補流程圖

(1)對原始監(jiān)測數(shù)據(jù)進行預(yù)處理并通過Pearson相關(guān)系數(shù)法篩選監(jiān)測變量。

(2)通過PCA對步驟(1)中的處理結(jié)果進行降維處理并保留數(shù)據(jù)95%的信息,然后劃分訓(xùn)練集和測試集。

(3)搭建LSTM模型,將步驟(2)處理后的訓(xùn)練集樣本輸入模型,以平均絕對誤差(mean absolute error, MAE)、平均絕對百分誤差(mean absolute percentage error, MAPE)和均方根誤差(root mean square error, RMSE)為評價指標,調(diào)整參數(shù),直到獲得目標準確率,構(gòu)建基于PCA-LSTM的滑坡地表位移數(shù)據(jù)插補模型。

(4)把測試集輸入模型得到插補結(jié)果。PCA-LSTM是包含2個LSTM層和1個全連接層(Dense層)的3層深度的模型,其中LSTM層包含64個神經(jīng)元,Dense層與輸出層相連,包含一個神經(jīng)元,模型時間步長為1,迭代次數(shù)為100,學(xué)習(xí)率為0.001,批量大小為32,損失函數(shù)為MSE,優(yōu)化算法為Adam。

3 實驗與分析

3.1 實驗內(nèi)容

為了驗證PCA-LSTM數(shù)據(jù)插補模型的性能,首先用5折交叉驗證法測試PCA-LSTM模型的泛化性:把PCA處理后的615組數(shù)據(jù)隨機打亂分為5份,前4份作為訓(xùn)練集來建立LSTM模型,剩下的1份作為驗證集來測試模型效果,重復(fù)5次實驗后,取模型評價指標的平均值作為PCA-LSTM的性能指標。然后把PCA處理后的樣本數(shù)據(jù)按3∶1的比例劃分訓(xùn)練集和測試集,輸入LSTM模型得到PCA-LSTM的預(yù)測結(jié)果;再把未經(jīng)PCA處理的樣本數(shù)據(jù)按相同比例劃分訓(xùn)練集和測試集后輸入對比模型,得到各個對比模型的預(yù)測結(jié)果,并與PCA-LSTM模型的預(yù)測結(jié)果進行對比。

3.2 對比模型

除了把PCA-LSTM模型與單一的LSTM模型對比,還將PCA-LSTM模型與BP神經(jīng)網(wǎng)絡(luò)模型、遺傳算法(genetic algorithm, GA)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型、K近鄰模型(K-nearest neighbor, KNN)、支持向量機模(support vector machine, SVM)進行對比。

3.3 實驗結(jié)果分析

將整理好的數(shù)據(jù)輸入PCA-LSTM模型進行5折交叉驗證,5折交叉驗證后得到的誤差曲線和插補效果圖如圖6所示。圖6(a)、圖6(c)、圖6(e)、圖6(g)、圖6(i)為插補值和實際值的變化趨勢,可以看到5次實驗結(jié)果都在樣本點數(shù)值突變處發(fā)生波動,但整體趨勢與實際值較為吻合。圖6(b)、圖6(d)、圖6(f)、圖6(h)、圖6(j)為5次實驗的誤差圖,誤差集中分布在[-2,2],其中最大的絕對誤差為5.5 mm,5次實驗都在初期有著較大的誤差,隨著模型對歷史信息的記憶,插補誤差逐漸減小并趨于穩(wěn)定,即使再次出現(xiàn)地表位移數(shù)據(jù)突變,插補結(jié)果的誤差也較為穩(wěn)定。從5折交叉驗證的實驗結(jié)果可以看出,模型的泛化性能較為理想。

圖6 PCA-LSTM模型的處理結(jié)果和誤差曲線

5次實驗后得到的PCA-LSTM模型的MAE、MAPE、RMSE如表1所示,從表1中可以看到PCA-SLTM的平均絕對誤差僅有1.214 mm,5次實驗MAE的波動范圍在[-0.39,0.364]。由此可見PCA-LSTM模型在不同的數(shù)據(jù)集上均有較為理想插補效果,模型的泛化性能和穩(wěn)定性較為良好,能夠?qū)崿F(xiàn)長時間序列的缺失數(shù)據(jù)的精準插補。

表1 PCA-LSTM模型擬合精度分析

為了進一步驗證PCA-LSTM插補模型的有效性,把3.1節(jié)中劃分好的樣本數(shù)據(jù)分別輸入PCA-LSTM、KNN、BP、GA-BP、SVM以及LSTM進行對比。為幾種算法的誤差如圖7所示,滑坡地表位移數(shù)據(jù)平緩變化時,幾種模型的插補誤差較為穩(wěn)定;在樣本點[80,100]位移量突變,SVM、GA-BP和KNN的插補誤差瞬間增大,LSTM和PCA-LSTM模型的插補誤差波動相對較小。其中PCA-LSTM模型較于其他幾種模型的整體誤差最小,精度最高。

圖7 各種模型的結(jié)果誤差

幾種插補模型的評價指標如表2所示,PCA-LSTM與單一的LSTM相比,RMSE、MAE和MAPE分別減少了 2.7%、26.4%和18.1%,可看出PCA消除了輸入變量之間的冗余性和相關(guān)性,提高LSTM模型的插補精度和穩(wěn)定型。與其他幾種模型相比,PCA-LSTM模型精度明顯優(yōu)于KNN、SVM、BP神經(jīng)網(wǎng)絡(luò)以及GA-BP神經(jīng)網(wǎng)絡(luò)。從對比結(jié)果分析可知,PCA-LSTM模型能夠更好地處理長時間序列數(shù)據(jù)缺失問題。

表2 幾種模型的插補精度分析

3.4 缺失值填充

提取監(jiān)測點2020年6月1—15日共計360組樣本數(shù)據(jù),假設(shè)地表位移監(jiān)測數(shù)據(jù)在6月7—11日出現(xiàn)數(shù)據(jù)連續(xù)缺失,使用本文方法進行插補,結(jié)果如圖8所示。

圖8 插補結(jié)果與真實數(shù)據(jù)對比

從圖8中可以看出,插補結(jié)果與原始數(shù)據(jù)的數(shù)值以及趨勢均較為相仿,實際插補結(jié)果比較理想,但對一些位移突變點的插補仍有待改善。

4 結(jié)論

研究了基于PCA-LSTM的滑坡地表位移插補模型,得出如下結(jié)論。

(1)通過PCA消除輸入變量之間的冗余性和相關(guān)性,有利于提高LSTM模型的精度和穩(wěn)定型。PCA-LSTM模型相比于單一的LSTM模型的RMSE、MAE和MAPE分別提高了2.7%、26.4%和18.1%。

(2)本文提出的PCA-LSTM模型能夠很好地擬合滑坡水平位移與其他變量之間的非線性關(guān)系,對長時間序列的數(shù)據(jù)缺失插補的結(jié)果和真實值的擬合程度能夠達到99%,插補效果較為理想。

(3)本文采用的PCA-LSTM模型與BP神經(jīng)網(wǎng)絡(luò)、GA算法優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)、KNN、SVM等機器學(xué)習(xí)模型相比,模型評價指標MAE、RMSE和MAPE分別為1.233、0.523和0.009,均優(yōu)于其他模型。

(4)本文提出的PCA-LSTM模型在一些滑坡地表位移突變數(shù)據(jù)上的插補精度略差,仍有待提高。