肖海平 王順輝 陳蘭蘭 范永超 萬俊輝
1 江西理工大學土木與測繪工程學院,江西省贛州市客家大道1958號,341000
2 江西理工大學應用科學學院,江西省贛州市客家大道156號,341000
隨著工程建設的不斷發展,出現越來越多的高陡邊坡,在地質、降雨、人工擾動等內外因素的影響下,邊坡變形、失穩以及滑坡等事故頻發,造成重大的財產損失和人員傷亡。為保證邊坡安全,準確分析其穩定性及變化趨勢,開展邊坡變形預測是邊坡災害預防和控制的重要研究內容。
目前,國內外學者就邊坡變形預測進行大量研究,取得一定成績,實現了從簡單到復雜、從單一到組合、從線性到非線性模型的發展。盛建龍等[1]運用GM(1,1)模型對老鷹嘴邊坡位移進行預測分析;楊振興等[2]利用回歸分析和小波變換分解邊坡變形數據的趨勢項和誤差項;陳蘭蘭等[3]通過GA-BP網絡模型對越堡水泥礦山邊坡監測數據進行分析預測,得出該模型在邊坡變形預測方面具有一定的可靠性和可行性;Sun等[4]提出一種新的機器學習方法,對安家嶺露天礦進行分析表明,所建立的邊坡變形模型能夠較準確地預測被監測礦山的邊坡變形;劉小生等[5]通過GA-SVR模型基于邊坡變形監測數據進行預測和分析,得出其預測結果接近真實值;Xi等[6]對基于監測時間序列位移數據的邊坡變形預測的機器學習方法進行比較研究,得出Transformer模型更適合于預測受多種因素影響的非線性滑坡位移。以上模型各有優勢,但也存在一定的不足:灰色預測模型在短期預測中具有較好的精度,但在長期預測中預測精度會受到影響;回歸模型的精度依賴于建模因子的選擇;BP神經網絡模型沒有考慮到邊坡監測數據的時間相關性;組合模型也存在通用性較差的問題,容易陷入局部最優解,導致精度不高。
本文考慮到BP神經網絡模型忽略邊坡監測數據存在的時間相關性,以及LSTM模型由于超參數選擇存在主觀性而導致陷入局部最優等問題,提出遺傳算法-長短期記憶(genetic algorithm-long short term memory,GA-LSTM)預測模型,充分發揮遺傳算法全局搜索能力和LSTM預測時序數據的優勢,以提高邊坡變形預測的可行性及準確性。
LSTM神經網絡是一種特殊的循環神經網絡(recurrent neural network,RNN)[7]。由于RNN的內部單元可以通過時間間隔進行連接,因此適用于處理序列數據。LSTM網絡采用門設計,避開了梯度爆炸和長期依賴問題[8]。因為有一組門控單元來控制信息的流動,它可以處理輸入之間隨時間發生變化的長期依賴性(圖1)。LSTM節點包含4個部分:

圖1 LSTM神經單元Fig.1 Neural unit of LSTM
1)遺忘門:用來控制信息的保留程度。遺忘門會計算一個[0,1]之間的數值,數值的大小表示細胞狀態中忘記多少信息、保留多少信息[9]。如果門值為0,則表示全部遺忘;如果門為1,則全部保留。遺忘門計算公式為:
ft=σ(Wf[ht-1,xt]+bf)
(1)
式中,σ為sigmoid激活函數,Wf為對應遺忘門的權重系數(下標表示遺忘門),bf為相應的偏置項,ft表示遺忘門輸出結果,t表示神經單元所處的時間步。
2)輸入門:用來控制哪些信息應該被輸入到細胞狀態[10]。輸入門根據當前輸入向量xt和上一個時刻的隱藏狀態計算一個[0,1]之間的數值,該數值表示當前輸入的重要程度,再將重要程度較高的信息加入到細胞狀態中。輸入門計算公式為:
it=σ(Wi[ht-1,xt]+bi)
(2)
(3)

3)細胞狀態:在LSTM中,細胞狀態就是網絡所保留的長期記憶。長期記憶計算公式為:
(4)

4)輸出門:用于控制當前時刻細胞內部的狀態并決定有多少信息輸出給下一個LSTM細胞[11],計算得到當前時刻的隱藏狀態ht。輸出門計算公式為:
ot=σ(Wo[ht-1,xt]+bo)
(5)
ht=ot*tanh(Ct)
(6)
式中,ot表示t時間步下輸出門輸出的結果。式(6)中Ct表示時間步為t時的長時記憶輸入,經tanh激活函數后與ot相乘得到短時記憶輸出ht。
遺傳算法(GA)是一種全局搜索算法,能較好地解決參數優化問題。在LSTM模型的參數優化方面,主要是用來優化LSTM模型的超參數組合,比如時間步大小、神經網絡隱藏層層數、每層LSTM神經元個數以及優化器種類等。建立備選超參數庫,經過GA算法得到最優的超參數組合,用最優超參數組合建立最終模型。具體步驟如下:
1)確定參數空間:待優化的LSTM模型參數的空間,主要包括每層LSTM的units數、隱藏單元數、激活函數種類以及優化器種類等。參數空間的確定需要根據具體問題,保證足夠客觀[12]。本次實驗所選參數空間如表1所示,其中時間步為時間位移及模型輸入,隱藏單元數為中間隱藏層LSTM單元個數。

表1 參數空間
2)初始化種群:在確定參數空間后,需要對種群進行初始化操作。在遺傳算法中種群是指問題可行解的集合。在初始化種群時,不但要避免組合的重復性,還要注意初始化的隨機性。
3)計算適應度:在種群經過隨機初始化后,依據定義好的適應值函數計算個體的適應度。適應度是指個體適應環境的能力,也就是在解決該問題上效果更優。對于LSTM模型,使用交叉驗證的方法來計算每個個體的適應度。
4)選擇優秀個體:依據個體的適應度值的大小來選擇優秀個體,對優秀個體進行繁殖。
5)交叉繁殖:選擇優秀個體的后代,進行交叉繁殖操作。可以使用單點、多點或均勻交叉繁殖等方法進行LSTM模型的參數優化。
6)變異操作:完成交叉繁殖后,需對新生成的個體進行變異操作。在LSTM模型的參數優化中,可以使用插入、刪除或替換等變異操作。
7)重復迭代:完成上述步驟后,需重復迭代上述交叉變異繁殖等步驟,在每一次迭代中不斷優化超參數組合,直到達到預定的停止條件為止,比如設置好迭代次數、適應度大小或達到最優解等[13]。
選取海明礦業露天邊坡為研究對象,在其北側邊坡穩定區域布設GNSS基準站1套,東邊坡布設GNSS監測站6套,用于監測邊坡表面位移變化量。本次實驗所使用的地表位移監測設備為高精度GNSS專用接收機P5,其水平靜態精度為±2.5 mm+0.5×10-6(RMS),垂直靜態精度為±5 mm+0.5×10-6(RMS)。各GNSS監測設備的響應時間為1 h一次,最快為每組1 min。本次實驗以GNSS49點為例,采用10 min獲取1組數據的方式,數據集的時間跨度為2023-03-01~2023-03-15,共得到2 000條監測數據。圖2為監測點GNSS49在邊坡的具體位置,圖3(a)為GNSS49點的X、Y、Z累積位移2D展示圖。由于數據量較大,在圖3(b)中只選取時序(指采集數據對應的時序)為0、500、1 000、1 500、2 000對應點坐標進行位移3D展示,其中dX正方向為正北方向(N),dY正方向為正東方向(E),dZ方向滿足右手定則,在圖中記作H。考慮到監測數據量大、版面有限,表2僅列出監測點GNSS49的部分監測數據。

表2 監測點GNSS49部分監測數據

圖2 GNSS49點位分布Fig.2 Distribution of GNSS49 point

圖3 GNSS49監測點位移監測原始數據變化Fig.3 Changes in raw data for displacement monitoring at GNSS49 monitoring point
通過GA算法對LSTM模型超參數進行選擇,找到全局最優解。依據最優超參數組合構建預測模型,將監測數據前80%作為訓練數據集,后20%作為測試集,用劃分好的訓練集對模型進行訓練,訓練好模型后對測試集進行預測,并記錄模型的損失值(loss),用均方誤差(mean square error,MSE)表示。模型預測結果圖(圖4~6)包含監測點的X、Y、Z累積位移變化量預測,在各模型的predict_result圖中橫軸表示采集數據對應的時序,縱軸表示累積位移量。圖中原始累積位移數據為藍色曲線,預測結果分為訓練數據集(橙色曲線)和測試數據集(綠色曲線)。

圖4 GNSS49-X方向不同模型預測值Fig.4 Prediction values of different models in GNSS49-X direction

圖5 GNSS49-Y方向不同模型預測值Fig.5 Predicted values of different models in GNSS49-Y direction

圖6 GNSS49-Z方向不同模型預測值Fig.6 Predicted values of different models in GNSS49-Z direction
本次實驗各模型的loss_result圖中,模型訓練一共需要迭代100次,其中橫坐標epochs表示迭代次數,縱軸表示每次迭代后計算的MSE。程序會記錄下每次迭代后訓練數據集的MSE損失,以及測試數據集的MSE損失,藍色曲線表示訓練數據集的MSE損失值的變化情況,橙色曲線表示測試數據集的MSE損失值的變化情況。
在GA算法優化超參數時,個體的適應度值通過計算測試集的均方根誤差(root mean square error,RMSE)獲得。RMSE也作為模型精度評價指標,RMSE值越小,表明預測位移值與真實位移值之間的誤差越小,預測結果越準確。其中RMSE的單位為mm,從RMSE的大小可以直觀地看出模型的整體誤差大小,從而確定模型對應的精度情況。
根據不同的模型研究方法,可以得到圖4~6不同模型邊坡變形監測預測結果及loss_result圖,表3~5中包含03-13、14、15監測值(對應時序為1 709、1 853、1 997)與模型預測值對比情況以及模型迭代100次后訓練集的RMSE值和測試集的RMSE值,并在相同的計算設備上比較各模型RMSE損失值小于1 mm時模型訓練的時間。

表3 GNSS49-X方向不同模型預測值對比

表4 不同模型預測GNSS49-Y對比

表5 不同模型預測GNSS49-Z對比
圖4~6以及表3~5的研究成果表明:
1)BP神經網絡模型的預測結果誤差RMSE在1~3 mm,最高為2.42 mm,模型整體精度不如LSTM和GA-LSTM兩個模型,模型損失達到收斂需要更多的迭代次數,預測誤差不穩定,容易陷入局部最優解,沒有考慮到監測數據的時間特性。但在相同的收斂條件下,3個模型訓練時間相差不大,BP神經網絡模型耗時較少。
2)LSTM模型的預測結果誤差比BP神經網絡預測要好,為0.5~1 mm。但由于在超參數選擇方面存在著主觀性,無法找到真正適合實際應用的最佳超參數組合。測試誤差相對穩定,整體不如GA-LSTM模型的預測結果。
3)GA-LSTM模型的整體預測誤差較小,在0.2 mm以下,精度高并且模型損失達到收斂只需較少的迭代次數,整體MSE損失值波動較小,模型穩定性較好,具有較好的擬合效果。
4)本文分別采用3種預測模型對變形監測點2023-03-13、14、15的變化量進行預測,實驗結果表明,GA-LSTM模型預測值與實際變形原始值擬合較好,能較好地預測監測點位移變化情況。
本文在采用不同模型分析其MSE損失值的變化及其RMSE數值的基礎上,以海明礦業露天采場邊坡為研究對象,對監測點GNSS49進行預測分析,得出以下結論:
1)本文提出的GA-LSTM優化模型,解決了BP神經網絡模型沒有考慮邊坡監測數據時序性以及LSTM模型超參數選擇存在主觀性而導致陷入局部最優等問題,其達到損失收斂的速度及穩定性有較大提高。
2)GA-LSTM模型預擬合準確性在0.1~0.2 mm,是LSTM神經網絡模型的5~7倍,是BP神經網絡模型的10~20倍。GA-LSTM模型具有較高的精度和穩定性,其預測值更接近于真實值。
3)考慮到模型運行效率,本次實驗選擇監測數據的時間跨度較小,未能全面反映邊坡的整體變化趨勢。為有效指導礦山邊坡的安全生產和管理,應充分利用實際監測數據實現全域時間內邊坡變形的預測,以分析其穩定性狀態。