楊 恒 岳建平 邢 尹 周欽坤
1 河海大學地球科學與工程學院,南京市佛城西路8號,211100
隨著我國大壩等水利工程建造數量的大幅度增加,大壩的安全性受到社會各界的廣泛關注。目前,對觀測得到的大壩變形多源監測數據進行準確預報與反演是保障大壩安全的重要手段[1]。大壩變形的影響因素主要可以分為水壓、溫度和時效3類,水壓因素直接作用在大壩上,與水庫水位變化有密切關系;溫度因素間接作用于大壩,溫差和邊界約束是產生應力的主要原因[2];而時效因素是許多非線性因素的綜合,對于混凝土大壩,主要反映了壩體混凝土材料特性(如混凝土徐變、老化等)、壩基巖體的材料特性(如巖石蠕變、節理裂隙等)、壩體結構缺陷(如施工質量等)、壩基結構缺陷(如軟弱結構面等)等因素對變形效應量的影響[3],另外水位、溫度和時效之間也存在著一定的相關性。由于各種影響因素的內在聯系錯綜復雜,主次關系變化不定,所以高效地預測大壩變形依舊存在著很多挑戰。
隨著人工神經網絡的不斷發展和模糊數學理論的完善,不少學者將二者結合應用于大壩變形預測,這些改進方法雖然對傳統神經網絡進行了優化,預測精度有所提高,但模型方法參數較多,建模過程繁瑣,導致建模比較困難。而基于深度學習算法的全連接神經網絡包括多層隱藏層,可實現無監督學習,從而以更少的模型參數、更快的收斂速度和更高的擬合精度來逼近現實[4],在水質預測[5]、大氣污染預測[6]、降雨預測[7]等領域應用較多,而在大壩變形預測領域應用較少。
本文利用豐滿大壩實測的多源監測數據,建立基于最優學習算法的深度全連接神經網絡預測模型,對豐滿大壩位移變形量進行預測,并將預測結果與傳統BP神經網絡的預測結果進行對比,以驗證本文深度全連接神經網絡預測模型預測大壩位移變形的可行性和優越性。
全連接神經網絡與傳統神經網絡相比更強調網絡的深度。隱藏層和輸出層層數之和為網絡的深度,記為d,隱藏層可由多層構成,記為hi,隱藏層對應的激活函數記為Ai。
隱藏層第1層的輸出值h1為:
h1=A1(W1x+b1)
(1)
隱藏層其他層的輸出值hi為:
hi=Ai(Wihi-1+bi), 1
(2)
式中,Wi為權重值,bi為偏置。
常見的激活函數包括對數S型函數sigmoid、雙曲正切函數tanh和線性整流函數ReLu。
梯度下降法是目前使用最為廣泛的優化算法,也是傳統神經網絡和機器學習最常用的優化方法,主要包括批量梯度下降法(BGD)和隨機梯度下降法(SGD)。其中,BGD的每步迭代使用全部的訓練數據,所以參數更新方向比較穩定,但收斂速度較慢,比較耗時;而SGD的每步迭代隨機選取訓練樣本,收斂速度較快,但由于訓練樣本的隨機性,參數更新不穩定,因此二者都存在比較大的缺陷。隨著深度學習的興起,很多深度優化算法被提出并用于對網絡的優化訓練。
1.2.1 小批量梯度下降法(MBGD)
MBGD[8]是BGD和SGD兩種梯度下降法的綜合體現,在每步迭代過程中從n個訓練樣本隨機抽取m(m 1.2.2 動量法(momentum) 動量法[9]是為解決SGD更新方向完全依賴當前batch從而使更新十分不穩定而提出的。在更新時通過動量因子保留之前的更新方向,并加入該輪的梯度,從而提高學習效率,增加穩定性,能有效避免模型陷入局部最優。具體迭代更新公式為: (3) v←γv+ηg (4) 式中,γ為動量因子,一般設置為0.9,η為學習率,θ為初始參數,v為下降動量。 1.2.3 自適應學習率的優化算法(AdaGrad) AdaGrad算法[10]是借鑒模型引入正則化項以緩減過擬合現象的思路提出的,該算法可以解決梯度消失的問題。參數更新的迭代過程為: (5) r←r+g⊙g (6) (7) θ←θ+Δθ (8) 式中,η為全局學習率,δ為數值穩定量,θ為初始參數,r為梯度累計量。 RMSProp算法[11]是AdaGrad算法的擴展算法,將AdaGrad算法迭代過程式(6)修改為式(9),能有效克服AdaGrad算法梯度急劇減小的問題。具體參數更新為: r=ρr+(1-ρ)g⊙g (9) 式中,ρ為指數衰減率。 1.2.4 自適應矩估計優化算法(Adam) Adam算法[12]是利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率,將momentum法和RMSprop算法的優勢相結合。參數更新的迭代過程為: (10) m←p1m+(1-p1)g (11) v←p2v+(1-p2)g⊙g (12) 由于m和v的初始值取0,所以需要對m和v進行糾正: (13) (14) (15) θ←θ+Δθ (16) 1)數據預處理。訓練樣本和測試樣本的劃分及數據標準化處理。 2)網絡構建。確定網絡結構,激活函數和損失函數的選取。 3)優化算法的選取。將經過標準化處理的訓練樣本數據輸入步驟2)的網絡模型,經過多輪調試,設置MBGD、momentum法、RMSprop算法和Adam算法的相關參數,利用設置好的4種深度優化學習算法對網絡模型進行優化訓練,通過觀察訓練損失函數值的變化曲線,選取最合適的優化學習算法,得到基于最優學習算法的大壩變形預測模型。 4)模型預測。將測試樣本數據中各影響因子輸入步驟3)的網絡模型,對大壩位移值進行預測。 5)模型評價。通過MAE、MAPE和 RMSE三種評價指標對預測模型進行評價。 本文選取豐滿大壩某壩段監測點1985-01-04~1988-04-09共187期的多源監測數據進行分析,選取前160期監測數據作為訓練樣本,后27期監測數據作為測試樣本。 為消除不同量綱對模型帶來的影響并提高神經網絡的運行效率和預測精度,需要對原始數據進行預處理。本文使用min-max標準化將原始數據映射到[0~1]之間,具體計算公式為: (17) 相應的反歸一化處理計算公式為: x=y(max(x)-min(x))+min(x) (18) 式中,y為預處理后的樣本數據,x為原始樣本數據,min(x)和max(x)為樣本中各輸入對應的最小值和最大值。 2.2.1 網絡結構的設置 圖1 深度全連接神經網絡大壩變形預測模型結構Fig.1 Structure of dam deformation prediction model with deep fully connected neural network 2.2.2 模型搭建平臺 本文程序的實現基于python3.7環境和PaddlePaddle深度學習框架,隱藏層使用的激活函數是sigmoid函數,輸出層采用的是tanh函數;大壩位移預測屬于回歸問題,所以選用的損失函數為均方誤差。 2.3.1 優化算法超參數的設置 本文選用MBGD、momentum法、RMSprop算法和Adam算法等4種不同的優化學習算法對模型進行訓練。經過多輪調試,最終確定最優學習率都取0.01,momentum 法動量因子γ取0.9,RMSprop算法ρ值取0.95,δ采用默認值1×10-6;Adam算法δ采用默認值1×10-8,p1和p2分別取0.9和0.99;中間變量都默認取0,隨機選取各初始參數。 2.3.2 網絡訓練 將經過標準化處理的訓練樣本數據各影響因素和對應的大壩實測位移量作為輸入,采用設置好的4種優化算法對網絡進行優化訓練。本文訓練采用雙層循環,內層循環設置batch-size為10,即每次迭代隨機抽取10組樣本數據更新參數;網絡外層循環epoch-num取100,即進行100輪訓練,在每輪迭代開始前要將訓練數據進行隨機打亂。通過觀察各優化算法損失函數值的變化情況選擇最合適的優化算法,將訓練批次編號作為X軸,該批次的訓練損失作為Y軸,4種優化算法損失函數值的變化曲線如圖2~5所示。通過觀察可知,Adam算法的收斂速度最快、效率最高,并且最終損失值降到最低值0.027。 圖2 MBGD損失函數值變化曲線Fig.2 MBGD loss function value change curve 圖3 Momentum法損失函數值變化曲線Fig.3 Momentum loss function value change curve 圖4 RMSProp算法損失函數值變化曲線Fig.4 RMSProp loss function value change curve 圖5 Adam算法損失函數值變化曲線Fig.5 Adam loss function value change curve 通過對比發現,Adam算法為最優深度學習算法,所以本文運用基于Adam算法的深度全連接神經網絡對大壩位移變形量進行預測。將標準化處理后的27期測試樣本數據中各影響因子輸入網絡模型,預測所對應的位移變形量,然后通過反標準化處理得到最終的位移預測值,具體結果見表1(單位mm)。為進一步評估本文神經網絡的預測精度,利用傳統BP神經網絡對同樣的大壩監測數據進行訓練并預測,BP神經網絡的隱藏層為1層,隱藏層神經元個數根據經驗公式和反復實驗取13,最終確定BP神經網絡結構為6-13-1,訓練方式為默認的梯度下降法,其他參數的設置和激活函數的選取與本文神經網絡一致,預測結果見表1(單位mm)。 由表1可知,本文深度全連接神經網絡和傳統BP神經網絡都可以對大壩位移變形進行有效的預測,而本文神經網絡的預測值與大壩位移的真實值更接近。為更加客觀地評價本文深度全連接神經網絡的預測精度,通過MAE、MAPE和RMSE三種評價指標進行評價,具體計算結果見表2(單位mm)。由表可知,本文神經網絡的預測精度更高,能更好地描述大壩位移的變形趨勢。 表1 兩種神經網絡預測結果對比 表2 兩種模型3種指標的計算結果 本文通過PaddlePaddle深度學習框架,將深度全連接神經網絡引入大壩變形監測領域,并選擇最優的深度學習算法對深度全連接神經網絡進行優化訓練,建立了基于Adam算法的深度全連接神經網絡大壩變形預測模型。通過實測的大壩多源監測數據驗證表明,該預測模型既能增加傳統神經網絡的非線性學習能力,又能提高擬合預測的精度,很好地避免了模型的過擬合,可更加準確地描述大壩的真實狀態,為大壩的安全施工和運行提供參考依據。
1.3 深度全連接神經網絡的建模步驟
2 實例分析
2.1 數據預處理
2.2 全連接神經網絡的構建


2.3 優化算法的選取




2.4 模型預測
2.5 模型評價


3 結 語