張 進 牛志偉,2 齊慧君 晁 陽
(1.河海大學 水利水電學院,南京 210098;2.水安全與水科學協同創新中心,南京 210098)
大壩安全監測是了解大壩運行性態、認識大壩變形規律的重要非工程措施[1].在大壩長期服役的過程中,積累了大量的安全監測數據,其蘊含了豐富的反映壩體性態的信息[2].隨著大數據分析技術的發展,已有很多學者將機器學習引入到監測資料分析中,如遺傳算法[3]、隨機森林算法[4]、人工神經網絡[5]等,但以上模型大多以單維度分析為主,未能充分考慮各個測點之間在空間維度上的相關性,且大壩變形監測數據為復雜的非線性序列,監測數據在時間維度上的相關性也欠考慮.K-means++聚類算法是機器學習中經典的劃分聚類算法,該算法能有效地挖掘時空數據,研究空間相似點的分布情況,在工業[6]、天文學[7]、電力[8]等領域已得到一定的應用,但在大壩監測資料分析中尚未得到應用.在挖掘長時間序列數據關聯性方面,LSTM深度學習模型有很大的優勢,此模型在電力諧波監測[9]、GPS變形監測[10]、滑坡位移[11]預測等方面均取得了較好的應用.
本文以某碾壓混凝土重力壩為例,首先將K-means++聚類方法應用到該大壩沉降變形空間分析中,并選取出關鍵測點.然后選用關鍵測點的沉降變形數據為代表,運用LSTM模型進行變形預測,并與SVM模型結果對比分析,評價模型在預測時間序列相關性的精度,以期為大壩監測數據分析提供高效、便捷的新方法.
K-means++聚類算法以K-means算法為基礎,改進了初始聚類中心點選取方式,在選擇第n(n∈[2,k],k為簇群數量)個初始聚類中心時,距離前(n-1)個聚類中心越遠的數據點被選中的概率會越高.基本原理如下[12]:
(1)
(2)
按照輪盤法選出下一類聚類中心,重復上述步驟至選出k個聚類中心.在此基礎上,計算樣本數據集中每個樣本數據點xi與每個聚類中心的歐幾里德距離d,按照距離最近準則將該樣本數據劃分到與之最近的聚類中心所在的簇類中,將每個簇類中的所有樣本點的均值作為聚類中心,通過不斷地更新聚類中心,運用公式(3)計算簇內誤差平方和ISSE,直到聚類中心不發生改變或誤差平方和最小為止.
(3)
在K-means++算法中,選定不同的簇類數量k,可以獲得不同的聚類,能夠直觀地了解總體樣本集合中數據的分類情況.為確定最佳簇類數量,本文應用輪廓系數和肘部法則綜合評定.
輪廓系數St是用來衡量聚類的密集度和離散度的綜合指標,其指所有樣本點輪廓系數的平均值,計算見公式(4).輪廓系數St介于0~1之間,輪廓系數越大,表明類別內部樣本之間密集度越高,類與類之間數目樣本離散度越高,聚類效果越好.
(4)
式中:Si指樣本集合中任一點xi的輪廓系數,可依據公式(5)獲得.
(5)
式中:p(xi)為點xi到其所在簇類其他樣本點的平均距離;q(xi)為點xi到其他簇類中所有點的平均距離的最小值.
就肘部法則而言,其基本思想是將每個簇的質點與簇內樣本點的平方距離誤差和(ISSE)稱為畸變程度,畸變程度越低,代表簇內成員越緊密,反之則簇內結構越松散.畸變程度會隨著類別的增加而降低,對于有一定區分度的數據,在達到某個臨界點時畸變程度會得到極大改善,這個臨界點即為聚類性能較好的點.選用不同的k值進行K-means++算法分析,通過輪廓系數和肘部法則兩個指標綜合選定最佳簇類數量k,使分類的保證度更高.
LSTM模型主要由一個或多個記憶細胞Ct(Memory Cell)、一個輸入門It(Input Gate)、一個遺忘門Ft(Forget Gate)、一個輸出門Ot(Output Gate)組成,其結構如圖1所示.LSTM模型主要分為3個階段[13]:
一般服務支持估計(GSSE)衡量政府財政對整個農業部門的補貼支持水平,GSSE針對整個農業部門,而非具體生產者或者消費者,因此不影響農業收入或消費支出。一般服務支持估計百分比(%GSSE)是GSSE占農業支持總量(TSE)的比重,%GSSE的數值越大則說明政府提出的相關支持政策對農戶個體行為產生的影響較小,對市場環境產生的作用較弱。2006-2016年各國一般服務支持估計總量見表4,2006-2016年各國一般服務支持估計百分比見表5。

圖1 LSTM模型結構圖
1)忘記階段:該階段主要由遺忘門決定應從上一狀態中丟棄或保留哪些信息.遺忘門Ft根據上一時段的輸出Yt-1和當前記憶細胞輸入Ct,激活sigmoid函數,輸出結果與上一時刻的記憶細胞狀態Ct-1相乘,產生一個0~1之間的數字,其中0表示完全舍棄上一狀態信息,1表示完全保留上一狀態信息,遺忘門Ft計算輸出見公式(6).
Ft=σ(Wf·[Yt-1,Xt]+bf)
(6)

It=σ(Wi·[Yt-1,Xt]+bi)
(7)
(8)
(9)
3)輸出階段:由輸出門Ot確定記憶細胞Ct狀態的輸出,與忘記階段類似,與sigmoid函數相乘確定記憶細胞中哪些信息需要被輸出.將輸出門Ot輸出結果與激活函數tan h相乘,得到最終輸出結果Yt,輸出門Ot和輸出結果Yt計算公式見(10)~(11).
Ot=σ(Wo·[Yt-1,Xt]+bo)
(10)
Yt=Ot·tanh(Ct)
(11)
式中:b為偏執矢量;σ為sigmoid激活函數;tanh為雙曲線正切激活函數.
某水電站大壩樞紐工程由碾壓混凝土重力壩、壩頂5孔泄水閘、PH3發電廠房和開關站等組成.壩頂高程153 m,壩底高程41 m,最大壩高112 m.初期蓄水監測結果表明壩體和壩基垂直位移較為顯著,故對其沉降變形展開監測尤為重要.該大壩采用埋設水準點方式進行沉降變形監測,分別在壩體不同高程和不同壩段埋設水準點,各監測儀器布置如圖2所示.

圖2 監測儀器布置圖
選取碾壓混凝土重力壩沉降變形監測資料中由2011年12月31日至2020年1月28日期間的42個水準點監測數據作為樣本數據集合,利用K-means++聚類法進行分析,挖掘監測資料中沉降變形的空間分布特征,其中沉降變形以下沉為正,上抬為負.
為確定達到最佳分類效果,假定簇群數量k變化范圍為[1,10],訓練使用K-means++模型,計算其相應簇群數量下的輪廓系數St及簇內樣本點的平方距離誤差和(ISSE),計算結果如圖3所示.

圖3 不同簇群數量k值對應的輪廓系數與誤差平方和
由圖3(a)可知,在簇群數量k=5時,輪廓系數St為最大值0.70;當k由2增至10時,輪廓系數St均小于k=5所對應的時輪廓系數值,且隨著簇群數量的增加,輪廓系數逐漸下降,均顯著小于k=5時的輪廓系數值.因此,當k=5時,類別內部樣本內聚度高、分離度小,可初步確定k=5為最佳簇群數量.
由圖3(b)可知,在簇群數量k=2時,簇內樣本點的平方距離誤差和最大,即畸變程度最高,表明簇內結構最為松散;當簇群數量達到臨界點k=5時,畸變程度得到極大改善;此外,隨著簇群數量的增加,畸變程度緩慢下降,該臨界點k=5可確定為聚類性能較好的點.
綜合所述,選定k=5作為最終聚類數量,將該碾壓混凝土重力壩沉降變形監測42個靜力水準點劃分到5個簇群中,5類沉降變形測點的空間分布情況如圖4所示,其中Ⅰ類測點位于河床壩段靠近壩踵附近,Ⅱ類測點靠近壩趾,Ⅲ類、Ⅳ類測點分別為右岸和左岸壩段、Ⅴ類測點位于河床壩段中上部.

圖4 測點分類空間分布圖
在大壩長期運行的過程中,碾壓混凝土重力壩沉降變形整體以下沉為主,壩體下部變形應大于壩體上部變形,河床壩段變形略大于岸坡壩段變形,河床壩段壩趾處變形大于壩踵處變形,左岸壩段出現上抬現象,右岸壩段相對比較穩定.該規律出現的主要原因是:壩體下部沉降主要受地基的影響,壩體上部沉降是地基沉降變形、水壓力、自重等綜合作用疊加后的結果;河床壩段相比與岸坡壩段受壩體水壓作用變形較為明顯;且在蓄水后壩趾壓力增大,壩踵壓力減小,壩趾處沉降量出現略微增長,左岸壩段出現上抬主要與左岸地質構造有關.從圖4測點聚類結果來看,K-means++聚類算法劃分出來的5類水準點測點空間分布情況與碾壓混凝土重力壩沉降變形規律基本一致,說明該聚類算法在挖掘監測數據空間維度上的相關性具有一定的合理性.
當樣本點的輪廓系數越大,簇群內聚度和分離度都相對較優,故針對上述5類靜力水準的分類結果,選取每一類中輪廓系數St最大值樣本點最為關鍵測點進行預測分析,分別為EM4-2(Ⅰ類)、EM6-2(Ⅱ類)、EM1-11(Ⅲ類)、EM1-1(Ⅳ類)、EM1-6(Ⅴ類).各關鍵測點的空間分布情況為:EM1-1、EM1-6、EM1-11分別位于壩頂左岸1號壩段、壩頂河床中部5號壩段、壩頂右岸9號壩段,EM4-2和EM6-2分別位于河床中部5號壩段壩踵和壩址,該5類關鍵測點所在區域基本代表沉降變形的整體規律.選取關鍵測點從2011年12月31日至2020年1月28日的2529組沉降變形監測數據作為原始樣本,建立LSTM模型進行大壩沉降變形預測分析.LSTM將時間序列的概念引入模型結構中,考慮大壩變形過程中的漸變性,充分挖掘變形監測數據在長時間序列中的關聯性.為進一步驗證LSTM模型運用于大壩變形預測的合理性和優越性,將預測結果與SVM模型的預測結果進行對比分析.
基于Python的機器學習庫TensorFlow,建立LSTM模型預測大壩沉降變形.設定LSTM模型的初始學習率為0.006,輸入層節點為11,隱含層節點為20,輸出層節點為1,正切函數為隱藏層激活函數,MSE函數為損失函數,模型訓練周期設置為1 000.為評估模型的預測精度和誤差效果,圖5分別給出兩種模型的預測結果對比圖與殘差對比圖,選用均方根誤差(ERMSE)與平均絕對誤差(EMAE)作為預測精度評價指標值,結果見表1.

表1 LSTM、SVM模型預測精度評價指標值

圖5 LSTM、SVM模型預測值及殘差對比圖
結合表1分析,LSTM模型與SVM模型相比預測精度指標均方根誤差ERMSE和平均絕對誤差EMAE最高分別提高了84.61%和86.47%(EM1-6),LSTM模型整體預測精度高于SVM模型.具體分析如下:
1)在各模型預測值對比圖(圖5(a)、5(c)、5(e)、5(g)、5(i))中,LSTM模型預測變化趨勢與實際監測值的變化趨勢吻合程度高,與真實值最為接近,而SVM的預測結果與實際監測值變化趨勢基本一致,預測結果值偏離實際監測值較大.
2)結合各模型殘差對比圖(圖5(b)、5(d)、5(f)、5(h)、5(j)),在整個長時間序列中,LSTM模型預測殘差均小于SVM預測殘差值,且模型預測殘差值正負分布均勻.
3)隨著預測時間序列的增長,LSTM模型表現良好,預測結果整體在真實值附近上下波動,SVM模型預測結果則逐漸與真實值偏離.
4)Ⅲ類、Ⅳ類和Ⅴ類關鍵測點沉降位移實際監測值隨時間變化幅度較小,峰值不突出(5(e)、5(g)、5(f)),此情況下LSTM模型很大程度上提高了預測精度,與SVM模型相比預測精度評價指標RMSE值和MAE值精度提高值均大于70%;Ⅰ類和Ⅱ類沉降位移實際監測值隨時間變化幅度較大,峰值突出(5(a)、5(c)),LSTM模型預測精度略下降,但預測精度仍高于SVM模型.
綜上可知:LSTM模型預測精度明顯高于SVM模型預測精度,該模型在挖掘長時間跨度數據的關聯性顯示出較大的優勢.
本文綜合利用K-means++和LSTM模型,對某碾壓混凝土重力壩沉降變形資料在空間和時間維度上的相關性進行分析,得到以下結論:
1)利用K-means++聚類方法,分析大壩監測點的空間聚集狀態,確定出關鍵的大壩沉降監測點.該方法在反映大壩空間維度上的相關性具有一定的合理性,且選取關鍵測點進行分析在一定程度上減少了工作人員的工作量,有利于及時掌握大壩運行狀態.
2)結合關鍵測點的沉降變形監測數據,建立LSTM模型預測大壩變形,挖掘變形監測數據在時間維度上的相關性.與SVM模型預測結果相比,LSTM模型預測精度指標均方根誤差ERMSE和平均絕對誤差EMAE最高分別提高了84.61%和86.47%,表明該模型預測精度較高,在長時間序列關聯性的挖掘中具有一定的優勢.但該模型在處理復雜的非線性問題時,對數據在時間序列上的依存性和隨機干擾的情況下的波動性方面考慮尚不充分,需要做進一步的研究.