









摘 要:近年來,經典統計模型和機器學習模型在大壩安全監控領域并行發展。然而,前者的預測能力和后者的機理解釋能力通常存在一定的局限。基于某混凝土重力壩的裂縫開合度監測數據,分別采用多元線性回歸、逐步回歸、隨機森林模型建立混凝土重力壩裂縫開合度模型。結果表明,基于2022年實測裂縫開合度數據集成功建立3種預測裂縫開合度模型,其中隨機森林模型的預測能力最佳(決定系數R2為0. 995,均方根誤差ERMS和平均絕對誤差EMA分別為0. 174、0. 124 mm),其次為逐步回歸模型(R2為0. 989,ERMS和EMA分別為0. 192、0. 151 mm);3種模型均得出溫度分量是影響混凝土重力壩裂縫開合度最主要的原因量;通過對多元線性回歸模型逐項分解得出混凝土重力壩裂縫開合度與溫度分量、水壓分量和時序分量變化規律。研究成果可為某混凝土重力壩工程運行管理和“四預”平臺的建設提供參考性意見,具有較高的理論意義和工程應用價值。
關鍵詞:混凝土壩;裂縫開合度;統計模型;隨機森林模型
中圖分類號:TV642 文獻標識碼:A 文章編號:1001-9235(2025)03-0025-07
Comparative Study on Prediction Models for Crack Opening Degree in Concrete DamHUANG Song1,2, WU Jie3, FANG Zhanchao4, CHU Huaping1,2*, WU Yan'gang3, XUE Zilong3, HE Linbo1,2
(1. Nanjing Research Institute of Hydrology and Water Conservation Automation, Ministry of Water Resource, Nanjing 210028, China;
2. Research Center on Hydrology amp; Water Resources Monitoring, Ministry of Water Resources, Nanjing 210028, China; 3. Nanjing
Yangtze River Administration Office, Nanjing 210011, China; 4. Yixing Water Conservancy Bureau, Yixing 214000, China)
Abstract: In recent years, classical statistical models and machine learning models have been developed in parallel in the field of dam safety monitoring. However, there are some deficiencies in the predictive power of the former and the theoretical explanation of the latter. In this study, multiple linear regression, stepwise regression, and random forest algorithm were used to establish models for the crack opening degree of a concrete gravity dam based on the monitoring data of the crack opening degree of the concrete gravity dam. The results show that three models for predicting crack opening degree are successfully established based on the crack opening degree dataset measured in 2022. The random forest model has the best predictive ability (determination coefficient (R2) is 0. 995; root mean square error (ERMS) and mean absolute error (EMA) are 0. 174 mm and 0. 124 mm, respectively), followed by the stepwise regression model (R2 is 0. 989; ERMS and EMA are 0. 192 mm and 0. 151 mm). Three models both indicate that the temperature component is the main factor affecting the crack opening degree of the concrete gravity dam; by decomposing the multiple linear regression model item by item, the variation patterns of crack opening degree of the concrete gravity dam, temperature component, hydraulic pressure component, and time component are obtained. This study can provide a reference for the operation and management of the concrete gravity dam and the construction of the forecasting, early warning, drilling, and emergency plan (FEDE) platform, with a relatively high"theoretical and practical significance.
Keywords: concrete dam; crack opening degree; statistical model; random forest algorithm
大壩是中國國民經濟的重要基礎設施,在發電、防洪、灌溉等方面發揮著巨大效益,然而在其服役過程中也面臨著多種因素損害其結構安全性[1-2]。裂縫是混凝土壩不可避免的現象,它的產生和發展直接影響結構的受力狀況與穩定,進而影響其效應的發揮[3]。裂縫開合度作為裂縫發展演變的一個重要參量,對其建立合適的預測模型,并準確預測裂縫開合度的大小及其變化趨勢,及時判斷裂縫是否會發生失穩擴展,對提高混凝土壩安全監測系統的預警作用,防患于未然具有重要意義[4]。
目前,對混凝土壩裂縫開合度的預測主要有統計模型、確定性模型、混合模型、灰模型等[5]。吳中如等[6]首先將確定性模型應用于佛子嶺拱壩的監測資料分析中;于鵬[4]基于灰色預測模型和數學統計預測模型等建立了一種基于小波神經網絡的非線性組合預測模型,成功預測陳村大壩裂縫開合度;葛鵬等[7]結合統計模型和突變理論,在統計模型提取的時效變形基礎上,結合突變理論建立裂縫灰色尖點突變模型,進而得到裂縫擴展判據。上述模型的主要優點在于物理概念明確,可以更好地與大壩結構性態相聯系;然而,該類模型的準確性高度依賴于輸入數據的質量,數據的誤差或缺失將對預測和評估結果產生不利影響[8]。
隨著計算機技術和大數據的進步,機器學習已發展成為人工智能領域中最為活躍和成果豐富的研究分支[2]。機器學習的目的是根據已知訓練樣本,讓計算機從數據中自動學習、發現輸入自變量與輸出因變量之間的潛在規律,并通過對數據的分析和歸納來提高對未知數據的預測、分類或決策能力[2]。程翔等[9]以結構化與非結構化監測數據為對象,K均值聚類為方法,結合時間序列模型與統計回歸模型,將聚類分析得到的樣本數據作為模型的輸入,對實際大壩監測數據進行分析與預測;何政翔等[10]運用模糊聚類方法對大壩和船閘的變形監測點監測數據進行了模糊聚類分析,獲得監測點最佳分類,每一類選取典型觀測點建立數學模型,提升了分析監測數據的效率;Su等[11]將支持向量機法應用于大壩變形預測中,有效地考慮到了大壩變形的非線性動力特性;蘇雨[3]融合粗糙集理論與深度學習算法的優勢,深度置信網絡模型為后端的耦合預警模型,計算某混凝土壩裂縫擴展規則和各分量對裂縫開度效應量的各自影響程度,成功應用于大壩監測物理量關聯性分析與預警指標擬定等工作。盡管機器學習算法已在大壩安全監控領域取得長足進步,但采用隨機森林模型對混凝土大壩裂縫開合度進行分析和解釋的研究并不常見。
綜上所述,基于某混凝土重力壩的裂縫開合度實測數據,分別采用多元線性回歸、逐步回歸、隨機森林算法建立混凝土壩裂縫開合度的監控預測模型;在此基礎上,定量分析不同因素對混凝土壩裂縫開合度的影響程度,并對不同模型的預測結果進行對比分析,以期為混凝土大壩的長期服役和運行管理提供理論依據與決策支持。
1 算法模型
1. 1 多元線性回歸模型
在壩工實際問題中,影響大壩裂縫開合度的因素往往是復雜的,除受庫水壓力(水位)影響外,還受到溫度、周圍環境以及時效等因素的影響。因此,在尋找大壩裂縫開合度預測量與預測因子之間的關系式時,不可避免地要涉及到多因子,找出各個因子對裂縫開合度的影響,并建立它們之間的數學表達式,即回歸模型。多元線性回歸的本質是研究多個預測因子(即自變量)與1個預測量(即因變量)之間的相關關系,從而建立自變量與因變量之間的數學模型[2]。其通用表達式為:
Y = A + B1X1 + B2X2 + … + BnXn + ε
(1)式中:Y為因變量;A為回歸模型常數項;X1—Xn為自變量;B1—Bn為回歸模型未知參數;ε為隨機誤差。
1. 2 逐步回歸模型
在回歸分析的實際應用中,總是選取與大壩裂縫開合度有一定關系的一組變量作為可能的預測因子。例如,大壩裂縫開合度選有水位、溫度(氣溫、水溫和混凝土溫度等)、時間等因子,常達十多個以至幾十個因子。理論分析和實際經驗證明:把全部預報因子放入回歸方程,往往使法方程的系數矩陣蛻化而無法求解,或解得的回歸方程精度不高實際中無法應用。因此,必須根據對大壩裂縫開合度貢獻的大小選入回歸方程。使建立的同歸方程只包含顯著的因子,不包含不顯著的因子,同時,方程的剩余平方和較小,即為最佳回歸方程。逐步回歸分析法是從1個預報因子開始,按其對因變量作用的顯著程度,從大到小地依次逐個地引人回歸方程。另一方面,當先引入的因子由于后面的因子引入而變得不顯著時,就將它剔除。因此,該模型是從一個自變量開始,逐個考察自變量的影響,按其對因變量作用的顯著程度,從大到小依次引入到回歸方程[12-13]。逐步回歸分析計算主要包括以下3個步驟:引、剔自變量的檢驗;回歸系數及其標準差的計算;預測值及其殘差的計算。
1. 3 隨機森林模型
隨機森林作為一種以決策樹為基本結構的機器集成學習算法,能夠計算出單個特征的重要程度,并可根據變量重要性度量對高維數據的特征進行選擇;同時能夠估計缺失的數據資料,在很大一部分數據資料缺失的情況下,仍可以維持準確度[2]。隨機森林回歸算法模型是通過將隨機子空間方法和Bootstrap集成學習理論結合,用以數據挖掘和機器學習[14],其基本原理如下。
a))對于輸入的數據集進行提取,劃分擬定的因變量與自變量并形成原始樣本集。
b))利用Bootstrap的重抽樣技巧,在原始樣本集中執行有放回的隨機提取,以此創建若干個獨立的樣本集。對于每個獨立樣本集,既包括被隨機選出的數據點也包括那些未被選出的數據(稱為袋外數據),這兩部分數據共同參與構造成一棵獨立的決策樹。
c))在構建每一棵決策樹時,系統在全部的N個特征(即自變量)中隨機選取m個特征來決定樹的分支條件。根據增益(Gain)指標從這m個特征中挑選出最佳的分裂點進行節點的分裂,以確保樹能夠以最充分的方式成長,進而建立回歸決策樹。
d))對于輸入的自變量X(ii=1,2,…,n),每棵決策樹都會生成一個預測值Yi,所有決策樹預測值的平均值即為最終輸出的預測結果。同時此前決策樹未抽取到的數據集可用來驗證真實值與預測值的誤差。
1. 4 相對權重法
在多元線性回歸和逐步回歸分析中,采用相對權重來衡量自變量的相對重要度[15]。即通過分別建立自變量與正交變量以及因變量與正交變量之間的線性回歸模型,進而以兩組線性回歸系數平方和的乘積作為衡量自變量相對重要性的指標,其數學原理如下[16]。
將全部數據中自變量X構成n×m階矩陣N,令P表示NN'的特征向量,Q'表示N'N的特征向量,得到相互正交的中間矩陣Z:
Z = PQ' (2)
建立因變量Y關于中間矩陣Z的多元線性回歸方程,得到回歸系數α:
α =( Z'Z)-1Z'Y =( QP'PQ')-1QP'Y = I'QP'Y =
QP'Y (3)
因為正交變量互不相關,因此用α2表示中間矩陣Z對因變量Y的貢獻比。為了精準表示自變量矩陣N對因變量Y的貢獻比,建立自變量N關于中間矩陣Z的多元線性回歸方程,得到回歸系數χ:
χ =( Z'Z)-1Z'N =( QP'PQ')-1QP'PΔQ' =
I'QΔQ' = QΔQ' (4)
同理,可以用χ2表示中間矩陣Z對自變量矩陣N的貢獻比,故自變量矩陣N對因變量Y的貢獻比可表示為:
ε = χα
(5)
因為自變量對因變量的貢獻比是通過正交變換獲得的,不僅解決了變量間的多重共線性問題,還反映了自變量對因變量的直接影響,包括自變量與模型中其他自變量的共同作用效應。因此可以使用各個自變量對因變量的貢獻比來表示自變量對因變量的相對重要性。
2 實例分析
某大壩為壤土均質壩和混凝土重力壩混合壩型,其中:混凝土重力壩段壩長249 m,壩頂寬7 m,最大壩高32. 44 m。本文選取混凝土重力壩段1+455. 5樁號J-10測縫計,J-10測縫計布設在南放水洞壩段與非溢流混凝土重力壩段分縫處,距壩軸
線+2. 50 m,埋設高程為116. 90 m,測縫計量程為50 mm。為了防止單個測點測縫計數據的誤差性,本文選取混凝土重力壩段1+544. 5樁號J-4測縫計數據進行驗證,J-4測縫計布設在北放水洞壩段與非溢流混凝土重力壩段分縫處,距壩軸線+2. 50 m,埋設高程為116. 90 m,測縫計量程為50 mm。基于2022年J-10測縫計一整年數據集,分別建立多元線性回歸模型、逐步回歸模型以及隨機森林模型。將測縫計開合度數據以及相對應的自變量數據集劃分為兩組,其中70%數據用來訓練模型(訓練集),30%數據用來測試模型(測試集)。采用周期函數作為溫度分量,分別為溫度1(sin")、溫度2)、溫度4分別為水壓1(H)、水壓2(H2)、水壓3(H3)、水壓4(H4);時效分量由線性和非線性2部分組成,時效1(θ)、時效2(θ2)、時效3(θ3);其中t為觀測日至觀測基準日的累計天數,θ=t/100,H為上游水深。
2. 1 預測結果分析
基于監測數據建立多元線性回歸模型、逐步回歸模型和隨機森林模型得到的回歸系數結果見表1。由表1可知,根據2種不同方法所確定的回歸系數差異不大,多元線性回歸模型僅比逐步回歸模型多出θ3的回歸系數。基于3種模型,進一步確定訓練集的擬合精度和測試集的預測精度。圖1給出了裂縫開合度的“預測值與實測值”對比結果。可以發現,3種模型預測的裂縫開合度變化規律基本與實測值變化規律一致,其中多元回歸模型預測的裂縫開合度在訓練集中明顯高估了實測值。
采用均方根誤差ERMS、平均絕對誤差EMA和決定系數R2作為模型評價指標,將結果匯總于表2。從表2可以發現,在訓練集中,3種模型R2均大于0. 98,ERMS最大為0. 431 mm,EMA最大為0. 365 mm,說明3種預測裂縫開合度模型成功建立;在測試集中,3種模型R2均大于0. 98,ERMS最大為0. 445 mm,EMA最大為0. 390 mm,說明3種模型均能預測裂縫開合度值。通過3種模型評價指標對比發現,隨機森林模型在訓練集和測試集中均要優于其他2種模型,R2分別為0. 995和0. 991,基本接近1,ERMS和EMA均小于0. 20 mm,基本接近實測值,而逐步回歸模型要優于多元線性回歸模型。具體而言,隨機森林模型的ERMS和EMA分別比多元線性回歸和逐步回歸模型降低60. 93%和9. 52%、68. 21%和17. 88%。采用2022年J-4測縫計數據進行驗證,隨機森林模型的預測能力最佳(R2為0. 99,ERMS和EMA分別為0. 018、0. 013 mm),其次為多元回歸模型(R2為0. 99,ERMS和EMA分別為0. 018、0. 014 mm,最后為逐步回歸模型(R2為0. 99,ERMS和EMA分別為0. 020、0. 016 mm)。2支測縫計均驗證隨機森林模型預測能力最佳。隨機森林模型作為數據挖掘的機器模型,在預測準確度上明顯優于多元線性回歸模型和逐步回歸模型等統計模型;而統計回歸模型得到的自變量回歸系數通過模型分解能更好地解釋裂縫變化規律。
2. 2 影響因素重要性分析
根據不同模型的特征重要性計算方法(1. 1—1. 3節),多元線性回歸模型和逐步回歸模型運用相對權重的思想對裂縫開合度監測數據進行特征重要性分析,3種模型所得結果見圖2。可以發現,盡管模型不同,但所確定的最重要因子分量一致,均為溫度2(cos")。運用相對權重法確定多元線性回歸模型和逐步回歸模型中影響因素排序可以看出:盡管模型不同,但所確定的分量得分排序規律一致,其中溫度分量是影響裂縫開合度主要因素,平均占比為50. 30%(多元線性回歸模型中為50. 10%,逐步回歸模型中為50. 50%);其次為水壓分量,平均占比為33. 25%(多元線性回歸模型中為34. 40%,逐步回歸模型中為32. 10%);最后為時效分量平均占比為15. 15%(多元線性回歸模型中為14. 00%,逐步回歸模型中為16. 30%),對于不同模型,同一分量(如溫度分量)中的不同因子的相對排序可能有所差異。這和于鵬[4]分析陳村大壩裂縫開合度測值變化規律一致。而選用隨機森林模型確定影響因素排序中,溫度分量(24. 02)是影響裂縫開合度主要因素,其次為時效分量(23. 00),最后為水壓分量(3. 88)。根據黃海燕等[2]分析某混凝土重力壩壩變形提到,機器學習模型往往表現為“黑盒”模型,雖然可以根據輸入給出準確的預報,但很難揭示其決策依據,因此應用隨機森林模型分析得出影響因素排序僅供參考。
2. 3 模型分解分析
為進一步找出裂縫開合度與水壓、溫度、時效的關系,本文對裂縫開合度多元回歸預測模型進行分解,從而得到水壓分量、溫度分量和時效分量的過程線,結果見圖3。
a))由圖3 a水壓分量K(H) - H的關系曲線可知,曲線出現一個駐點,可由"= 2. 889 -5. 325× 10-5× 4×H3 = 0,由此解得1個有效實根,H = 23. 848 m(水位111. 308 m),代入K(H)中求得51. 673 mm,即當水位較低時(111. 308 m以下),K(H)隨水位的升高而逐漸增大,當水位升高至111. 308 m,裂縫開合度出現極大值51. 673 mm;隨著水位的逐漸升高,K(H)隨水位升高反而減小,當水位升至125. 317 m(H = 37. 857 m),裂縫開合度出現最小值0 mm。此后,隨著庫水位的升高,裂縫開合度又隨水位升高繼續反向增大。為防止裂縫的繼續開裂,運行水位不宜低于111. 308 m和超過125. 317 m。
b))K(t)對氣溫的變化極為敏感,隨氣溫的波動而波動,溫度升高壩體膨脹,裂縫開合度減小,反之增大。從圖3b可知,K(t)和t為周期性函數,裂縫開合度最高可達到3. 602 mm,隨后逐漸閉合,最低可達到-2. 979 mm。本次分析實例中的混凝土重力壩未設置水溫溫度計和壩內溫度計,因此選取周期函數項來反映溫度對裂縫的影響,但可能與實際情況有一定出入,因為實際溫度隨時間變化并非嚴格的周期函數,每年同一日期的壩體溫度狀態不可能完全一樣,后期研究將通過實測壩體溫度、水溫和氣溫代入溫度分量,對比驗證周期函數項模型精度。
c))K(θ)隨時間而變,剛開始為閉合狀態,隨著時間增長而逐漸張開,其變化趨勢見圖3c,在運行至63 100 d左右會達到極大值為5. 443 mm,隨后隨時間推移保持平穩變化。
3 結論
本文以某混凝土重力壩的裂縫開合度監測數據為研究對象,分別對多元線性回歸模型、逐步回歸模型和隨機森林模型的預測能力進行了對比分析,通過影響因素重要性分析對裂縫開合度的機理進行了解釋。研究結果表明:基于2022年裂縫開合度實測訓練集數據,3種模型決定系數R2均大于0. 98,ERMS最大為0. 431 mm,EMA最大為0. 365 mm,說明3種預測裂縫開合度模型成功建立;在測試集中,基于決策樹算法的隨機森林模型能夠更加有效地捕捉裂縫開合度數據中的復雜非線性關系,其評價指標R2 最高、ERMS和EMA均最低;運用相對權重法和隨機森林法確定影響因素占比,量化了3個分量在裂縫開合度變化中占比,其中溫度分量最高,平均占比為50. 30%;通過裂縫開合度多元回歸預測模型進行分解,得到了水壓分量、溫度分量和時效分量的變化規律,其成果可為該混凝土壩今后工程運行管理和科學決策提供參考,具有較大的經濟效益和社會效益。
參考文獻:
[1]吳中如,陳波. 大壩變形監控模型發展回眸[J].現代測繪,2016,39(5):1-3,8.
[2]黃海燕,艾星星,劉興陽,等.基于可解釋性分析的大壩變形監控模型對比研究[J].人民長江,2024,55(9):203-209.
[3]蘇雨. 基于機器學習的某混凝土壩裂縫成因與預警研究[D].長沙:長沙理工大學,2017.
[4]于鵬. 混凝土壩裂縫成因及穩定性分析方法研究[D].南京:河海大學,2006.
[5]吳中如,沈長松,阮煥祥. 水工建筑物安全監控理論及其應用[M].南京:河海大學出版社,1990.
[6]吳中如,范樹平. 佛子嶺連拱壩原型結構性態綜合分析[J].水利水電技術,1993(11):2-6.
[7]葛鵬,馮庚. 基于灰色尖點模型的混凝土壩裂縫轉異判據研究[J].人民長江,2013,44(13):63-66.
[8]任超, 梁月吉, 龐光鋒, 等. 最優非負變權組合模型在大壩變形中的應用[J].大地測量與地球動力學,2014,34(6):162-166.
[9]程翔, 甘拯. 基于大數據挖掘的安全監測資料分析模型技術研究[J].低碳世界,2016(28):101-102.
[10]何政翔,張慧莉,趙鍵,等. 模糊聚類方法應用于大壩變形監測資料分析[J].水力發電,2013(11):59-61,79.
[11]SU H Z, LI X, YANG B B ,et al. Wavelet support vector"machine-based prediction model of dam deformation[J]. Mechanical Systems and Signal Processing, 2018, 110:412-427.
[12]吳中如. 水工建筑物安全監控理論及其應用[M].北京:高等教育出版社,2003.
[13]王曉蕾,槐先鋒. 逐步回歸模型在壩基揚壓力監測中的應用[J].東北水利水電,2006(2):45-47.
[14]BERIMANY L. Random forests[J]. Machine Learning, 2001, 45:5-32.
[15]JOHNSON J W, JEFF W. A Heuristic Method for Estimating the Relative Weight of Predictor Variables in Multiple Regression[J]. Multivariate Behavioral Research, 2000, 35(1):1-19.
[16]代魯燕,沈其君,張波,等. 相對權重法在線性模型自變量相對重要性中的估計及其應用[J].中國衛生統計,2013,30(1):19-20,22.