






摘 要:本研究應用集成學習方法對水利施工中的技術狀態監測進行了深入探討。通過分析圍堰堰體的水平位移、垂直位移和防滲墻變形情況,并結合不同算法的特征,比較決策樹、隨機森林、梯度提升樹(GBT)和stacked等算法的監測準確率。結果表明,不同算法在不同監測任務中的表現存在差異。隨著時間推移和數據積累,預測準確性逐漸提高,尤其是梯度提升樹和stacked算法在數據量增加后表現更為優越。然而,圍堰堰體及防滲墻的變形預測仍面臨挑戰,部分原因是受到復雜的環境因素和數據隱變量的影響。總體而言,梯度提升樹和stacked算法在提高監測準確性方面展現出更好的潛力,未來能為水利施工技術狀態監測提供新的思路。
關鍵詞:集成學習;stacked集成;水利施工;技術狀態監測
中圖分類號:TV 22" 文獻標志碼:A
傳統的監測方法多結合經驗和單一模型,難以應對復雜的施工環境和多變的工況。因此,基于數據驅動的監測方法逐漸受到關注,其中,集成學習因其在處理復雜數據和提高模型預測準確性方面具有優勢,逐漸成為技術狀態監測中的一個新興研究方向。楊凡等[1]設計了一種基于SDN(軟件定義網絡)和集成學習的工業控制網絡安全防護系統。王潤瓊等[2]提出了一種基于特征自適應融合和集成學習的銑削刀具狀態監測方法。徐凱等[3]提出了一種改進麻雀算法(改進的SPPSO)和Q-Learning優化集成學習的軌道電路故障診斷方法,利用改進麻雀算法優化模型結構,并通過Q-Learning優化基學習器組合權重。宋錦燾等[4]在土石壩滲流監控中,提出了一種將統計模型和智能算法進行融合的集成學習模型。馬晶等[5]開發了一種結合遺傳算法(GA)、BP神經網絡和集成學習的鉆削刀具狀態實時監測平臺。劉長良等[6]針對MSET(多元狀態估計技術)在風電機組齒輪箱故障預警中的局限性,提出了一種改進方法。趙勁松等[7]提出了一種基于Bagging集成策略和MSET的新方法,以解決MSET在大規模記憶矩陣下的實時性問題。
1 工程概述
在水利施工過程中,為了及時發現和預防潛在的安全風險,技術狀態監測非常重要。圍堰作為水利工程中的關鍵結構,可以起到重要的防護和支撐作用。在截流圍堰的施工階段,圍堰堰體的穩定性直接影響施工的安全性和工程的整體質量。圍堰堰體監測涉及多個方面,包括水平位移、垂直位移和防滲墻的變形等關鍵指標。這些指標變化直接反映了圍堰堰體的穩定性及其對環境變化的適應能力。為了應對地下水位變動、水位變化以及復雜結構因素對圍堰堰體穩定性的影響,技術狀態監測必須具備高頻率的監測能力、數據的精準性、及時預警功能。在圍堰堰體監測中,集成學習方法可以有效地處理復雜的監測數據,并提供更可靠的預警信息,監測系統應該能夠連續記錄圍堰堰體的關鍵指標,并對未來的狀態進行準確地預測,及時采取必要的措施,防止可能的安全隱患。其監控預警機制如圖1所示。
2 集成學習方法
2.1 決策樹與隨機森林
決策樹使用一個樹形結構進行決策,其中,每個內部節點表示一個特征或屬性,每個分支表示一個決策規則,而每個葉節點表示一個類別或值。遍歷當前全部剩余特征屬性并計算分類結果,構建最小Gini指數確定這個屬性劃分的標準和結果。Gini指數的計算過程如公式(1)所示。
式中:Gini(t)為當前節點的Gini指數;t為當前節點;k為分類的類別數;scalek是當前節點t中屬于類別k的樣本所占比例。
計算決策樹的預測fDT(x)如公式(2)所示。
式中:fDT(x)為決策樹的預測結果;x為整體輸入數據;K為類別總量,即葉節點的數量;ck為第k個類別對應葉節點的預測值;I(w∈Rt)為指示函數,表示輸入x是否屬于第t個葉子節點Rt;w為葉子節點權重。
指示函數I(w∈Rt)通過結構映射函數將輸入映射到葉子索引號,如公式(3)所示。
式中:T為樹的葉子節點總數;→為映射,說明每個葉子節點x:Rt→{1,2,…,T}是輸入數據x通過樹的分裂條件所劃分的結果。
基于此構建的隨機森林是一種基于決策樹構建的集成學習方法,通過多棵決策樹進行預測,假設有D棵樹,計算每棵樹的預測fRF(x)如公式(4)所示。
式中:fRF(x)為隨機森林的預測結果;D為隨機森林中的決策樹數量;d為任意給定樹的序號;fDT(d)為第d棵樹的預測結果。
2.2 梯度提升樹
梯度提高是一種迭代的集成學習方法,通過不斷優化損失函數來提高模型性能,適用于復雜的非線性關系。計算其框架模型的預測如公式(5)所示。
式中:fm(x)為模型的預測結果;fm+1(x)為前上一階段次迭代的模型;L()為損失函數;yi為模型此時輸出值;h(xi)為新加入的決策樹。
本文選擇XGBoost梯度提升樹,大致可以分為兩個部分,即目標函數與其中添加的正則化部分。前者為單純的訓練誤差,后者則用于衡量目標函數下降情況和模型復雜度,避免過擬合帶來的偏差,如公式(6)所示。
式中:obj(θ)為整合后的負向目標函數;L(θ)為訓練誤差,即損失函數;Ω(θ)是模型復雜度。
度量模型預測值和真實值之間的誤差水平,常用的模型為平方損失函數或logistic損失,如公式(7)所示。
式中:為給定序號為i的輸入數據對應的預測結果理想水平。
也可以改寫為公式(8)。
模型復雜度Ω(θ)是每棵樹的復雜度之和,包括兩個部分樹的葉子T和葉子節點權重平方。
定義正則項如公式(9)所示。
式中:Ω(ft)為正則項,用于控制模型復雜度;γ為每棵樹的復雜度懲罰系數;λ為葉子節點權重的正則化系數。
由此構成完整函數結構,利用這個目標函數進行測度,使用添加訓練的方式,即Boosting迭代分析。每次構建的原有模型保持不變,加入新函數f(),如公式(10)~公式(13)所示。
式中:f()為調整表達式結構設置的函數。
2.3 Stacked集成
Stacked集成是一種將不同基本學習器的預測結果作為輸入,再經過一個元學習器進行整合的方法,可以進一步提高預測性能。假設有K個基本學習器,則元學習器的預測方法可以用公式(14)表示。
式中:fk(x)為第k個基本學習器的預測;g()為元學習器。
3 性能測試
3.1 堰體位移監測
使用不同集成學習方法對圍堰堰體水平與垂直位移進行預測,對比各期預測結果如圖2所示。
水位變動對圍堰堰體水平位移有顯著影響,這可能是導致預測準確率分布相對分散的主要原因。上游水位的變動可能導致圍堰堰體受力變化,進而影響水平位移。隨著時間的推移,預測準確性逐漸提高。地下水位變動可能導致圍堰堰體受力變化,進而影響垂直位移。與水平位移類似,隨機森林和決策樹的預測能力較低,可能是因為梯度提升樹和stacked能更好地應對復雜的關系,所以梯度提升樹和stacked的預測性能表現較好。
3.2 防滲墻變形
對比不同集成學習方法處理防滲墻的變形情況,各期預測結果如圖3所示。
防滲墻變形受到多種因素的影響,包括水位變動、地下水環境、墻體自身結構強度和表面強度等因素,這使預測變得更加困難。其中,決策樹在初期預測準確性較低,隨著時間的推移才逐漸提高,而其他模型在中長期普遍有著較高的預測準確性,這也表明復雜的因素需要更多的數據積累和模型學習。
通過對比試驗結果,發現集成學習方法比單一模型在預測準確性和穩定性均有提高。其中,隨機森林與決策樹這兩種算法可能對復雜的非線性關系建模能力較弱,導致在初期預測準確性較低。梯度提升樹和stacked等算法能更好地捕捉復雜的非線性關系,因此在各類預測中表現較好,數據積累較為豐富時能夠較好預測未來位移、變形水平。其中,Stacked集成方法在綜合考慮多個基本學習器的結果后,表現出更高的預測性能。綜合來看,這些結果表明水位變動、地下水位變動以及復雜的結構因素對圍堰堰體的安全狀態有重要影響,而算法選擇對預測準確性也有顯著的影響。因此,在實際應用中,需要綜合考慮這些因素,同時選擇合適的算法以及持續積累數據,提高預測準確性。
3.3 預測準確性對比
進一步整理模型的預測準確性,結果如圖4所示。
隨著決策樹數量增加,模型的準確率逐步提高。從最初的10棵決策樹時的78.4%,到200棵決策樹時的89.7%,準確率穩步上升。表明增加決策樹數量有助于提高模型的準確性。集成學習方法中的決策樹數量增加,使模型能夠更好地進行多樣性學習,并且通過更多的決策樹來縮小單一模型的偏差。每棵決策樹都在數據的不同部分進行訓練,增加了模型對數據特征的覆蓋面和多樣性,從而提高了整體的預測準確率。隨著決策樹數量的進一步增加,準確率的增幅逐漸減少。特別是在決策樹數量達到150棵后,準確率提高幅度趨于平穩,需要更多的樹才能獲得微小的增益,表明雖然增加決策樹可以提高準確率,但在一定數量后,模型提高效果會逐漸減弱。決策樹過多可能會導致計算成本增加和模型訓練時間延長,因此在實際應用中,需要在準確率和計算資源之間找到平衡點。綜合來看,在實際應用中,應根據具體需求和計算資源合理選擇決策樹的數量,避免過擬合的風險,并保證模型的效率。召回率數據如圖5所示。
召回率隨著決策樹數量增加而逐漸提高。具體而言,從10棵決策樹的70.3%開始,召回率逐步升至200棵決策樹時的81.9%。召回率提高表明模型在識別實際正例方面的能力得到增強,因為在較少的決策樹數量下,模型已經獲得了較高的召回率,進一步增加決策樹對提高召回率的效果有限,所以較高決策樹數量時的增幅變得更加平緩。因此,需要適度增加決策樹的數量,以獲得較高的召回率,同時避免資源浪費和模型復雜度增加。
綜合考慮較高的準確率和較低的召回率,將之混合整理為F1水平,結果如圖6所示。
隨著決策樹數量增加,F1得分也逐步上升,從最初的74.5%升至200棵決策樹時的88.7%,反映了模型在平衡精度和召回率方面的能力有所增強。增加決策樹數量使模型處理數據時更加精準和全面,從而提高了F1得分,但決策樹數量較高時逐漸減緩,模型可能出現了過擬合現象。
4 結語
本研究基于集成學習方法對水利施工中截流圍堰后的堰體安全進行技術狀態監測,取得了顯著成果。研究分析了上游水位變動、地下水位變動及復雜結構因素對監測結果影響,并評估了決策樹、隨機森林、GBT和Stacked等算法的準確率。結果顯示,上游水位變化顯著影響圍堰堰體的水平位移,地下水位變動較大影響垂直位移預測能力,防滲墻受多種因素綜合影響,其中,GBT表現優異。建議優先考慮GBT算法,該算法在數據積累后期性能更佳。Stacked模型效果良好,在處理復雜數據融合任務方面適用性好。決策樹和隨機森林適用于簡單情況,但在復雜環境下略差,因此建議結合使用GBT或Stacked模型應對復雜監測任務。未來的研究應重點關注數據積累對模型性能的關鍵作用,可以探索實時數據流和動態更新機制,保持模型的準確性和時效性。
參考文獻
[1]楊凡,丁之,王揚,等.基于SDN和集成學習的工業控制網絡安全防護系統[J].現代電子技術,2024,47(6):22-26.
[2]王潤瓊,宋清華,彭業振,等.基于特征自適應融合和集成學習的高性能銑削刀具狀態監測[J].機械工程學報,2024,60(1):149-158.
[3]徐凱,鄭浩,涂永超,等.改進麻雀算法和Q-Learning優化集成學習軌道電路故障診斷[J].鐵道科學與工程學報,2023,20(11):4426-4437.
[4]宋錦燾,袁帥,劉云賀,等.土石壩滲流安全監控的集成學習融合模型[J].水力發電學報,2023,42(5):107-119.
[5]馬晶,白崢言,劉獻禮,等.結合GA-BP與集成學習的鉆削過程刀具狀態實時監測[J].機械科學與技術,2023,42(10):1678-1689.
[6]劉長良,王梓齊.基于MSET和集成學習的風電機組齒輪箱故障預警[J].太陽能學報,2020,41(11):228-233.
[7]趙勁松,王梓齊,劉長良.基于Bagging集成策略和多元狀態估計的風電機組齒輪箱狀態監測[J].科學技術與工程,2020,20(20):8180-8186.