











摘要:針對大壩安全監測數據質量評價效率低下、智慧化不足等難題,為了滿足大壩高頻率自動化采集的實時數據質量評價需要,從準確性、完整性、時效性和連續性4個方面出發提出了6項評價因子及由相關評價規范構成的安全監測歷史數據質量評價標準,通過基于AUC值改進的隨機森林算法建立了大壩安全監測歷史數據質量評價算法,并將該算法應用于新疆柳樹溝面板堆石壩多年安全監測歷史數據評價。結果表明:通過AUC值改進的隨機森林算法優于原始算法,在特征屬性數量取3時效果最好,測試集的泛化誤差最小僅為0.019 5,平均準確率穩定在96.97%附近,10折交叉驗證平均準確率達到97.77%,證明了該算法的可行性。
關 鍵 詞:大壩安全監測; 數據質量評價; 隨機森林算法; 評價因子
中圖法分類號: TV698.2 文獻標志碼: A DOI:10.16232/j.cnki.1001-4179.2024.02.030
0 引 言
大壩是水利水電工程的核心,需要保證其長期安全穩定運行,為掌握大壩安全運行性態,在大壩上一般會布置數量不等的安全監測儀器[1]。為了確定這些監測儀器工作狀態是否正常,需要定期開展儀器鑒定工作,而儀器的歷史數據質量評價則是其中的重要組成部分[2]。
隨著“智慧水利”的逐漸推廣,大壩監測數據也由傳統的低頻率人工采集轉向高頻率自動化采集。傳統的大壩安全監測歷史數據評價方法以分析測值過程線圖為主,并結合建筑物實際運行情況進行分析評價,但其評價效率低下、受人為影響大等特點與當今智能化數據處理趨勢相違背。為了及時對大壩自動化采集數據進行質量評價,便于后續大壩安全監測預警,需要對評價方法進行改進與創新。隨著近年國內外對集成方法和其他新型學科研究的不斷深入,一些學者在數據質量評價方面提出了新的方法。如何金平等[3]使用模糊綜合評價方法,將大壩歷史數據質量這一定性指標轉化為隸屬度進行計算,通過隸屬度所在區間進行等級賦予。Wang等[4]通過逆向云生成器,將大壩監測數據轉化為云數字特征值,并給出對應的定性評價結果。Lucas等[5]討論了大壩與橋梁監測數據質量的評估和定義,提出了包括觀察誤差、連貫性、相關性在內的10個維度,豐富了監測數據的質量信息。Curt等[6]使用失效模式和影響分析(FMEA)確定監測數據對應的特點標準,隨后使用風險評估模型(ELECTRE TRI)構建量化數據質量,并通過數據質量網格展示結果。Corinne等[7]介紹了應用于大壩評估的CI方法和Irstea方法,兩種方法通過專家定義的數據質量評估標準來得到相關評分量表,最后通過多標準聚合方法給出匯總結果。劉文君等[8]在層次分析法的基礎上,融合了基于異常特征的集成方法,形成了對數據質量的聯合判別。郭昊等[9]選取完整性、時效性、連續性這3個指標,并通過綜合質量評分算法將其結合起來,給出了數據質量評分。Subramanian等[10]基于決策樹和多維模型,設計了一個大數據質量評估框架。此類研究均針對不同領域的數據質量進行了評價,但應用于大壩安全監測歷史數據評價時還存在一些問題,如使用綜合評分法時評分結果接近導致難以區分,使用層次分析法時指標權重難以確定等難題。
本文以大壩安全監測歷史數據質量為評價對象,選取數據異常率、連續異常數據占比率、歷史數據缺失率、連續缺失數據占比率、采集時間異常率、采集時間標準差這6項作為歷史數據的評價因子,采用基于AUC值改進的隨機森林算法來建立評價因子到數據質量等級的對應關系,提出了一種基于改進隨機森林算法的大壩安全監測歷史數據質量評價算法,并通過試驗驗證該算法的實際可行性。
1 大壩安全監測歷史數據質量評價方法
1.1 評價指標
隨機森林算法可以非常高效地對目標進行分類,但其算法實現的前提是存在足夠多的數據和特征。對于大壩安全監測儀器來說,采集到的歷史數據往往只有采集時間與監測項目數值,無法直接采用隨機森林算法進行訓練和分類,需要對其進一步挖掘以得到可以用于隨機森林算法訓練的有效特征。根據國內外學者對數據質量評價問題的研究成果,可以從準確性、完整性、時效性和連續性等不同方面進行質量評價[11]。故本文從以上4個方面提出了6項評價因子用于構造隨機森林分類數據。
1.1.1 準確性指標
準確性作為數據可靠性的衡量指標,它反映了歷史數據與真實值之間的偏差程度,通過計算準確性的大小可以得到系統誤差和隨機誤差對數據質量的影響[12]。這里采用數據異常率來反映準確程度,計算方法可定義為F1=nerrorn×100%(1)式中:nerror為出現錯誤的數據個數;n為數據樣本內的數據個數。其中,nerror主要采用多方法進行綜合判定與計算,包括普遍使用的統計學方法諸如3σ準則、四分位數,用于剝離周期性與趨勢性的小波分解、模態分解,使用鄰近的高相關性儀器數據和環境監測量如水位、溫度等進行協同判斷。
1.1.2 完整性指標
完整性反映了歷史數據實際數量與計劃采集數量的偏差程度,可以通過計算完整性大小來評價監測工作的完成程度[13]。這里采用歷史數據缺失率F2來反映數據完整程度,計算公式為
中:na為數據集內實際數據個數;ntrue為該時間段內數據集應有的數據個數。鑒于本文研究的自動化采集數據通常使用定時采集,在計算數據缺失率前需要根據對應儀器監測頻率對數據樣本進行擴展,得到ntrue。
1.1.3 時效性指標
數據時效性評價指標可以劃分為基于時間段的正確性、基于時間點的及時性以及時序性[13],在此基礎上使用采集時間異常率來反映基于時間點的及時程度,使用采集時間標準差來反映數據采集時間的波動程度。鑒于本文針對大壩自動化采集,其監測數據采集頻率應當符合設備設定頻次,即其數據采集周期已知。采集時間異常率F3的計算公式如下:F3=1-ntn×100%(3)式中:nt為符合數據更新時間的數據個數。
采集時間標準差F4的計算公式為F4=ni=1ti-tm2n×t0(4)式中:ti為第i個數據的采集時間;tm為數據樣本內的采集時間數;n為數據樣本內的數據個數;t0為根據監測頻率得到的時間間隔。
1.1.4 連續性指標
儀器、通訊故障、人為誤差以及剔除異常數據是造成數據缺失[14]的主要原因。為了提高后續大壩安全監測預警結果的可靠性,需要對缺失數據進行填補,根據宋洋[14]對重力壩變形監測數據的填補研究,發現連續性缺失對比不連續性缺失更加難以填補,且填補精度也很低。在此基礎上,本文使用連續異常數據占比率與連續缺失數據占比率來反映異常值和缺失值的連續程度,以此反映數據的修補難易程度。連續異常數據占比率F5的計算公式如下:F5=nEanerror×100%(5)式中:nEa為出現錯誤的數據中相鄰的數據個數。
同理,連續缺失數據占比率F6的計算公式為
式中:nMa為出現缺失的數據中相鄰的數據個數。
1.2 評價標準
本文參照DL/T 5259-2010《土石壩安全監測技術規范》和DL/T 5256-2010《土石壩安全監測資料整編規程》等規范,將大壩歷史監測資料分析分為初步分析和系統分析兩部分。初步分析是在對資料進行整理后,采用繪制過程線、分布圖、相關圖及測值比較等方法對其進行分析與檢查。系統分析是在初步分析的基礎上,采用各種算法、模型進行定性、定量以及綜合性的分析,并對工作狀態作出評價[15]。
大壩安全監測歷史數據質量的評價參照DL/T 1254-2013《差動電阻式監測儀器鑒定技術規程》和DL/T 1271-2013《鋼弦式監測儀器鑒定技術規程》等規范,將歷史數據質量劃分為3個等級:A級合格,歷史數據變化合理,過程線具有明顯規律且沒有由于儀器本身造成的系統誤差;B級基本合格,歷史數據過程線具有規律、變化合理,能夠對出現的系統誤差進行修正;C級不合格,歷史數據變化混亂無規律,無法修正頻繁出現的系統誤差,無法對歷史數據進行分析和使用[2,16]。
2 基于改進隨機森林模型的大壩安全監測歷史數據質量評價算法 隨機森林算法是由Breiman[17]和Adele[18]等提出的一種機器學習算法,其基本原理是對原始數據集采用bootstrap重采樣的方法獲得不同的樣本集,針對每個樣本集隨機選擇節點屬性,并從中選擇最優的節點屬性進行分裂以形成基決策樹,在多個無關聯的基決策樹中采用多數結果法、投票法等綜合分析得到最終結果[19]。隨機森林算法具有計算速度快、抗噪聲能力強、分類準確度高等特點,有鑒于此,本文采用隨機森林法來建立大壩安全監測歷史數據評價算法。
為更好地適配評價算法,提升分類能力,本文對基決策樹組合和多數投票法這兩部分進行了改進。在基決策樹組合步驟,通過AUC值來選擇區分能力較好的基決策樹,將其組合為相對原始隨機森林模型更加優秀的模型。AUC值來自于ROC曲線,該曲線又被稱為接受者操作特征曲線,同樣是用于評估分類器性能好壞的指標之一,其曲線下的面積即為AUC值。AUC值的取值范圍為[0,1],越接近1代表分類器性能越好。對隨機森林模型中的所有決策樹進行AUC值計算并按照大小排序后,通過四分位法選擇前75%的決策樹進行隨機森林模型的集成。
在多數投票法步驟,為了提升優秀基決策樹分類結果的權重,保證最終結果更加合理準確,本文選擇使用AUC值加權投票法來代替多數投票法,即將每棵基決策樹在投票時所代表的票數1變為自身的AUC值,隨后將票數最多的分類結果作為最終結果。即使在基決策樹集成步驟已經劃定了75%的范圍,其中依舊會包括一些低分類能力的決策樹,通過AUC值進行加權后可以有效改善這種情況。改進后的隨機森林算法流程如圖1所示。
基于改進隨機森林的大壩安全監測歷史數據質量評價算法,其核心在于建立安全監測數據評價因子集到大壩歷史數據質量等級的對應關系,進而通過建立的對應關系對待測數據生成評價分類結果。基于改進隨機森林的大壩安全監測歷史數據質量評價算法其具體流程如圖2所示。
算法基本步驟如下:
(1) 依據1.1節中6項評價因子的計算公式對安全監測數據集進行預處理,得到安全監測數據評價因子集,并將其與安全監測數據集的歷史數據質量等級一一對應。
(2) 根據設定的隨機森林決策樹棵數T,對安全監測數據評價因子集及其對應歷史數據質量等級進行bootstrap重采樣,得到T個訓練數據集。
(3) 針對T個訓練數據集,根據設定的隨機森林特征屬性數量m對特征屬性進行m次隨機選擇,在此基礎上進行分裂得到T顆不同的基決策樹。
(4) 依據T棵基決策樹對應的AUC值進行集成,將其組合得到隨機森林模型,以此建立安全監測數據評價因子集到大壩安全監測歷史數據質量等級的對應關系。
(5) 輸入需要進行質量評價的監測數據,計算對應的評價因子,使用隨機森林模型對評價因子進行分類評價,并通過AUC加權投票法輸出最終評價等級。
3 實例驗證
為了驗證基于隨機森林的大壩安全監測歷史數據質量評價算法的實用性,采用新疆柳樹溝面板堆石壩2015年12月8日至2020年12月8日的安全監測歷史數據作為樣本數據展開分析。該壩壩頂高程1 499.00 m,最大壩高100 m,壩頂長186.38 m,壩頂寬10 m。樣本數據共434個,來源于24支面板固定式測斜儀、16支面板脫空儀、132支單向側縫計、41支滲壓計、97支鋼筋計等儀器,數據類型主要為變形監測數據、滲壓監測數據和應力監測數據,典型測點測值變化過程線如圖3所示。表1給出了經過數據預處理后的部分評價因子集樣例。分析過程中,將數據以7∶3比例隨機劃分為訓練集與試驗集。
為了確保與算法預測結果進行對比的歷史數據質量評價是合理有效的,本文以OH-13測點為例進行詳細評價,其測值過程線如圖4所示。
依據長江勘測規設計研究有限責任公司對大壩的綜合分析報告和實際情況,OH-13測點部分歷史測值超出量程且存在大量明顯粗差與缺失;自動化數據采集系統觀測頻次為1次/d,滿足規范要求;對該測點進行人工檢測發現其滲壓計測值不穩定,短時間連續測量差值超出規范,自動化測值與人工差值較大,接近300 m,結果不合理;數據損壞嚴重,難以修補。綜合上述評價情況,最終將OH-13測點數據評價為不合格。
3.1 特征屬性數量的最優選取
特征屬性數量是隨機森林模型的重要參數,為了得到最優的特征屬性數量參數,使用訓練集進行了安全監測歷史數據質量評價試驗。在測試試驗中,使用10折交叉驗證誤差率作為隨機森林模型的性能評價標準,測試結果如圖5所示。
從圖5結果可以看出,不論是試驗誤差率的穩定程度還是最小值,當特征屬性數量為3時都呈現出比較好的結果。因此后續試驗的特征屬性數量固定為3。
3.2 算法改進效果
為了對比改進前后的隨機森林算法性能,使用部分試驗樣本數據進行了模型構建和準確率測試,測試結果如圖6所示。
如圖6所示,改進后的隨機森林算法在測試集上的準確率曲線基本位于改進前的算法曲線之上,同時改進后的算法波動程度更小,穩定性更強。
3.3 評價算法驗證
為了對比不同參數設置下的隨機森林模型對安全監測歷史數據質量的評價精度,采用包外數據(OOB)估計和測試集分類準確度作為評價隨機森林算法性能的指標。包外數據是bootstrap重采樣時沒有被采集到的數據,其模型測試結果被稱為包外估計,可以將其作為泛化誤差的無偏估計,用于檢驗模型的泛化能力[20]。
首先,在試驗算法中輸入訓練集,共303個數據樣本,并通過bootstrap重抽樣方法,依據試驗設定的基決策樹棵數和特征屬性數量來生成對應數量的訓練樣本集,在此基礎上進行分裂,形成基決策樹,最終組合形成基決策樹集合,以多數投票法原則計算包外數據的最終分類結果,并分析包外數據的分類情況和誤差估計大小。隨著模型內決策樹棵數變化,誤差率變化如圖7所示。
然后,采用已經完成訓練的隨機森林模型對含有131個數據樣本的測試集進行計算,將輸出的樣本數據質量等級與樣本真實等級進行對比,計算測試集的分類結果準確率。隨著模型內決策樹棵樹變化,準確率變化如圖8所示。
依據圖7~8可知,在決策樹數量為18以前,包外數據的泛化誤差和測試數據分類準確性波動程度較大,但在決策樹棵數增大到一定數值后,兩者都呈現出穩定趨勢,包外數據的泛化誤差穩定在0.022 7,測試數據的分類準確率穩定在96.97%,體現出了隨機森林模型在安全監測歷史數據質量評價方面具有較高的穩定性。在隨機森林模型的有效性方面,包外數據的泛化誤差最小值為0.019 5,測試數據的平均分類準確率為96.86%,體現出了隨機森林模型在安全監測歷史數據質量評價方面具有較高的有效性和精度。此外,由于經過了數據預處理,試驗采用的數據集(見表1)為離散型數據,使得隨機森林模型在安全監測歷史數據質量評價方面具有較高的魯棒性,能夠有效抵抗噪音的干擾。
最后,為了進一步驗證隨機森林模型在安全監測歷史數據質量評價方面的穩定性和泛化能力,使用全部共434個數據樣本進行10折交叉驗證試驗。試驗結果如圖9所示。
由圖9可知,在穩定性方面,10折交叉驗證準確率的波動區間為97.08%~98.38%,波動標準差為0.002,數據整體的波動較小,從另一方面體現出了隨機森林模型在安全監測歷史數據質量評價方面具有較高的穩定性。在泛化能力方面,該算法進行了200次試驗,且試驗數據進行了隨機劃分,平均準確率達到97.77%,體現出該算法具有較高的泛化能力。
4 結 論
(1) 本文基于自動化采集的大壩安全監測數據特征和數據質量特點,提出了6項評價安全監測歷史數據質量的因子,依據相關國家和行業標準建立了大壩安全監測歷史數據質量評價標準。
(2) 提出了一種基于AUC值改進隨機森林模型的大壩歷史數據質量評價算法,基于6項評價因子建立原始數據評價因子集到大壩歷史數據質量等級的對應關系,并通過對應關系生成評價分類結果,對歷史數據進行質量分級。
(3) 本文算法泛化誤差最小值僅為0.019 5,測試數據分類準確性穩定在96.97%左右,10折交叉驗證平均準確率達到97.77%,能夠較好地完成大壩安全監測歷史數據質量評價工作,具有較高的穩定性、魯棒性、泛化能力和精度,滿足了大壩安全監測數據智能化分析的需求。
參考文獻:
[1]李慶斌,馬睿,胡昱,等.大壩智能建造研究進展與發展趨勢[J].清華大學學報(自然科學版),2022,62(8):1252-1269.
[2]國家能源局.差動電阻式監測儀器鑒定技術規程:DL/T 1254-2013[S].北京:中國電力出版社,2013.
[3]何金平,涂圓圓,逄智堂.大壩安全監測系統綜合評價(Ⅲ)評價方法[J].水電自動化與大壩監測,2011,35(3):63-66.
[4]WANG T J,YANG B,YANG H Y.Dam deformation monitoring and data analysis based on cloud model[J].Advanced Materials Research,2012,459:479-82.
[5]LUCAS A,PALMA D,CALDEIRA M.The quality of monitoring data in civil engineering works[C]∥Proceedings of the 2009 International Conference on Information Quality,ICIQ,2009.
[6]CURT C,TALON A.Assessment and control of the quality of data used during dam reviews by using expert knowledge and the ELECTRE TRI method[J].Journal of Computing in Civil Engineering,2013,27(1):10-17.
[7]CORINNE C,RICHARD G.Approach to improving the quality of data used to analyse dams-illustrations by two methods[J].European Journal of Environmental and Civil Engineering,2014,18(1):87-105.
[8]劉文君,賀馨儀,王彬,等.基于異常檢測集成算法的油色譜在線監測數據質量評價體系[J].電網與清潔能源,2022,38(8):16-23.
[9]郭昊,李海濱,馮姣,等.基于大數據處理的船舶數據質量評價方法研究[J].計算機仿真,2022,39(2):298-303.
[10]SUBRAMANIAN D V,PRADHEEPKUMAR K,DHINAKARAN K,et al.Catur approach to assess the quality of big data using decision tree and multidimensional model[J].Australian Journal of Basic and Applied Sciences,2015,9(23):503-508.
[11]田仲,李培軍,程芳.通用數據質量評分系統的研究與設計[J].標準科學,2016(5):94-99.
[12]鄭琳,劉艷,崔文林,等.海洋監測數據質量評估研究[J].海洋通報,2014,33(2):228-234.
[13]中國國家標準化管理委員會.信息技術 數據質量評價指標:GB/T 36344-2018[S].北京:中國標準出版社,2018.
[14]宋洋.重力壩變形監測數據缺失值處理方法研究[D].西安:西安理工大學,2021.
[15]中華人民共和國水利部.土石壩安全監測技術規范:SL 551-2012[S].北京:中國水利水電出版社,2012.
[16]國家能源局.鋼弦式監測儀器鑒定技術規程:DL/T 1271-2013[S].北京:中國電力出版社,2013.
[17]BREIMAN L.Random Forests[J].Machine Learning,2001,31:106472.
[18]ADELE C,DAVID R C,JOHN R S.Ensemble Machine Learning[M].Boston:Springer,2012.
[19]楊瑞君,趙楠,凡耀峰,等.基于隨機森林模型的城市空氣質量評價[J].計算機工程與設計,2017,38(11):3151-3156.
[20]WOLPERT D H,MACREADY W G.An efficient method to estimate bagging′s generalization error[J].Machine Learning,1999,35(1):41-55.
(編輯:胡旭東)
Data quality evaluation algorithm on dam monitoring based on improved random forestPAN Yu1,LI Denghua2,3,DING Yong1
(1.School of Science,Nanjing University of Science and Technology,Nanjing 210094,China; 2.Nanjing Hydraulic Research Institute,Nanjing 210029,China; 3.Key Laboratory of Reservoir Dam Safety,Ministry of Water Resources,Nanjing 210029,China)
Abstract: Aiming at the problems of low efficiency and insufficient intelligence of data quality evaluation in dam safety monitoring,in order to meet the needs of real-time data quality evaluation of high-frequency automatic acquisition of dams,a quality evaluation criteria of safety monitoring data composed of six evaluation factors and related evaluation criteria from the four aspects of accuracy,integrity,timeliness and repair ability were proposed.And then a quality evaluation algorithm on historical data of dam safety monitoring was established by the improved random forest algorithm based on AUC value.The algorithm was applied to the evaluation of multi-year safety monitoring data of Liushugou concrete face rockfill dam in Xinjiang.The results showed that the random forest algorithm improved by AUC value was better than the original algorithm.When the feature attributes was 3,the effect was the best.The generalization error for the test set could reach 0.019 5,the average accuracy was stable at 96.97%,and the average accuracy of 10-fold cross validation reached 97.77%,which proved the feasibility of the new algorithm.
Key words: dam safety monitoring;data quality evaluation;random forest algorithm;evaluation factor
收稿日期:2023-06-12;接受日期:2023-09-08
基金項目:國家重點研發計劃項目(2022YFC3005502);國家自然科學基金項目(51979174);國家自然科學基金聯合基金項目(U2040221);中央級公益性科研院所基本科研業務費專項資金項目(Y321004)
作者簡介:潘 宇,男,碩士研究生,主要從事水工結構安全監測方面的研究工作。 E-mail:py121898@njust.edu.cn
通信作者:李登華,男,正高級工程師,博士,主要從事大壩安全評估方面的研究工作。 E-mail:dhli@nhri.cn