


















摘" 要: 大壩監測數據是判斷大壩運行安全的主要依據,為了鑒別數據優劣并選擇出可信度較高的數據,文中構建一個大壩監測數據質量評價框架。針對測點之間的相關性、監測項目及儀器的特點,利用Kshape算法找出具有強相關性的測點,再通過相對偏移率、相對平滑率、周期波動程度和精度修正率等評價因子對大壩監測數據進行評價;其次,結合混合蝙蝠算法優化后的長短期記憶網絡對大壩監測數據進行分類,構建了大壩監測數據質量評價算法流程。以新疆某大壩監測數據為研究對象進行試驗,結果表明所提出的大壩監測數據質量評價算法的準確率為94.33%,可為評價大壩監測數據質量提供有效的解決方法。
關鍵詞: 大壩監測數據; 評價因子; 數據質量評價; 長短期記憶網絡; 測點聚類; 相關性分析
中圖分類號: TN919.2?34; TV698.2" " " " " " " 文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)02?0090?07
Research on evaluation factors and algorithms of dam monitoring data quality
FENG Yuyang1, LI Denghua2, 3, FANG Boya4, DING Yong1
(1. School of Science, Nanjing University of Science and Technology, Nanjing 210094, China; 2. Nanjing Hydraulic Research Institute, Nanjing 210029, China;
3. Key Laboratory of Reservoir Dam Safety, Ministry of Water Resources, Nanjing 210029, China; 4. Huashe Testing Technology Co., Ltd., Nanjing 211100, China)
Abstract: Dam monitoring data is the main basis for judging the safety of dam operation. In order to identify the data quality and select the data with high reliability, a dam monitoring data quality evaluation framework is constructed. According to the correlation between measuring points and the features of monitoring items and instruments, Kshape algorithm is used to find out the measuring points with strong correlation, and then the dam monitoring data is evaluated by means of the evaluation factors such as relative offset rate, relative smoothness rate, periodic fluctuation degree and accuracy correction rate. In combination with the LSTM (long short?term memory network) optimized by hybrid bat algorithm, the dam monitoring data is classified, and the algorithm flow of dam monitoring data quality evaluation is constructed. The test is conducted by taking a dam monitoring data in Xinjiang as the research object. The results show that the accuracy of the proposed dam monitoring data quality evaluation algorithm is 94.33%, which can provide an effective solution for evaluating the quality of dam monitoring data.
Keywords: dam monitoring data; evaluation factor; data quality evaluation; long short?term memory network; measuring point clustering; correlation analysis
0" 引" 言
大壩監測數據是判斷大壩運行安全的主要依據,目前在智能化趨勢下,大壩傳統的數據質量評價方法存在效率低下、受主觀影響的缺點,為解決上述問題,國內外學者提出新的解決思路。
文獻[1]對現有的隨機森林進行優化,提出了6項評價因子及相關評價標準構成的安全監測歷史數據質量評價方法,建立了基于隨機森林的大壩安全監測歷史數據質量評價算法。文獻[2]提出了一種基于格拉姆角場(GAF)的卷積神經網絡算法,實現了基于卷積神經網絡的實時圖像處理,以及對實時監測結果的自動評估。文獻[3]基于層次分析法的原理, 結合德爾菲法及模糊評價方法,構建了多層次的淺剖質量評價模型,確定了3個一級指標和14個二級指標,給出了各指標在質量評價中的定量權重,定出了4個質量評價等級。文獻[4]提出了一種基于多準則的原油色譜在線監控系統異常特征提取方法,該方法可以有效地區分由于傳感器、設備狀態等引起的數據問題,也可以用來判斷數據自身是否存在異常,提出了完整性、準確性、一致性、時效性和唯一性5項數據質量評估指標。文獻[5]基于云模型理論,研究了大壩監測數據的定性評價方法,通過使用逆向云生成器的方法將大壩的監測數據轉化成云數字特征值,通過此方法對大壩監測數據進行定性評價并驗證了該方法的可行性。文獻[6]引入了CI法和 Irstea法,這兩種方法都是由專家確定的評價指標得到相應的權重,再由多準則融合得到綜合評價結果。文獻[7]通過分析礦井電阻率法來監測典型數據的波形特征和頻譜特征,研究礦井監測數據中干擾噪聲在時空域的變化特征,最后利用可量化參數給出礦井電阻率法監測數據質量評價措施及流程。
目前,針對數據質量評價的研究主要集中在單測點數據質量評價,沒有關注測點與測點之間的聯系,以及監測項目、儀器和數據之間的聯系。因此找到具有相關性的測點群,建立監測項目到儀器再到數據的聯系對大壩數據質量評價十分重要。為解決上述問題,本文以新疆某大壩監測數據為研究對象,構建了大壩監測數據質量評價框架,并通過大壩監測數據質量評價算法解決了目前大壩監測數據篩選問題。
1" 大壩監測數據質量評價框架
根據國內外對數據質量評價問題的研究成果和2019年實施的最新標準GB/T 36344—2018《信息技術 數據質量評價指標》[8],本文確立了5個方面共10個指標的大壩監測數據質量評價框架,如圖1所示。
大壩安全監測儀器采集的大壩監測數據通常是時間序列,由兩列組成,奇數列為時間,偶數列為數值。表1給出了大壩監測數據樣例,圖2給出了大壩安全監測歷史數據過程線樣例。
大壩安全監測儀器實際采集中也經常會出現不整齊的時間序列,大壩監測數據中可能會出現缺失某一天數據的現象,如表1中缺失2022年5月2日數據。用圖1大壩數據質量評價框架中的完整性評價此類情況。在大壩監測儀器實際采集中,由于測量時出現的粗差(顯著誤差)以及監測對象安全狀態發生改變,而導致監測數據出現超出正常范圍的現象,被稱為監測數據異常,如表1中2022年5月3日數據明顯離群,用圖1大壩數據質量評價框架中的準確性評價此類情況。大壩監測數據中出現一天不同時段記錄多個數值的現象,如表1中有兩條2022年5月4日的記錄,用圖1大壩數據質量評價框架中的時效性評價此類情況。在對大壩監測數據質量分析時,發現其中一些測點的過程線展示出了很明顯的相似性,如圖2中的測點A、B。針對這種現象,通過對與其具有強相關性的測點進行整體分析來評價監測數據,用圖1大壩數據質量評價框架中的一致性評價此類情況。由于不同監測項目下儀器所采集的歷史數據過程線具有一定的特點,如圖2中的測點D具有明顯的周期性,通過分析檢測項目、儀器展示出的不同特征來對監測數據進行評價,用圖1大壩數據質量評價框架中的規范性評價此類情況。
2" 數據質量評價指標
如圖1所示,本文保留文獻[1]包含的6種評價因子,將缺失率、連續缺失率歸為完整性指標,異常率、連續異常率歸為準確性指標,時間異常率、時間波動程度歸為時效性指標。
2.1" 一致性指標
一致性反映了數據與其他上下文中使用數據的無矛盾程度[8]。本文中一致性反映了聚類后具有強相關測點數據之間波動的偏差程度。圖3所示為一致性指標處理流程。
圖3中測點Ⅰ、測點Ⅱ、測點Ⅲ的過程線具有明顯相似的波動,但是其過程線的粗糙程度和趨勢存在差異性(測點Ⅱ過程線更加粗糙,測點Ⅲ過程線有向上偏移的趨勢),因此通過對強相關測點的這種差異性進行一致性檢查,可以作為大壩監測歷史數據評價的重要補充。本文將一致性作為結合多測點數據質量評價的重要指標,用來評價具有強相關數據的差異程度。針對圖3中出現的情況,本文提出了相對偏移率、相對平滑率兩種新的評價因子反映數據間的一致性。圖4所示為降維前后測點過程線及滾動平均值。
本文通過Kshape[9]算法找到具有相關性的測點數據,并通過計算出降維前和降維后數據的滾動平均值,來計算測點滾動平均值的平均斜率與其參與降維后數據滾動平均值的平均斜率的比值,得到相對偏移率F7。相對偏移率F7越大,則一致性越差。相對偏移率計算公式如下:
[F7=mim0-1]" " " " " " "(1)
式中:[mi]為降維前待測時間序列滾動平均值的平均斜率;[m0]為強相關序列降維后數據滾動平均值的平均斜率。
從圖4中可以看到降維前測點Ⅰ的數據過程線與降維后過程線平滑度的差別,本文提出通過計算降維前和降維后數據粗糙程度的比值得到相對平滑率F8。相對平滑率F8的比值越大,則一致性越差。相對平滑率計算公式如下:
[F8=i=1Nixii+1-xii2i=1N0x0i+1-x0i2]" " " " " (2)
式中:[xii]為待測時間序列的第i個數據;[x0i]為強相關序列降維后的第i個數據;Ni為待測時間序列的數據總數;N0為降維后時間序列的數據總數。
2.2" 規范性指標
規范性是指數據符合數據標準、數據模型的程度[8]。本文中規范性是針對檢測項目的特征和儀器本身的特點提出來的評價指標。圖5所示為大壩常見監測儀器測值過程線。
規范性可以用來評價監測項目—儀器—數據之間的相關程度。從圖5可以看到,不同的大壩監測項目,其監測數據具有各自的特征,其中周期性是大壩監測數據中常見特征,通常是由于大壩所處的環境呈現周期性變化下所導致。常見的具有周期性的監測儀器有:面板固定式測斜儀(圖中IN1?06)、單向測縫計(圖中J11)、鋼筋計(圖中R01),無周期性的監測儀器如水平位移計(圖中EX1?1)。本文提出用周期波動程度[F9]反映監測歷史數據的周期性是否符合監測項目的特征。F9=0時,規范性好;F9=1時,規范性差。周期波動程度F9公式如下:
[F9=0, 周期性一致1, 周期性不一致] (3)
式中當測點的安全監測歷史數據過程線與檢測項目周期性一致時F9=0,否則F9=1。
圖5中EX1?1水平位移計采用南瑞電位器式NDW?150 W傳感器,量程為150 mm,精度≤ 0.3%F.S.。水平位移計接入自動化系統,自動化觀測頻次為1次/天,觀測方法和頻次滿足規范要求。圖6所示為大壩水平位移計傳感器圖像。本文提出精度修正率F10來反映儀器本身精度對監測歷史數據的影響。其中,F10越大,規范性越差。精度修正率F10公式如下:
[F10=FSMax xi]" " " " " " (4)
式中:[FS]代表監測儀器精度;[Maxxi]代表待測序列中數據絕對值后的最大值。
2.3" 數據質量評價標準
本文將大壩監測數據劃分為四個等級,如:儀器監測數據變化合理且過程線規律明顯為A級(可靠),可排除儀器問題;儀器監測數據變化較為合理且過程線具有一定規律為B級(基本可靠),可以對數據進行處理;儀器監測數據變化不合理且過程線無明顯規律為C級(不可靠),難以對數據進行處理;儀器監測數據無測值或測值明顯異常為D級(損壞)[10?12]。
3" 混合蝙蝠算法優化循環神經網絡分類模型
長短期記憶(LSTM)網絡是為解決循環神經網絡(RNN)存在的長期依賴問題而專門設計的一種時間循環神經網絡。混合蝙蝠算法是針對基本蝙蝠算法存在收斂速度慢、易陷入局部最優、求解精度低等缺陷進行的改進,主要用于求解無約束優化問題。圖7給出了長短期記憶網絡示意圖。
基于多測點聚類的大壩安全監測數據質量評價算法的具體流程如圖8所示。
大壩安全監測數據質量評價算法的步驟如下。
1) 依據Kshape[9]算法對大壩監測數據集進行聚類,得到具有強相關性的測點數據集。
2) 對聚類后的安全監測數據集進行預處理,依據第2節中10項評價因子,計算出安全監測數據評價因子集并與其數據質量等級對應。
3) 將安全監測數據評價因子集與數據質量等級輸入到LSTM模型,利用混合蝙蝠算法進行參數尋優,建立安全監測數據評價因子集與大壩安全監測歷史數據質量等級的對應關系。
4) 輸入待測數據,使用LSTM模型對其進行分類評價,輸出待測數據的質量等級。
4" 工程實例
為了驗證多測點大壩安全監測歷史數據質量評價方法的實用性,本次試驗采用新疆某面板堆石壩2015?12?08—2020?12?08的安全監測歷史數據作為試驗樣本數據,混凝土面板砂礫石堆石壩壩高為110 m(覆蓋層深46 m),壩頂高程為1 654.00 m,壩頂長為352 m,壩底最大寬度約為400 m。該試驗樣本數據共247個,其中包括40支面板固定式測斜儀、40支水管式沉降儀、31支水平位移計、69支三向測縫計、52支鋼筋計、10支溫度計、5支無應力計,數據類型主要為變形監測數據、滲壓監測數據和應力監測數據。試驗將數據以8∶2的比例隨機劃分為訓練集與試驗集。
4.1" 評價因子計算
首先用Kshape[9]算法對大壩安全監測歷史數據進行聚類,得到具有強相關性的大壩安全監測歷史數據集。以鋼筋計為例,通過Kshape[9]算法將52支鋼筋計劃分為8類(其中5支鋼筋計無測值不參與聚類,評級為D)。表2給出了大壩監測數據集聚類區域樣例,圖9給出了區域Ⅵ的大壩監測數據過程線。
根據聚類后大壩安全監測歷史數據集計算出大壩安全監測歷史數據評價因子。其中:[F1]代表缺失率;[F2]代表連續缺失率;[F3]代表異常率;[F4]代表連續異常率;[F5]代表時間異常率;[F6]代表時間波動程度[1]。表3給出了大壩歷史數據評價因子集樣例。
4.2" 評價因子相關性分析
繪制Pearson相關性分析熱力圖,對10個評價因子進行相關性分析,可以直觀地顯示每個特征因子之間的相關性。相關性分析熱力圖中數值越大則相關性越強,正值為正相關,負值為負相關。圖10給出了評價因子相關性分析熱力圖。其中:[F1]~[F6]同表3;[F7]為相對偏移率;[F8]為相對平滑率;[F9]為周期波動程度;[F10]為精度修正率。
由圖10可知:[F1]、[F2]相關性結果為0.88,具有較強的相關性;[F3]、[F4]相關性結果為0.88,具有較強的相關性;[F5]、[F6]相關性結果為0.92,具有較強的相關性;[F7]~[F10]之間無明顯相關性。故本文制定的大壩監測數據質量評價框架能很好地反映出評價指標與評價因子之間的關聯。
4.3" 評價結果
通過混合蝙蝠優化算法尋找到最優參數,在units=188、Epochs=130時得到最優參數模型。圖11為最優參數模型訓練集、測試集的損失和準確率曲線。
圖12為大壩監測數據質量評價結果。其中:A代表可靠;B代表較可靠;C代表不可靠;D代表損失。表4為模型評價指標及結果。
圖12中,對50個測點監測歷史數據進行質量評價,其中:實際評價結果為A(可靠)而不為A的數量為0個;實際評價結果為B(較可靠)而不為B的數量為2個;實際評價結果為C(不可靠)而不為C的數量為1個;實際評價為D(損壞)而不為D的為0個。由表4可知,測試數據分類的準確率穩定在94.33%,查準率為95.24%,查全率為90.91%,F1為93.02%。優化后的LSTM分類模型在最優參數下表現出了很高的性能,準確率、查準率、召回率和F1都超過了90%,這說明該模型在執行大壩安全監測歷史數據質量評價分類任務上具有很好的泛化能力。
5" 結" 論
本文考慮到具有強相關性測點的大壩安全監測歷史數據之間的關聯,結合檢測項目、儀器、數據之間的內在聯系,確立了完整性、準確性、時效性、一致性、規范性5項指標共10個評價因子的大壩監測數據質量評價框架;其次通過Kshape算法和混合蝙蝠算法優化LSTM模型來構建大壩監測數據質量評價算法流程。實驗結果表明,本文算法測試數據分類準確率穩定在94.33%。說明該方法能夠適用于大壩監測自動化、智能化、不間斷數據采集的特點,對大壩安全監測歷史數據的質量評價具有重要意義。
參考文獻
[1] 潘宇,李登華,丁勇.基于改進隨機森林的大壩監測數據質量評價算法[J].人民長江,2024,55(2):231?237.
[2] DENG Y, JU H, ZHONG G, et al. A general data quality evaluation framework for dynamic response monitoring of long?span bridges [J]. Mechanical systems and signal processing, 2023, 200: 110514.
[3] 孔敏,王風帆,耿姍姍,等.模糊層次分析法在淺剖數據質量評價中的應用[J].海洋科學,2023,47(10):65?75.
[4] 劉文君,賀馨儀,王彬,等.基于異常檢測集成算法的油色譜在線監測數據質量評價體系[J].電網與清潔能源,2022,38(8):16?23.
[5] WANG T J, YANG B, YANG H Y. Dam deformation monitoring and data analysis based on cloud model [J]. AMR, 2012, 459: 479?482.
[6] CURT C, GERVAIS R. Approach to improving the quality of data used to analyze dams?Illustrations by two methods [J]. European Journal of environmental and civil engineering, 2018: 1: 87?105.
[7] 崔偉雄,袁博.礦井電阻率法監測數據質量評價方法探討[J].煤田地質與勘探,2023,51(4):143?151.
[8] 國家標準化管理委員會.信息技術數據質量評價指標:GB T36344—2018[S].北京:中國標準出版社,2018.
[9] PAPARRIZOS J, GRAVANO L. K?shape: efficient and accurate clustering of time series [C]// Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. Melbourne, Australia: ACM, 2015: 1855?1870.
[10] 電力行業大壩安全監測標準化技術委員會.差動電阻式監測儀器鑒定技術規程:DL/T 1254—2013[S].北京:中國電力出版社,2013.
[11] 中華人民共和國水利部.土石壩安全監測技術規范:SL 551—2012[S].北京:中國水利水電出版社,2012.
[12] 國家能源局.鋼弦式監測儀器鑒定技術規程:DL/T 1271—2013[S].北京:中國電力出版社,2013.
[13] 李正欣,郭建勝,毛紅保,等.多元時間序列相似性度量方法[J].控制與決策,2017,32(2):368?372.
[14] ZHOU F, TORRE F D L, HODGINS J K. Hierarchical aligned cluster analysis for temporal clustering of human motion [J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(3): 582?596.
[15] 張鵬,黃長強,魏政磊,等.基于L?Kshape?HACA的空戰態勢分割聚類[J].空軍工程大學學報(自然科學版),2021,22(3):15?22.
[16] 中國人民共和國國家發展和改革委員會.大壩安全監測自動化技術規范:DLT 5211—2005[S].北京:中國電力出版社,2005.
[17] HOCHREITER S, SCHMIDHUBER J. Long short?term me?mory [J]. Neural computation, 1997, 9(8): 1735?1780.
[18] 曾衍偉,龔健雅.空間數據質量控制與評價方法及實現技術[J].武漢大學學報(信息科學版),2004(8):686?690.
[19] 劉桂鋒,聶云貝,劉瓊.數據質量評價對象、體系、方法與技術研究進展[J].情報科學,2021,39(11):13?20.