












http://www.renminzhujiang.cn
DOI:10.3969/j.issn.1001-9235.2024.03.015
梁匯彬,張瀚,張林松,等.基于穩(wěn)健估計和變量分離的大壩監(jiān)測數(shù)據(jù)異常值識別方法[J].人民珠江,2024,45(3):138-145.
摘"要:大壩原觀監(jiān)測數(shù)據(jù)是掌握大壩運行性態(tài)最重要的資料,監(jiān)測數(shù)據(jù)中的異常值又是分析過程中關(guān)注的重點。異常值分為兩類,一類由測量誤差產(chǎn)生,應(yīng)給予剔除或補測,避免影響后續(xù)分析,另一類由于結(jié)構(gòu)突變產(chǎn)生異常,應(yīng)高度重視。目前壩工領(lǐng)域主要的異常值識別方法多未考慮結(jié)構(gòu)異常的影響,僅從傳統(tǒng)數(shù)學(xué)統(tǒng)計角度出發(fā),造成識別準(zhǔn)確率不高。為此,在深入研究大壩監(jiān)測數(shù)據(jù)及異常值特征的基礎(chǔ)上,首先采用穩(wěn)健MM估計消除內(nèi)外因正常影響,再利用剩余測值前后逐差消除穩(wěn)定異常影響,最后根據(jù)極小值法對剩余值進(jìn)行異常識別,通過對大壩實測數(shù)據(jù)的應(yīng)用,證明了該法可以更有效、穩(wěn)健地識別測量異常,避免結(jié)構(gòu)穩(wěn)定異常的干擾。
關(guān)鍵詞:異常值識別;時間序列數(shù)據(jù);穩(wěn)健估計;大壩監(jiān)測;變量分離
中圖分類號:TV3""文獻(xiàn)標(biāo)識碼:A""文章編號:1001-9235(2024)03-0138-08
Outlier Detection Method of Dam Monitoring Data Based on Robust Estimation and Variable Separation
LIANG Huibin1,2,ZHANG Han1,2*,ZHANG Linsong1,2,CAO Yuxin1,2,ZHOU Jingren1,2
(1.State Key Laboratory of Hydraulics and Mountain River Engineering,Sichuan University,Chengdu 610065,China;
2.College of Water Resources amp; Hydropower,Sichuan University,Chengdu 610065,China)
Abstract:The original monitoring data of dams is the most important data to grasp the operation behavior of the dams,and the outliers in the data are the focus during the analysis.Outliers are divided into two categories.One category is caused by measurement errors and should be eliminated or supplemented to avoid affecting subsequent analysis.The other is caused by structural mutations and should be highly valued.At present,main outlier recognition methods in dam engineering are based on traditional mathematical statistics and do not consider the influence of structural anomalies,which results in low recognition accuracy.Therefore,based on an in-depth study of dam monitoring data and outlier characteristics,this paper first employs robust MM estimation to eliminate the normal influence of internal and external factors and then adopts the residual measured value to eliminate the stable abnormal influence by difference before and after.Finally,according to the minimum value method,outlier identification is conducted on the residual values.The application of the measured dam data proves that the proposed method can identify the measurement outliers more effectively and robustly,and avoid the interference of structural stability anomalies.
Keywords:outlier detection;time series data;robust estimation;dam monitoring;variable separation
大壩的安全關(guān)系著下游流域的安全,為了監(jiān)控大壩的運行,大壩埋設(shè)了大量監(jiān)測儀器,這些監(jiān)測儀器采集的數(shù)據(jù)是分析大壩運行性態(tài)的重要資料[1-5]。其中,異常值識別是分析的關(guān)鍵,大壩異常數(shù)據(jù)可分為兩類:一類是由于測量產(chǎn)生,包含系統(tǒng)誤差、隨機(jī)誤差和粗差;還有一類是由于結(jié)構(gòu)異常產(chǎn)生,如大壩滑坡時變形量的驟升,管涌破壞時滲水量的突增等,這類異常值可能是結(jié)構(gòu)異變的征兆,需要重點關(guān)注[6-10]。
考慮到大壩監(jiān)測序列受水荷載、溫度場、自重力、降雨等多種外部因素作用于大壩結(jié)構(gòu),序列中每個測值都具有隨時間變化不可重復(fù)的動態(tài)特征,序列也很難用某種分布規(guī)律進(jìn)行描述,因此基于傳統(tǒng)數(shù)理統(tǒng)計的異常識別方法識別準(zhǔn)確率較低,大部分工程在實際異常識別時,系統(tǒng)僅停留在判斷測值是否超過儀器測量量程,急需研究出更高效、更準(zhǔn)確的識別方法[11-12]。目前已有部分學(xué)者基于傳統(tǒng)數(shù)理統(tǒng)計理論的改進(jìn)應(yīng)用對土木結(jié)構(gòu)監(jiān)測領(lǐng)域的異常值識別進(jìn)行研究 [13-17],Chen等[18]用核化空間深度函數(shù)尋找離群值;Gonzalez等[19]編寫了一個新的程序,使用統(tǒng)計方法將33種不協(xié)調(diào)測試變體應(yīng)用于地球科學(xué)數(shù)據(jù)。還有學(xué)者通過數(shù)學(xué)建模進(jìn)行測值預(yù)測并用于識別異常值,張芳等[20]使用測值的日變化速率代替原始數(shù)據(jù)建立云模型,對用外輪廓區(qū)間作為預(yù)警閾值的控制方法進(jìn)行改進(jìn),準(zhǔn)確識別了監(jiān)測數(shù)據(jù)中的異常突跳;盧二坡等[21]運用基于穩(wěn)健MM估計的異常值診斷方法有效地解決了傳統(tǒng)方法容易出現(xiàn)的多個異常點的掩蓋現(xiàn)象;趙澤鵬等[22]以穩(wěn)健MM回歸替代傳統(tǒng)建模方式,同時結(jié)合MCD穩(wěn)健估計確定異常識別閾值,避免了異常值導(dǎo)致的模型崩潰和閾值失效問題。除上述方法外,也有學(xué)者進(jìn)行了其它嘗試,Matthew等[23]提出了一種新方法,通過將網(wǎng)絡(luò)表示為距離與時間的矩陣來可視化測量異常值的概率;張海龍等[24]將適用于大數(shù)據(jù)處理的孤立森林算法應(yīng)用于大壩監(jiān)測異常數(shù)據(jù)識別中,對扣除趨勢項的剩余量的異常值實現(xiàn)了有效的識別;王麗蓉等[25]對監(jiān)測數(shù)據(jù)過程線圖像進(jìn)行分類,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練測試,實現(xiàn)了圖像的異常識別。
然而,上述的方法多未考慮大壩異常值特征,導(dǎo)致識別效果不好。為此本文首先分析了大壩監(jiān)測數(shù)據(jù)及異常值的特點及成因,給出尋找測量異常數(shù)據(jù)的原則,據(jù)此提出了基于穩(wěn)健評估和變量分離,同時考慮結(jié)構(gòu)突變穩(wěn)定異常影響的識別方法,并通過大壩實測數(shù)據(jù)驗證了其有效性。
1"大壩異常值特征分析
目前異常數(shù)據(jù)識別技術(shù)多采用可重復(fù)測試數(shù)據(jù)誤差識別方法,常用的有拉依達(dá)(PauTa)準(zhǔn)則、格拉布斯(Grubbs)準(zhǔn)則、狄克松(Dixon)檢驗法等。拉依達(dá)準(zhǔn)則是先假設(shè)一組檢測數(shù)據(jù)只含有隨機(jī)誤差,對其進(jìn)行計算處理得到標(biāo)準(zhǔn)偏差,按一定概率確定一個區(qū)間,認(rèn)為凡超過這個區(qū)間的誤差,就不屬于隨機(jī)誤差而是粗大誤差,含有該誤差的數(shù)據(jù)應(yīng)予以剔除。格拉布斯準(zhǔn)則以正態(tài)分布作為前提的,當(dāng)某個測量值的殘差的絕對值大于誤差區(qū)間,則判斷此值中有粗大誤差并剔除。這些識別方法均假定測值存在一個真實值yt,而某次測值yi∈(y1,y2…yn)與yt間的誤差εi滿足N(0,σ2)正態(tài)分布。
然而大壩監(jiān)測序列值yi是一種受環(huán)境和材料特性影響的隨時間不斷變化的序列數(shù)據(jù),在自重、庫水壓力、泥沙壓力、溫度、時間等環(huán)境因素作用下會發(fā)生變形、應(yīng)力應(yīng)變、滲流等效應(yīng),每個測值對應(yīng)的真實值是變化的,屬于動態(tài)監(jiān)測,大壩監(jiān)測數(shù)據(jù)是這些變化原始的記錄。如果忽略環(huán)境變化的影響,直接采用可重復(fù)測試數(shù)據(jù)誤差識別方法會存在一定缺陷,如環(huán)境量驟變引起的測值過大變化,就容易被這類識別方式判別為粗差。
設(shè)大壩監(jiān)測序列為y(y1,y2…yi…yn),yi代表某一個時刻監(jiān)測數(shù)據(jù),其中可能包含由于儀器的不穩(wěn)定性或人為測量的失誤產(chǎn)生的粗差,因此yi可表示為:
yi=y′i+σi(1)
式中"y′i——測量的真值;σi——誤差。
由于環(huán)境因素是不斷變化的,監(jiān)測數(shù)據(jù)yi必然不斷變化,對應(yīng)的真值也相應(yīng)在不斷變化。這與目前采用的異常識別方法存在本質(zhì)區(qū)別,并且測值異常變化不全是誤差產(chǎn)生,可能是環(huán)境量突變造成,也可能是結(jié)構(gòu)異變造成,據(jù)此式(1)可進(jìn)一步表達(dá)為式(2):
圖1是大壩典型的結(jié)構(gòu)突變和粗差曲線。Gi為結(jié)構(gòu)異變,反映的是監(jiān)測部位的真實異變,突變量是真實存在的,后續(xù)測值必然能反映出它的存在,這是結(jié)構(gòu)異變的重要特征。圖1a所示,S-I為單點臺階式突變,表現(xiàn)為測值在出現(xiàn)一次突變后,后續(xù)測值以突變點為基礎(chǔ)小幅變化發(fā)展。S-II為連續(xù)臺階式突變,表現(xiàn)為突變連續(xù)發(fā)生,之后穩(wěn)定在最后一測值小幅變化。S-III是連續(xù)突變,測值呈一直突變趨勢。圖1b所示,E-I為單點離群,表現(xiàn)為某一次的測值突增或突降,之后恢復(fù);E-II為多點離群,其特點是向同一方向突變幾次后,測值恢復(fù);E-III為連續(xù)跳躍,其特點是測值呈不規(guī)律大幅波動。
2"異常識別方法
本研究為了提高異常值識別準(zhǔn)確率,深入考慮大壩監(jiān)測數(shù)據(jù)變化的內(nèi)外因素,本文提出的異常識別方法分為兩步:第一步為分離環(huán)境量變化引起的測值變化;第二步再根據(jù)結(jié)構(gòu)異變和測量誤差不同的數(shù)據(jù)序列變化特點,對監(jiān)測序列進(jìn)行前后逐差識別測值異常。
2.1"環(huán)境量分離
環(huán)境量分離法使用最廣泛的是統(tǒng)計回歸法,該法基礎(chǔ)為最小二乘法,該方法首先從一組數(shù)據(jù)出發(fā),確定變量之間的定量關(guān)系式,即建立數(shù)學(xué)模型并估計其中的未知參數(shù),然后對關(guān)系式的可信程度進(jìn)行檢驗,在許多自變量共同影響著一個因變量的關(guān)系中,采用逐步回歸等方法判斷出影響顯著的自變量加入模型中,并剔除影響不顯著的變量,最后再利用所求的關(guān)系式對過程線進(jìn)行預(yù)測或控制。該方法具有計算效率高的優(yōu)勢,但為了做到對每個測值的距離最小,該方法對異常值非常敏感,當(dāng)崩潰點為0時,函數(shù)沒有邊界,異常值可能會導(dǎo)致模型崩潰,無法得到正確的回歸系數(shù)ai。因此本文采用穩(wěn)健回歸,選擇具有高崩潰點(50%)和良好的效率(在高斯-馬科夫假定下,效率約為普通最小二乘估計的95%)的MM估計進(jìn)行環(huán)境量分離。MM估計基本思路是通過給予偏離度較遠(yuǎn)的測值較小權(quán)重來平衡測值,具體步驟如下。
式中"wi——雙平方權(quán)數(shù)。
步驟四"使用初始加權(quán)最小二乘估計(WLS估計)的殘差計算出權(quán)重w(2)i 。
步驟五"保持步驟二至步驟四步殘差尺度不變的情況,不斷迭代直到收斂為止確定出ai。
2.2"異常識別
剔除了環(huán)境因素導(dǎo)致的測值變化后,數(shù)據(jù)序列剩下部分表達(dá)為:
yi=Gi+σi(4)
為了從數(shù)據(jù)序列特征中消除結(jié)構(gòu)異常的影響,本文對相鄰數(shù)據(jù)作差求得Δyi:
Δyi=y′i-y′i-1=(Gi-Gi-1)+(σi-σi-1)(5)
根據(jù)大壩典型異常曲線可以得知,測值出現(xiàn)異常后,結(jié)構(gòu)異常和測量誤差區(qū)別在于結(jié)構(gòu)異常引起的測值突變比較穩(wěn)定,因此通過前后作差可以極大消除Gi的影響。最后利用極小值原理進(jìn)行異常識別。
對于異常的識別,假設(shè)如果不存在誤差或者突變,則Δyi滿足N(0,σ2),當(dāng)存在異常點,采用均方差進(jìn)行識別,即:
3"分離效果驗證
分離效果的好壞,直接關(guān)系后續(xù)判斷的可靠性,針對多個大壩工程,采用MM估計和傳統(tǒng)統(tǒng)計回歸同時進(jìn)行分離,對比研究其分離的效果,圖2、3是3種典型測值序列的分離效果。
從分離效果來看,在測值不存在突變(圖2)情況下,MM估計和傳統(tǒng)統(tǒng)計回歸2種方法效果都較好。當(dāng)數(shù)據(jù)出現(xiàn)突變(圖3)時,MM估計可以避免突變點影響,而傳統(tǒng)統(tǒng)計回歸由于穩(wěn)健性不強,模型崩潰,大量測值受突變的影響出現(xiàn)偏離,并且當(dāng)數(shù)據(jù)越少,MM估計這種優(yōu)勢越突出??偟膩砜矗琈M估計基本能分離出環(huán)境影響的合理影響,正常值分離后值在0附近,滿足N(0,σ2)的正態(tài)分布,對于存在突變的序列,異變測點突變特性能被很好地保留。
4"異常識別效果驗證
本文提出的大壩異常值識別方法流程見圖4。本研究進(jìn)行m+1次測試,用于避免產(chǎn)生連續(xù)誤差(多點離群)的情況,然后通過結(jié)構(gòu)突變和粗差曲線的不同特征進(jìn)行對異常值進(jìn)行識別。
為了驗證本文提出的大壩異常值識別方法的有效性,采用大壩原觀監(jiān)測數(shù)據(jù)進(jìn)行測試,根據(jù)粗差曲線特征將長序列大壩原觀數(shù)據(jù)分為單點離群、多點離群、臺階性異常變化3種類型的數(shù)據(jù)。以下是選取不同類型的典型數(shù)據(jù)序列并使用本文提出的異常識別方法得到的識別結(jié)果,并與PauTa準(zhǔn)則、Grubbs準(zhǔn)則計算結(jié)果進(jìn)行對比,評判依據(jù)主要根據(jù)工程實際以及測點出現(xiàn)異常后的回落情況判別,見表1。第1類為長序列單點離群值,本文提出的異常識別方法檢驗結(jié)果見圖5,從結(jié)果來看該法能很好把前期明顯離群的點識別為異常值,而PauTa準(zhǔn)則、Grubbs準(zhǔn)則由于測值序列跳躍幅度較大,未能把環(huán)境和階梯突變分離,標(biāo)準(zhǔn)差較大,誤差范圍較大,無法識別異常值。
第2類是含多點離群,檢驗結(jié)果見圖6。從檢驗結(jié)果來看,本文提出的方法可以準(zhǔn)確識別出多點離群的誤差,PauTa準(zhǔn)則、Grubbs準(zhǔn)則對于跳躍比較大的點能識別,但隨著序列增長,有明顯離群趨勢,但離群量不大的點,存在漏識別,這主要由于異常值增多帶動標(biāo)準(zhǔn)差σ不斷增大,而穩(wěn)健分離后的序列始終能保持穩(wěn)定性。
第3類是臺階性異常變化,本文提出的異常值識別方法的檢驗結(jié)果見圖7。該序列由于結(jié)構(gòu)的變化,在2015年測值出現(xiàn)了臺階性跳躍,大壩在出現(xiàn)局部開裂后恢復(fù)穩(wěn)定,該方法能很好地識別出異變,而傳統(tǒng)方法由于階梯突變造成標(biāo)準(zhǔn)差過大,均未能識別出異常點。
綜上所述,基于穩(wěn)健估計和變量分離的大壩監(jiān)測數(shù)據(jù)異常值識別方法能夠滿足多種大壩監(jiān)測數(shù)據(jù)類型的異常值識別,在壩工監(jiān)測領(lǐng)域,相比于其他異常值識別方法,擁有更高的識別準(zhǔn)確率,并且能夠考慮環(huán)境因素和結(jié)構(gòu)穩(wěn)定異常的影響,為后續(xù)分析提供可靠的數(shù)據(jù)基礎(chǔ)。
5"結(jié)論和建議
大壩安全監(jiān)測序列是在環(huán)境影響下結(jié)構(gòu)變化的反應(yīng),在進(jìn)行異常值分析時,必須考慮其受環(huán)境量的影響,以及結(jié)構(gòu)異常導(dǎo)致的測值變化?;诜€(wěn)健估計和變量分離,本文提出的大壩監(jiān)測數(shù)據(jù)異常值識別方法,用大壩原觀數(shù)據(jù)進(jìn)行驗證,得到以下結(jié)論。
a)為了排除環(huán)境量變化對測值變化的影響,本文首先采用穩(wěn)健回歸進(jìn)行環(huán)境量分離,能保障大壩監(jiān)測序列的穩(wěn)健性,避免突變點對異常識別產(chǎn)生影響,MM估計基本能分離出環(huán)境影響的合理影響,出現(xiàn)異變的測點突變特性也能被很好地保留。
b)本文提出的大壩監(jiān)測數(shù)據(jù)異常識別方法可以消除結(jié)構(gòu)異常帶來的干擾,相比于傳統(tǒng)的異常值識別方法,可以有效彌補識別不準(zhǔn)確、識別范圍過寬等缺陷,該方法根據(jù)大壩監(jiān)測序列的特點,將結(jié)構(gòu)異常和測值異常進(jìn)行了較好的區(qū)分,異常值識別率達(dá)到90%以上,有效地提高了大壩數(shù)據(jù)異常值識別的準(zhǔn)確率,對大壩后續(xù)分析評價具有重要意義。
參考文獻(xiàn):
[1]WU Z R,SU H Z,GUO H Q,et al.Assessment model of dam operation risk based on monitoring data[J].Science in China Series E:Technological Sciences,2007,501:144-152.
[2]袁坤,傅蜀燕,歐正峰,等.水庫大壩安全評價技術(shù)現(xiàn)狀與發(fā)展[J].人民珠江,2013,34(6):63-67.
[3]鄭敬陽.基于監(jiān)測數(shù)據(jù)分析的大壩安全運行管理探討[J].科技資訊,2016,14(28):9-10.
[4]ZHANG H,CHEN J K,HU S W,et al.Deformation Characteristics and Control Techniques at the Shiziping Earth Core Rockfill Dam[J].Journal of Geotechnical and Geoenvironmental Engineering,2015,142(2):116-126.
[5]朱俊.大壩安全監(jiān)測的現(xiàn)狀與發(fā)展趨勢[J].黑龍江水利科技,2017,45(11):213-214,231.
[6]PEGRAM G.Patching rainfall data using regression methods 3 Grouping,patching and outlier detection[J].Journal of Hydrology,1997,198(4):319-334.
[7]KIRK A J,MCCUEN R H.Outlier detection in multivariate hydrologic data[J].Journal of Hydrologic Engineering,2008,13(7):641-646.
[8]朱明遠(yuǎn),岳春芳,張寧,等.烏拉泊水庫副壩段除險加固前后滲流監(jiān)測資料分析[J].水利科技與經(jīng)濟(jì),2016,22(8):65-67.
[9]譚淋耘,黃潤秋,馮曉亮,等.三峽重慶庫區(qū)典型滑坡監(jiān)測特征與誘發(fā)機(jī)制[J].地質(zhì)論評,2020,66(S1):171-174.
[10]周小來,盧羽平.仁宗海水庫電站大壩滲漏原因綜合分析[J].水電站設(shè)計,2022,38(3):55-58,68.
[11]鄒曉磊,薛桂玉.大壩監(jiān)測數(shù)據(jù)異常值識別方法探討[J].水電能源科學(xué),2009,27(5):83-85.
[12]陶家祥,熊紅陽,胡波.論大壩安全監(jiān)測數(shù)據(jù)異常值的判斷方法[J].三峽大學(xué)學(xué)報(自然科學(xué)版),2016,38(6):15-17,41.
[13]SEO S Y,BAE H D.On the value of outlier elimination on software effort estimation research[J].Empirical Software Engineering,2013,18(4):659-698.
[14]趙鍵,張慧莉.大壩自動監(jiān)測數(shù)據(jù)異常值識別的改進(jìn)數(shù)據(jù)跳躍法[J].中國農(nóng)村水利水電,2014(2):85-87.
[15]朱斯楊,李艷玲,盧祥,等.基于隸屬云的安全監(jiān)測異常數(shù)據(jù)識別方法研究[J].人民長江,2021,52(2):197-200.
[16]周子玉,李艷玲,朱斯楊,等.基于稀疏偏最小二乘的大壩安全監(jiān)測模型研究[J].水利規(guī)劃與設(shè)計,2022(11):168-172.
[17]滕樹強.基于偏最小二乘回歸的大壩安全監(jiān)測數(shù)據(jù)異常識別模型研究[J].中國水運(下半月),2022,22(11):28-29,64.
[18]CHEN X Y,ZHAN Y Y.Multi-scale anomaly detection algorithm based on infrequent pattern of time series[J].Journal of Computational and Applied Mathematics,2009,231(2):1004-1004.
[19]GONZALEZ R R,DIAZ G L.Relative efficiency of 15 discordancy tests with 33 variants for processing geochemical data[J].Revista Mexicana De Ciencias Geologicas,2009,26(2):501-515.
[20]張芳,辛俊龍,李艷玲,等.改進(jìn)云模型在大壩安全監(jiān)測數(shù)據(jù)異常識別中的應(yīng)用[J].水電能源科學(xué),2022,40(3):114-117.
[21]盧二坡,黃炳藝.基于穩(wěn)健MM估計的統(tǒng)計數(shù)據(jù)質(zhì)量評估方法[J].統(tǒng)計研究,2010,27(12):16-22.
[22]趙澤鵬,陳建康,張瀚,等.基于穩(wěn)健估計的大壩監(jiān)測數(shù)據(jù)粗差識別方法[J].水電能源科學(xué),2018,36(12):68-71.
[23]MATTHEW B,RICCARDO I,TONY P.A generalised approach to outlier identification in pavement condition data[J].International Journal of Pavement Engineering,2013,14(1):60-70.
[24]張海龍,范振東,陳敏.孤立森林算法在大壩監(jiān)測數(shù)據(jù)異常識別中的應(yīng)用[J].人民黃河,2020,42(8):154-157,168.
[25]王麗蓉,鄭東健.基于卷積神經(jīng)網(wǎng)絡(luò)的大壩安全監(jiān)測數(shù)據(jù)異常識別[J].長江科學(xué)院院報,2021,38(1):72-77.
(責(zé)任編輯:高天揚)
基金項目:四川省科技廳重點研發(fā)項目(2022YFS0535)
收稿日期:2023-10-27
作者簡介:梁匯彬(1999—),男,碩士研究生,主要研究方向為大壩及庫岸邊坡安全監(jiān)測和評估。E-mail:2404129818@qq.com
通信作者:張瀚(1978—),男,副教授,主要從事水工建筑物結(jié)構(gòu)安全監(jiān)測、致災(zāi)機(jī)理及風(fēng)險早期識別評估研究。E-mail:zhanghan@scu.edu.cn