杜曼玲,高嘉欣,張禮兵,羅明清,陳云天,5,胡文波,6,田天,6
(1.中國(guó)電建集團(tuán)國(guó)際工程有限公司,北京 100142;2.北京瑞萊智慧科技有限公司,北京 100084;3.中國(guó)電建集團(tuán)昆明勘測(cè)設(shè)計(jì)研究院有限公司,云南 昆明 650051;4.中國(guó)電建集團(tuán)海外投資有限公司,北京 100142;5.鵬城實(shí)驗(yàn)室智慧能源工作室,廣東 深圳 518055;6.清華大學(xué)人工智能研究院,北京 100084)
目前我國(guó)擁有水庫(kù)大壩9.8萬余座,是世界上水庫(kù)大壩最多的國(guó)家,水壩在統(tǒng)籌防洪、發(fā)電、供水、灌溉等方面發(fā)揮了重要作用,是組成國(guó)民經(jīng)濟(jì)的戰(zhàn)略性基礎(chǔ)設(shè)施之一[1]。目前水壩面臨著數(shù)量多、時(shí)間長(zhǎng)、設(shè)備老舊、氣候變化、建設(shè)條件復(fù)雜等多重因素帶來的風(fēng)險(xiǎn),其安全問題日益突出。如何準(zhǔn)確、全面地進(jìn)行大壩安全監(jiān)測(cè)和預(yù)報(bào),對(duì)大壩安全運(yùn)行和輔助決策具有重要的意義[2]。
大壩工程正在步入數(shù)字大壩和智慧大壩階段,盡管現(xiàn)代網(wǎng)絡(luò)技術(shù)使得工程師能夠在大壩全生命周期內(nèi)展開實(shí)時(shí)、在線、全天候的管理與分析[3- 4],但由于早期大壩建設(shè)中存在的信息化建設(shè)不系統(tǒng)、不全面、不統(tǒng)一以及老舊水壩的設(shè)施落后甚至缺乏現(xiàn)代監(jiān)測(cè)設(shè)備等問題,使得大壩安全監(jiān)測(cè)普遍面臨數(shù)據(jù)缺失和數(shù)據(jù)碎片化的挑戰(zhàn)[5]。基于傳統(tǒng)數(shù)學(xué)模型的數(shù)值擬合方法難以對(duì)殘缺的大壩安全數(shù)據(jù)進(jìn)行有效的補(bǔ)全與預(yù)測(cè)。
隨著人工智能領(lǐng)域的快速發(fā)展,很多研究者開始采用這一方法解決大壩安全監(jiān)測(cè)和預(yù)測(cè)問題。趙斌等人應(yīng)用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行大壩安全數(shù)據(jù)的預(yù)報(bào)[6],樊琨基于人工神經(jīng)網(wǎng)絡(luò)方法建立非線性力學(xué)反分析模型解決巖土工程中的復(fù)雜非線性問題[7],蔣利娟基于線性回歸模型利用降水量預(yù)測(cè)水位數(shù)據(jù)[8],姜成科提出的GA-LMBP算法提高大壩安全監(jiān)測(cè)人工神經(jīng)網(wǎng)絡(luò)模型的擬合效果和預(yù)測(cè)精度[9]。本文采用廣泛應(yīng)用于深度學(xué)習(xí)的高斯過程回歸(Gaussian Process Regression, GPR)[10]、LightGBM(Light Gradient Boosting Machine)[11]、長(zhǎng)短期記憶神經(jīng)風(fēng)絡(luò)(Long Short-term Memory,LSTM)[12]等模型進(jìn)行大壩監(jiān)測(cè)參數(shù)的預(yù)測(cè)與補(bǔ)全,并與傳統(tǒng)方法做對(duì)比[13]。
機(jī)器學(xué)習(xí)方法所表現(xiàn)出的自組織性、自適應(yīng)性、模糊推理能力和自學(xué)習(xí)能力等優(yōu)勢(shì)非常適合解決大壩安全數(shù)據(jù)補(bǔ)全與預(yù)測(cè)這一復(fù)雜的非線性問題[14]。本文提出的大壩安全數(shù)據(jù)的時(shí)序預(yù)測(cè)與補(bǔ)全模型是針對(duì)采集的海量數(shù)據(jù)進(jìn)行深度、有效分析的前提。基于本文提出的方法所獲得的高質(zhì)量大壩安全數(shù)據(jù)有利于構(gòu)建智慧大壩安全評(píng)估體系,是智能監(jiān)控、智能診斷、智能決策的基礎(chǔ),有助于切實(shí)提升大壩安全智能管理能力。同時(shí),將專家知識(shí)與海量的大壩安全數(shù)據(jù)通過人工智能技術(shù)相結(jié)合,是對(duì)大壩不同維度物理量之間的深度融合,是實(shí)現(xiàn)可感知、可分析、可控制的智能化大壩建設(shè)有效途徑[15-18]。
高斯過程回歸(Gaussian Process Regression, GPR)模型是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)經(jīng)典模型。GPR以其良好的泛用性和可解釋性,在時(shí)間序列分析、自動(dòng)化控制、圖像處理等諸多領(lǐng)域都有廣泛應(yīng)用[19-20]。
由于傳感器故障或人工操作的失誤,水壩數(shù)據(jù)中往往存在個(gè)別缺失值,此外,由于工況和環(huán)境的復(fù)雜性,原始數(shù)據(jù)中還會(huì)存在一些隨機(jī)噪聲或粗差。這些不利因素都會(huì)影響大壩安全數(shù)據(jù)補(bǔ)全以及預(yù)測(cè)工作的正常開展。因此,大壩安全數(shù)據(jù)補(bǔ)全以及預(yù)測(cè)的第一步是對(duì)原始數(shù)據(jù)做插值和平滑處理等預(yù)處理。
1.2.1長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)能夠通過學(xué)習(xí)來近似擬合輸入和輸出變量之間的非線性函數(shù)關(guān)系。它的基本運(yùn)算單位是神經(jīng)元,神經(jīng)元對(duì)輸出的影響由神經(jīng)元之前的權(quán)重來表現(xiàn),這個(gè)權(quán)重會(huì)隨著網(wǎng)絡(luò)的訓(xùn)練不斷調(diào)整。在網(wǎng)絡(luò)中,每個(gè)神經(jīng)元的輸出都通過非線性函數(shù)計(jì)算得到,而非線性函數(shù)的輸入是其他神經(jīng)元輸出的代數(shù)和。
常規(guī)神經(jīng)網(wǎng)絡(luò)由于只能構(gòu)建單一的映射關(guān)系,對(duì)于時(shí)間序列問題的預(yù)測(cè)效果并不理想[21]。長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)不僅能夠利用當(dāng)前的特征信息,還能夠利用先前計(jì)算產(chǎn)生的中間結(jié)果,實(shí)現(xiàn)了無效信息的遺忘和有效信息的加強(qiáng)。因此,LSTM是解決如位移、滲流等大壩安全數(shù)據(jù)序列問題的最自然且最合適的理想工具。
1.2.2LightGBM模型
決策樹是一種常見的機(jī)器學(xué)習(xí)模型,它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系[22]。決策樹,本質(zhì)上是針對(duì)樣本的重要特征不斷做出判斷,根據(jù)每步的判斷結(jié)果尋找合適的路徑,最終得到合適的預(yù)測(cè)結(jié)果。決策樹模型具有多種實(shí)現(xiàn)方法。LightGBM(Light Gradient Boosting Machine)[11]模型是眾多方法中較為高效的之一,與其他方法相比,LightGBM具有更高的訓(xùn)練效率、更低的內(nèi)存使用、支持并行化學(xué)習(xí)等特征,這些優(yōu)秀的特征使得它在實(shí)際生產(chǎn)中有比較廣泛的應(yīng)用。
1.3.1經(jīng)驗(yàn)?zāi)P?/p>
在經(jīng)驗(yàn)?zāi)P椭校ǔ6技僭O(shè)某一時(shí)刻的安全監(jiān)測(cè)結(jié)果(如位移、滲流等)主要受水壓、溫度等環(huán)境量因素以及時(shí)效等因素影響,因此,安全監(jiān)測(cè)結(jié)果由水壓分量、溫度分量和時(shí)效分量組成,即δ=δH+δT+δq。其中,δ表示位移;δH表示水壓分量;δT表示溫度分量;δq表示時(shí)效分量。從本質(zhì)上來講,經(jīng)驗(yàn)?zāi)P途褪且粋€(gè)以環(huán)境量和時(shí)效量為特征的多項(xiàng)式回歸模型。
1.3.2時(shí)間序列預(yù)測(cè)與補(bǔ)全
在大壩安全數(shù)據(jù)時(shí)間序列預(yù)測(cè)這個(gè)問題上,本文嘗試了不同的時(shí)間序列預(yù)測(cè)方法,包括前文提到的傳統(tǒng)方法、經(jīng)典的時(shí)間序列模型自回歸滑動(dòng)平均模型(Autoregressive moving average model, ARMA)[23],還有全連接神經(jīng)網(wǎng)(Fully Connected Neuron Network,F(xiàn)CNN)、LSTM和LightGBM這三個(gè)機(jī)器學(xué)習(xí)模型。在三個(gè)機(jī)器學(xué)習(xí)模型中,本文用到的特征包括歷史的環(huán)境量數(shù)據(jù)(溫度,上下游水位,降水)和待預(yù)測(cè)安全數(shù)據(jù)的歷史數(shù)據(jù),應(yīng)用歷史數(shù)據(jù)的長(zhǎng)度和具體問題有關(guān),一般來說應(yīng)用兩個(gè)月以內(nèi)的歷史數(shù)據(jù)即可。
當(dāng)大壩安全數(shù)據(jù)由于某些原因(比如傳感器長(zhǎng)時(shí)間故障等)出現(xiàn)大范圍缺失的情況下,數(shù)據(jù)本身的規(guī)律變得難以挖掘,數(shù)據(jù)插補(bǔ)和時(shí)間序列預(yù)測(cè)的模型變得不再適用。為了針對(duì)大壩安全展開進(jìn)一步的研究,必須對(duì)這些缺失數(shù)據(jù)有效補(bǔ)全。對(duì)于同一壩段,不同位置的相同類型數(shù)據(jù)可能有著相似的變化規(guī)律,我們可以根據(jù)壩段其他位置的信息,去補(bǔ)全壩段的當(dāng)前位置數(shù)據(jù)。具體地,本文針對(duì)某個(gè)缺失數(shù)據(jù)較多的壩段,找出多個(gè)與目標(biāo)壩段相近且數(shù)據(jù)較全的壩段,對(duì)它們的傳感器數(shù)據(jù)進(jìn)行插補(bǔ)、平滑等預(yù)處理操作。然后,用這些臨近壩段的相對(duì)完整的數(shù)據(jù)訓(xùn)練模型,以便模型可以建立起不同點(diǎn)位數(shù)據(jù)之間的映射關(guān)系。最后,將這一模型應(yīng)用于目標(biāo)壩段,基于目標(biāo)壩段中完整的點(diǎn)位數(shù)據(jù),補(bǔ)全目標(biāo)壩段中殘缺點(diǎn)位的數(shù)據(jù)。其中,這個(gè)模型可以是簡(jiǎn)單的線性模型,也可以是本文前面提到的神經(jīng)網(wǎng)絡(luò)模型和LightGBM模型。
在數(shù)據(jù)預(yù)處理階段,主要應(yīng)用高斯過程回歸(GPR)模型對(duì)數(shù)據(jù)進(jìn)行平滑和插補(bǔ),最終數(shù)據(jù)處理的效果如圖1a(處理前的原始數(shù)據(jù))和圖1b(處理后

圖1 高斯過程回歸數(shù)據(jù)預(yù)處理結(jié)果
的數(shù)據(jù))所示。平滑操作可以有效保留數(shù)據(jù)的趨勢(shì)特征,并消除隨機(jī)噪聲與粗差的不利影響,處理后曲線更反映大壩安全數(shù)據(jù)的變化趨勢(shì)。
在數(shù)據(jù)平滑的過程中,基于高斯過程回歸處理的結(jié)果的置信度分布如圖2所示。

圖2 平滑數(shù)據(jù)的置信區(qū)間
當(dāng)數(shù)據(jù)變化趨勢(shì)較為穩(wěn)定,預(yù)測(cè)結(jié)果的不確定性就比較小(陰影寬度降低),而當(dāng)數(shù)據(jù)的趨勢(shì)發(fā)生變化時(shí),數(shù)據(jù)的不確定性會(huì)有所增加。本文模型給出的結(jié)果和專家的主觀經(jīng)驗(yàn)吻合,符合物理機(jī)理。
對(duì)于時(shí)間序列預(yù)測(cè)問題,本文對(duì)比分析了多種模型,包括經(jīng)驗(yàn)?zāi)P秃蜕窠?jīng)網(wǎng)絡(luò)模型(FCNN與LSTM)。本文以某水電大壩位移數(shù)據(jù)為例測(cè)試。使用MSE(Mean Square Error,均方誤差,指的是參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值)值描述預(yù)測(cè)值和真實(shí)值的差距,MSE越小意味著預(yù)測(cè)精度越高;同時(shí)以R2 score (R方值,決定系數(shù),反映的是因變量的全部變異能通過回歸關(guān)系被自變量解釋的比例)描述預(yù)測(cè)數(shù)據(jù)的變化趨勢(shì)和真實(shí)數(shù)據(jù)變化趨勢(shì)的相似性,它越接近1則模型預(yù)測(cè)精度越高。根據(jù)實(shí)驗(yàn)結(jié)果,經(jīng)驗(yàn)?zāi)P碗y以在所有壩段均取得良好的效果。而基于深度學(xué)習(xí)的FCNN模型和LSTM模型在每個(gè)壩段上都取得了明顯優(yōu)于經(jīng)驗(yàn)?zāi)P偷牧己眯Ч哂休^好的預(yù)測(cè)穩(wěn)定性。
本文對(duì)不同模型所取得的時(shí)長(zhǎng)一年預(yù)測(cè)結(jié)果繪圖展示,如圖3所示。縱坐標(biāo)代表位移數(shù)據(jù)。實(shí)線曲線表示真實(shí)值,實(shí)線帶三角標(biāo)識(shí)的曲線是預(yù)測(cè)值。對(duì)比圖3可知,經(jīng)驗(yàn)?zāi)P湍軌蛟谝欢ǔ潭壬蠑M合數(shù)據(jù)的變化趨勢(shì),但是在預(yù)測(cè)時(shí)間點(diǎn)與已知時(shí)間點(diǎn)距離較遠(yuǎn)時(shí)精度較差。即隨著時(shí)間推移,經(jīng)驗(yàn)?zāi)P痛嬖谡`差累積的問題。然而對(duì)于深度學(xué)習(xí)模型而言,預(yù)測(cè)結(jié)果不但很好反映了真實(shí)值的變化趨勢(shì),而且在具體數(shù)值上也預(yù)測(cè)準(zhǔn)確,具有較好的預(yù)測(cè)效果。
對(duì)于時(shí)間序列補(bǔ)全問題,本文也分析了傳統(tǒng)經(jīng)驗(yàn)?zāi)P汀RMAX(基于ARMA的拓展模型,加入了其他通道的數(shù)據(jù))、神經(jīng)網(wǎng)絡(luò)(FCNN和LSTM)以及LightGBM模型的效果,實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)使用了過去6年半的歷史數(shù)據(jù),其中,訓(xùn)練數(shù)據(jù)為2011年6月到2013年12月間近2年半的數(shù)據(jù),需要補(bǔ)全的數(shù)據(jù)為2014年1月到2018年9月近4年的數(shù)據(jù)。其中所有數(shù)據(jù)都已經(jīng)經(jīng)過歸一化處理。與之前的評(píng)價(jià)標(biāo)準(zhǔn)相同,在表1中,“/”左側(cè)的數(shù)值代表的是MSE,“/”右側(cè)的數(shù)值代表的是R2 score。

圖3 不同模型時(shí)序預(yù)測(cè)結(jié)果

表1 某水電站多壩段位移時(shí)間序列補(bǔ)全結(jié)果
由表1可知,對(duì)于補(bǔ)全大范圍缺失數(shù)據(jù),經(jīng)驗(yàn)?zāi)P筒⒉豢煽浚谀承味紊系念A(yù)測(cè)出現(xiàn)了較大的偏差,如A19.X,A25.X。所以經(jīng)驗(yàn)?zāi)P蛯?duì)于這種大范圍的時(shí)間序列補(bǔ)全問題幾乎是不可用的。ARMAX作為經(jīng)典的時(shí)間序列模型,可以綜合分析其他通道的數(shù)據(jù)來對(duì)待補(bǔ)全通道數(shù)據(jù)進(jìn)行估計(jì),在很多問題上都已經(jīng)證明了它的性能。但是由于缺失數(shù)據(jù)的時(shí)間段過長(zhǎng),ARMAX模型給出的結(jié)果也較差。針對(duì)同一問題,以FCNN和LSTM為代表的神經(jīng)網(wǎng)絡(luò)模型取得了可以接受的效果,但是結(jié)果不如LightGBM穩(wěn)定。因此,針對(duì)大范圍數(shù)據(jù)補(bǔ)全的問題,目前效果最好且精度最高的模型是基于決策樹構(gòu)建的LightGBM模型,其補(bǔ)全效果如圖4所示。圖中前半部分是已知的訓(xùn)練數(shù)據(jù),后半部分橘色線代表的是真實(shí)值,藍(lán)色帶三角標(biāo)識(shí)的曲線代表的是預(yù)測(cè)值。實(shí)驗(yàn)表明,LightGBM模型可以比較準(zhǔn)確地預(yù)測(cè)后4年數(shù)據(jù)的變化趨勢(shì)。

圖4 LightGBM模型實(shí)驗(yàn)結(jié)果
本文采用了以神經(jīng)網(wǎng)絡(luò)和決策樹為主的機(jī)器學(xué)習(xí)模型來解決水電工程中的大壩安全數(shù)據(jù)時(shí)間序列預(yù)測(cè)和時(shí)間序列補(bǔ)全問題,有利于提升大壩檢測(cè)數(shù)據(jù)的質(zhì)量與完整性,進(jìn)而促進(jìn)構(gòu)建智慧大壩安全評(píng)估體系。為了驗(yàn)證模型的有效性,本文根據(jù)某水電站的真實(shí)數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),對(duì)比分析了傳統(tǒng)經(jīng)驗(yàn)?zāi)P汀RMA模型、與基于機(jī)器學(xué)習(xí)的FCNN模型、LSTM模型和LightGBM模型。根據(jù)實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:
(1)通過FCNN和LSTM模型對(duì)大壩安全數(shù)據(jù)(位移、滲流等)進(jìn)行短期的預(yù)測(cè)是可行的。FCNN和LSTM屬于神經(jīng)網(wǎng)絡(luò)模型,具有較強(qiáng)的表達(dá)能力,可以高效學(xué)習(xí)并擬合不同類型物理量之間的映射關(guān)系。因此該模型可以基于易于獲得的環(huán)境量特征(溫度,上下游水位,降水)和待測(cè)安全數(shù)據(jù)本身的歷史數(shù)據(jù),對(duì)未來短期的物理量進(jìn)行預(yù)測(cè),生成可靠的結(jié)果。這一方法有助于降低運(yùn)維成本并提升監(jiān)測(cè)質(zhì)量。
(2)通過LightGBM模型對(duì)大壩安全數(shù)據(jù)進(jìn)行長(zhǎng)期的時(shí)間序列補(bǔ)全是可行的。模型基于學(xué)習(xí)到的物理量之間的映射關(guān)系,結(jié)合其他壩段的相同數(shù)據(jù)作為基礎(chǔ),對(duì)長(zhǎng)期的缺失數(shù)據(jù)進(jìn)行補(bǔ)全。根據(jù)本文的實(shí)驗(yàn)結(jié)果,通過結(jié)合高斯過程和LightGBM模型可以取得相對(duì)較好的補(bǔ)全結(jié)果。
(3)通過本文的實(shí)驗(yàn)可知,對(duì)于大壩安全數(shù)據(jù)補(bǔ)全與預(yù)測(cè)這一傳統(tǒng)的問題,采用機(jī)器學(xué)習(xí)模型可以對(duì)一些由實(shí)際工程出發(fā)得出來的經(jīng)驗(yàn)公式進(jìn)行補(bǔ)充和完善,獲得更好的預(yù)測(cè)效果。機(jī)器學(xué)習(xí)和專家經(jīng)驗(yàn)的結(jié)合有利于提升模型的效果,對(duì)于構(gòu)建智慧大壩安全評(píng)估體系極為重要。