999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖注意力網絡與雙階注意力機制的徑流預報模型

2022-06-21 07:16:28胡鶴軒隋華超胡強張曄胡震云馬能武
計算機應用 2022年5期
關鍵詞:機制模型

胡鶴軒,隋華超,胡強*,張曄,胡震云,馬能武

(1.河海大學 計算機與信息學院,南京 211100; 2.水利部水利大數據重點實驗室(河海大學),南京 211100;3.西藏農牧學院 電氣工程學院,西藏 林芝 8 60000; 4.河海大學 商學院,南京 211100;5.長江勘測規劃設計研究有限責任公司,武漢 430010; 6.長江空間信息技術工程有限公司,武漢 430010;7.湖北省水利信息感知與大數據工程技術研究中心,武漢 430010)(?通信作者電子郵箱huqianghhu@163.com)

基于圖注意力網絡與雙階注意力機制的徑流預報模型

胡鶴軒1,2,3,隋華超1,2,胡強1,2*,張曄1,2,胡震云4,馬能武5,6,7

(1.河海大學 計算機與信息學院,南京 211100; 2.水利部水利大數據重點實驗室(河海大學),南京 211100;3.西藏農牧學院 電氣工程學院,西藏 林芝 8 60000; 4.河海大學 商學院,南京 211100;5.長江勘測規劃設計研究有限責任公司,武漢 430010; 6.長江空間信息技術工程有限公司,武漢 430010;7.湖北省水利信息感知與大數據工程技術研究中心,武漢 430010)(?通信作者電子郵箱huqianghhu@163.com)

為了提高流域徑流量預報的準確率,考慮數據驅動水文模型缺乏模型透明度與物理可解釋性的問題,提出了一種使用圖注意力網絡與基于長短期記憶網絡(LSTM)的雙階注意力機制(GAT-DALSTM)模型來進行徑流預報。首先,以流域站點的水文資料為基礎,引入圖神經網絡提取流域站點的拓撲結構并生成特征向量;其次,針對水文時間序列數據的特點,建立了基于雙階注意力機制的徑流預報模型對流域徑流量進行預測,并通過基于注意力系數熱點圖的模型評估方法驗證所提模型的可靠性與透明度。在屯溪流域數據集上,將所提模型與圖卷積神經網絡(GCN)和長短期記憶網絡(LSTM)在各個預測步長下進行比較,實驗結果表明,所提模型的納什效率系數分別平均提高了3.7%和4.9%,驗證了GAT-DALSTM徑流預報模型的準確性。從水文與應用角度對注意力系數熱點圖進行分析,驗證了模型的可靠性與實用性。所提模型能為提高流域徑流量的預測精度與模型透明度提供技術支撐。

圖神經網絡;注意力機制;編碼器-解碼器;長短期記憶網絡;時間序列預測;水文預報

0 引言

準確可靠地預測流域徑流量對于洪水風險評估和防洪安全決策起著至關重要的作用[1]。在水文預報領域,學者們一直都在嘗試對結構與參數進行耦合從而在流域內進行降雨-徑流建模,其模型參數是通過長期實踐和對水文規律認識基礎上建立起來的,具有明確的物理意義,即傳統意義上的過程驅動模型。隨著研究的深入,過程驅動水文預報模型也從集中式模型向分布式模型發展,空間復雜度和時空復雜度提高,這對基礎數據的精度和采集頻率提出了更高的要求。但水文模型復雜度的提高并不意味著精度的提高,同時還會受到異參同效的影響,使預報結果增加了不確定性[2]。

隨著水利信息化的進一步發展,流域水文資料與氣象資料得到了極大的豐富與補充。與此同時,隨著神經網絡模型的不斷優化,數據驅動模型在降雨-徑流建模過程中的應用愈加廣泛。數據驅動模型方法是從時間序列自身的角度挖掘其變化的規律并進行預測,具有較好的數理統計基礎。目前在數據驅動徑流預報模型中使用最多的是神經網絡[3],人工神經網絡(Artificial Neural Network, ANN)是模擬人腦中大量神經元密集連接,最終由多個神經信息傳遞得到一個準確輸出的工作方式,其中隱含神經元之間的相互作用就是挖掘數據的過程[4-5]。但是,水文預報是一個時間序列預測,應用于時間序列分析的人工神經網絡最主要缺點就是丟失了有關輸入順序的相關信息。而遞歸神經網絡(Recursive Neural Network, RNN)[6]則是一種以序列數據為輸入進行建模的深度學習模型,很好地彌補了人工神經網絡的不足。Carriere等[7]和Hsu等[8]先后使用循環神經網絡模擬降雨-徑流關系,后者將循環神經網絡與傳統人工神經網絡進行了比較。Nagesh Kumar等[9]也將RNN用于月徑流預測,發現循環神經網絡在預報精度上比傳統的人工神經網絡更為出色。但是因為RNN中的時間維度共享了參數矩陣,導致計算隱態時會循環計算矩陣乘法,所以當使用反向誤差傳播算法求解梯度時出現了參數矩陣的累乘[10],使得RNN很難保持較長時間的記憶,即可利用的歷史數據是有限的。

長短期記憶網絡(Long Short-Term Memory network, LSTM)[11]是由RNN擴展而來,在設計之初就用于解決RNN長期依賴的問題。Kratzert等[12]將LSTM應用于降雨-徑流模擬,其優點是它能夠學習網絡提供的輸入和輸出之間的長期依賴關系,這對于水文預報建模是必不可少的。Zhang等[13]根據雨量計和水位傳感器的公開數據,比較了不同神經網絡在德拉門模擬和預測地下水位的預報性能,并通過實驗驗證了LSTM比沒有記憶門的傳統神經網絡結構更適合于多步預測。朱躍龍等[14]使用了圖卷積神經網絡(Graph Convolutional Network, GCN)對流域的拓撲結構進行空間挖掘,結合門控循環單元實現了流量過程智能模擬,取得了較好的實驗效果。

模型的可解釋性與結果的準確性是決定水文預報模型是否能投入實際應用的兩個重要因素,但數據驅動的模型僅從歷史數據中挖掘徑流量演變趨勢,模型內部結構不可見,相關模型參數不具有物理可解釋性[15],這使得防洪策略的選擇具有很強的不可控因素。在某些情況下,必須選擇較為復雜的黑箱模型,如循環神經網絡,而不是預報精度較低但更具可解釋性的傳統模型,如新安江模型。這種權衡給水文預報帶來了挑戰,因為準確性和可解釋性都很重要。隨著深度學習的不斷發展,學術界對于模型的可解釋性進行了廣泛的研究與探討。正如Chakraborty等[16]所述,模型可解釋性的概念并不是一個整體的概念,而是反映了幾個不同的維度,具體如下:

1)模型透明度。即模型在執行過程中內部的運轉方式。這部分主要包括:①可模擬性,指是否可以使用輸入數據和模型來重現進行預測所需的每一個計算步驟。②可分解性,指是否對所有模型參數都有直觀的解釋;③算法的透明度,指這本質上是解釋學習算法工作的能力。

2)事后可解釋性。即在無法準確闡述模型內部的工作機制的情況下,通過對模型相關參數可視化來較為直觀地展現輸入數據與模型結果的關系[17],或通過局部解釋計算特定輸入向量對輸出結果的影響,使人類加深對黑盒模型的理解[18]。

在深度學習可視化方面,Samek等[19]提出了一種基于區域擾動的方法來對輸入數據進行評估,并可視化為熱圖,解釋了深度神經網絡得出特定分類的決策依據。

神經網絡模型是基于多個神經元組成,一個性能良好的深度學習網絡往往包含成百上千個參數,所以神經網絡模型的透明度較低,可解釋性也較差。因此,神經網絡模型的自解釋性只能通過引入額外的解釋性模塊來實現,一種有效的方法是引入注意力機制。Choi等[20]提出通過復雜的注意力機制生成過程來提高醫療診斷的預測精度,同時保持表示學習部分的簡單解釋,使整個算法有較好的準確和可解釋性。王天罡等[21]提出建立基于可解釋的層次注意力網絡,用于提前預警患者搶救過程中可能并發的危急重癥。在水文預報方面,Ding等[22]在長短期記憶網絡的基礎上,通過時空注意力機制使長短期記憶網絡能識別出相關的時空信息,提高長短期記憶網絡的水文預報性能。

基于上述研究進行優化,本文提出了一種基于雙階注意力機制和圖神經網絡的徑流預報模型應用于中長期水文預報,主要的工作如下:

1)將圖注意力網絡(Graph Attention neTwork, GAT)[23]與雙階注意力機制進行結合,通過流域站點的拓撲關系,構建由上游站點指向下游站點的有向圖。通過圖注意力機制對同階上的不同節點進行賦權,充分反映出上游節點對預測節點的貢獻度,挖掘了流域的空間關系。

2)將所提模型與ANN、CatBoost(Categorical features and gradient Boosting)、GCN和LSTM等模型進行預報性能比較,以多個評價指標為基礎分析各個預報模型之間的預報性能差異。

3)提出了一種熱點圖分析方法,使用一種數值擾動的方式保證注意力系數熱點圖能充分反映模型特征,提高模型的透明度和可解釋性;并從水文角度分析熱點圖的可行性,即熱點圖是否符合人類在徑流預報領域的經驗推斷。

1 相關工作

1.1 注意力機制

近年來,注意力機制的應用極大地促進了圖像分類、機器翻譯、多媒體推薦等領域的發展,在原有的深度學習基礎上進一步提升了模型的效果。注意力機制幫助神經網絡識別輸入數據與輸出結果之間的關系,幫助神經網絡擁有信息捕捉的能力,該機制首次被提出是為了提高神經機器翻譯中序列到序列模型的性能。注意力機制不僅能獲取輸入數據和輸出結果之間的相關性,還提高了預測結果的準確性,同時具有良好的模型可解釋性。

1.2 圖注意力網絡

圖注意力網絡(GAT)[23]引入了基于圖卷積神經網絡的注意力機制,通過聚合為節點和鄰接節點的特征計算權重,同時遵循一種自我聚合的策略。圖注意力網絡可以更好地提取節點的空間特征關系,在有向圖的應用中優于圖卷積神經網絡[24]。GAT的輸入是每個節點的特征向量,模型輸出的是經過注意力機制計算后新的特征向量。

GAT是通過各個節點的注意力機制計算出一個新的特征向量集合:

注意力系數計算式如下:

根據節點的空間關系特點,引入masked attention機制,通過計算節點的鄰居節點的注意力系數將注意力機制引入到有向圖中。如圖1所示,如果計算節點的注意力權重,只需計算其鄰近節點即和的相關度和即可,并使用softmax對所有相鄰接點計算出的注意力系數進行歸一化處理,從而更好地分配注意力系數,使其便于計算與比較。綜上所述,的計算式為:

為了使模型更具有健壯性,本文采用了多頭注意力機制計算K組注意力系數,并使用取平均操作來對多個注意力頭進行整合,計算式如下:

式中:K代表注意力頭的數量;代表第k組的注意力系數;代表第k組的特征變化權重矩陣。

多頭注意力機制獨立計算了K組注意力系數,通過取均值的方式綜合評價了模型的多次訓練效果,從而獲得了更為全面的信息,并豐富了模型的特征提取能力。

圖1 圖注意力網絡計算示意圖Fig. 1 Schematic diagram of graphic attention network calculation

1.3 長短期記憶網絡

長短期記憶網絡[11]是遞歸神經網絡的改進版本,旨在解決循環神經網絡可用歷史數據有限的問題。

LSTM每個神經元的內部結構由記憶儲存和3個門控組成,其中記憶儲存負責記憶神經元狀態,輸入門和輸出門用來接收、修正和輸出狀態參數,遺忘門負責控制上一個單元層狀態的被遺忘程度,具體內部結構如圖2所示。

圖2 長短期記憶網絡內部結構Fig. 2 Internal structure of LSTM

2 本文徑流預報模型

流域的降雨量、蒸發量和總產流量等輸入數據實際上都是特征范疇相互獨立的時間序列數據,但都與流域的徑流量在同一時刻具有非線性關系,與此同時,在某一時間步長內的輸入時間序列數據對流域站點徑流量的預測也起到了一定的作用。本文提出了使用圖注意力網絡和基于長短期記憶網絡的雙階注意力(Graph Attention neTwork and Dual-stage Attention mechanism-based Long Short-Term Memory network, GAT-DALSTM)模型分別對流域的時空關系進行提取,結合長短期記憶網絡對流域的徑流量進行預測,具體流程如圖3所示。

圖3 GAT-DALSTM模型流程Fig. 3 Flow chart of GAT-DALSTM model

2.1 流域拓撲關系提取

從圖論的角度看,同一流域的水文站點在空間上具有依賴性,即上游的降雨事件往往會對下游的徑流量產生一定的影響,因此同一流域的水文站點在空間分布上具有天然的圖結構關系。將水文站點與水系結構抽象為由頂點和邊構成的圖,其結構關系定義如下:

式中:G表示水文站空間分布上的拓撲結構關系;V表示各個水文站;E表示站點與站點之間的一組邊。

受洪水坦化作用的影響[25],不僅要考慮站點本身的水文數據信息,更要考慮站點之間的地理距離。如果兩個具有上下游關系的水文站點的地理距離過大,則上游降雨事件對下游徑流量的影響相對較小,且在大多數情況下,下游的降水事件對上游的影響微乎其微,該特征符合有向圖的定義。因此,本節使用鄰接上游站點的水文時間序列數據作為節點特征,構建有向圖網絡,圖的鄰接矩陣A用來描述鄰近水文站點的上下游關系,其中。如果站點位于站點的上游,則、,構建鄰接矩陣A如下:

圖注意力網絡節點輸入數據如下:

當上游突發極端降雨事件、水庫攔洪蓄水或開閘放水,往往會對下游河流的徑流量產生較大的影響。式(3)中的注意力機制需要訓練的權重矩陣W與式(4)的相關度函數a只與節點輸入特征有關,改變節點輸入特征即可在空間上實現自我調節水文站點之間的注意力系數。

2.2 水文時間序列數據生成

已有的數據驅動水文預報模型僅僅將降雨量、蒸發量和流量作為模型的輸入數據進行降雨-徑流建模,沒有將流域的地理高程、土壤和植被信息考慮在內,故該類數據模型不能很好地反映一個流域的特征。本文在原有特征值的基礎上,使用數字高程數據、土地覆蓋數據和土壤屬性數據對下墊面地形、植被和土壤特征定性估算柵格尺度張力水蓄水容量,并計算每個柵格的產流量,然后將所有柵格的產流量累積到流域出口段,從而計算出流域的透水產流和非透水產流,該類值能在一定程度上反映流域的下墊面特征[26-28]。

2.3 編碼器

注意力機制的主要目的是從對當前目標更關鍵的信息中選擇。受Qin等[29]在時間序列預測中的相關工作啟發,當長序列數據輸入到編碼器-解碼器模型中時,前面的信息將被后面所覆蓋。編碼器實際上是一個遞歸神經網絡,它將輸入的特征序列數據編碼為特征表示。對于時間序列預測,給定輸入特征序列,編碼器可以應用于學習從輸入序列到遞歸神經網絡的隱藏狀態之間的映射,如式(16)所示:

通過引入注意力機制可以提取序列數據中的重要信息,以更好地預測目標值,如圖4所示。引入LSTM單元對時刻隱藏層狀態和單元層狀態提取參數權重,是訓練后得到的注意力系數,用來表示輸入時間序列的特征值和對目標序列的影響程度,同時使用softmax函數用來確保注意力系數的和為1。注意力系數計算式如下:

t時刻的隱藏狀態可以更新為:

2.4 解碼器

時間注意力機制可以自適應地調整編碼器中神經網絡的隱藏層狀態,如圖5所示。通過LSTM單元前一時刻的隱藏層狀態和單元層狀態來計算每個時間步的注意力系數,即不同時刻對目標序列的貢獻權重。

圖4 輸入注意力機制Fig. 4 Input attention mechanism

圖5 時間注意力機制Fig. 5 Time attention mechanism

在解碼器解碼后,將解碼器的當前時刻隱藏層狀態與由外部因素組成的離散特征拼接起來,解碼后將解碼器的當前隱藏層狀態與時間注意力模塊t時刻的輸出特征進行拼接,輸入到一個全連接神經網絡,最終得到目標預測值。

3 對比模型與評價指標

3.1 對比模型

3.1.1 人工神經網絡

本文采用多層感知機(Multi-Layer Perceptron, MLP)作為對比模型中人工神經網絡的具體算法。多層感知機是一種易于構建的神經網絡模型,其相鄰層中的神經元節點相互連接,而同一層中的神經元節點不完全連接。輸入數據由輸入層通過一個或多個全連接層輸入,全連接層中的每個神經元都可以擬合原始數據,最后通過輸出層輸出數據。多層感知機采用梯度下降算法迭代優化損失函數,并通過反向傳播算法更新模型參數,具有較好的預報性能,是一種常見的數據驅動水文預報模型。

3.1.2 CatBoost算法

決策樹是具有較強可解釋性和模型透明度的典型機器學習模型。CatBoost算法由梯度提升(Gradient Boosting, GB)算法和類別型特征(Categorical Features,GF)兩部分組成,具有能更好地處理范疇特征的能力,同時組合范疇特征對特征維度進行了提升。CatBoost通過添加先驗分布項的策略使噪聲和頻率較低的數據不過度影響數據分布,并同時使用整個數據集進行訓練,該種策略最大限度上避免了算法過度擬合,如式(25)所示:

CatBoost引入了先驗項和權重系數,其目的在于減少從低頻范疇特征中獲取的噪聲。CatBoost將目標樹作為元學習機,并將目標樹中每個葉節點的索引編碼對應為一個長度等于樹深度的二進制矢量。在目標樹的整個層次上采用相同的分割準則,使目標樹達到平衡,不易過擬合,其權限系數能較好地反映輸入數據對于決策選擇的影響。

3.1.3 圖卷積神經網絡

卷積神經網絡在圖像識別、自然語言處理等領域應用十分廣泛,取得了較大的成功。但傳統的卷積神經網絡只限于處理歐氏空間的數據,生活中廣泛存在的圖數據并不能應用于該類模型。基于此,圖卷積神經網絡通過提取圖結構的拓撲關系生成拉普拉斯矩陣,使用層次線性模型約束和切比雪夫多項式計算譜卷積解,實現了卷積神經網絡在圖數據上的應用。圖卷積神經網絡主要由輸入層、圖卷積層和輸出層組成,該模型能較好地提取流域的拓撲結構。

3.2 評價指標

由于沒有一種評價指標能夠完全體現出一個水文模型的一致性、可靠性、準確性和精確性,因此有必要使用多種性能指標對模型進行基準測試。在本文實驗中采用了納什效率系數(Nash-Sutcliffe Efficiency coefficient, NSE)、均方根誤差(Root Mean Squared Error, RMSE)和平均絕對誤差(Mean Absolute Error, MAE)作為評價指標。

NSE評估預報結果的誤差,常用于驗證水文模型模擬結果的優劣:

MAE是所有個別觀測值與算術平均值之和的絕對值的平均值,主要評價平均預報誤差對模型的影響,其計算式如下:

RMSE評估回歸結果的準確性,能較好地衡量出預測值與觀測值之間的偏差,其與MAE的區別在于,RMSE先對偏差進行平方計算,使其誤差的離散度更高,更能凸顯局部預報誤差對評價指標的影響,其計算式如下:

4 實驗與結果分析

本文研究采用了屯溪流域12個雨量站的降雨蒸發資料和1個流量站的每小時平均徑流量資料,如圖6所示。屯溪流域數據集共包含49 532個樣本,共收錄1981—2001年汛期的相關資料,數據長度為1981—2001年。本文選用1981—1996年的汛期資料作為模型訓練集,利用1997—2001年的汛期資料對模型進行驗證,時間步長為1 h,具體數據結構如表1所示。在傳統的河流流量過程模擬中,流域的徑流量、降雨量、蒸發量等因素對河流徑流量的影響較為顯著。

經多次實驗驗證后可得,本文實驗采用的最佳超參數組合為:長短期記憶網絡采用Adam算法對神經網絡的超參數進行尋優,設置學習率為0.05,batch_size為200,dropout為0.2,迭代次數為300。模型結構采用雙層長短期記憶網絡和一層全連接網絡,激活函數為sigmoid函數,其損失函數為均方根誤差。圖注意力網絡設置層數為2,學習率為0.005,批大小為32,多頭注意力頭數為8。

圖6 屯溪流域站點分布Fig. 6 Distribution of Tunxi watershed stations

表1 實驗數據的數據結構Tab. 1 Data structure of experimental data

4.1 模型評價指標比較

在逐小時滾動未來7 h的徑流預報實驗中,分別計算五種模型預見期為1 h~7 h的評價指標。該實驗能從統計指標的角度上展現流域下墊面特征提取模塊對于模型預報精度與準確度的提升。

本文采用多評價指標交叉驗證的方式進行實驗分析,將測試集所得到的預測值作為模型評價的標準,模型預報性能的評價指標結果如表2所示。在預測步長為時,GAT-DALSTM模型相較其他基準深度學習模型在NSE上差距較小,但從RMSE和MAE指標上可以看出,GAT-DALSTM的局部誤差和平均誤差均遠遠小于其他基準深度學習模型,表明模型的擬合效果較好,其變化趨勢與實際流量值更為貼近。隨著預測步長的增加,指標下降較為明顯,表明隨著預測步長的增加,模型的魯棒性和泛化性會逐步變差,但這是符合預期結果的。相較于其他基準模型,GAT-DALSTM在到時間段的準確性差別不大,但隨著預測步長的增加,GAT-DALSTM模型的準確性下降速度明顯放緩,表明GAT-DALSTM模型在多步預報中預報精度優勢更為明顯,其原因在于GAT-DALSTM模型中的圖注意力網絡和雙階注意力模型能夠提取流域的拓撲關系與時空信息,指導深度神經網絡更好地學習降雨-徑流過程。但因為其訓練過程較為復雜,GAT-DALSTM模型的訓練時間較長,相較基準模型的耗時增加了20%~80%不等。

表2 模型預報性能統計指標匯總Tab. 2 Summary of statistical indicators of model forecast performance

4.2 注意力系數可視化

注意力系數熱點圖如圖7所示,將熱力圖定義為二維矩陣中預定義的網格,將輸入時刻作為橫坐標,將輸入數據的注意力系數作為縱坐標,每個特定位置的注意力系數是范圍在0~1的常數,由式(18)計算所得,其詳細計算過程見2.2節和2.3節。為了更好地體現外界因素對流域徑流量的影響,本節的注意力系數熱點圖選取了到時刻的降雨量、蒸發量、透水徑流、非透水徑流和上游站點拓撲關系特征等相關信息得到。

由圖7可知,在任意時間步中流域降雨量的權重占比較高,這是符合預期結果的,因為降雨-徑流過程的模擬就是基于前一時刻的降雨量進行產流和蒸散發計算,時間步長內任意時刻的實際降雨量值都會對預測徑流量值產生巨大影響;其次,透水產流總量和不透水產流總量所占權重較高,且在各個時段權重均較大,這是符合預期效果的,因為透水產流和非透水產流在經過匯流過程之后才會對徑流量產生影響,所以會有一定的時差。

圖7 注意力系數可視化Fig. 7 Visualization of attention coefficient

圖注意力網絡生成的拓撲關系特征向量在一定程度上反映了上游來水對預測值的影響。圖7中,圖結構拓撲特征至分別代表屯溪流域的上游鄰階站點,即休寧、石門和五城氣象站。其中,五城站點對屯溪站點的影響程度相對較小,觀察圖6屯溪站點與五城站點的距離可以推斷其地理距離相差較遠。從水文角度分析,地理距離相差越大,洪水的坦化作用就越明顯,故五城站點的降雨量對預測徑流量的影響相對較小,而休寧和石門站點均能較好地反映出上游節點對預測節點的貢獻度。

圖中蒸發量占比相對較小,但仍然在特定時刻發揮著理論指導作用:在非降雨時段,降雨量、透水產流總量和不透水產流總量均為0,其對應的注意力系數對神經網絡的指導作用暫時失去效果,但蒸發量仍然會通過注意力系數對預測值產生影響,保證模型在旱期與汛期均有較好的預報精度。

在本節主要驗證了圖神經網絡和注意力機制在功能上的作用:GAT-DALSTM模型主要依靠注意力機制提供時間和空間兩個維度上對輸出數據的權重關系,通過熱點圖進行可視化。當上游發生降雨事件導致上游來水出現異常情況時,能通過圖神經網絡的特征提取機制與注意力機制相融合共同反饋到徑流預報值上,將流域空間關系融入到徑流量預報之中。流域中透水徑流、非透水徑流、降雨量、流量和蒸發量是屬于該流域特有的時間序列數據,通過注意力機制區分降雨時段與非降雨時段輸入數據對徑流預測量的影響,兩者均提高了模型的預報精度與健壯性,并通過熱點圖從水文角度分析其模型可靠性。

4.3 基于注意力系數熱力圖的模型評價

本文所提模型可解釋性評估方法是基于注意力系數矩陣的數值擾動方法,其基本思想是在原注意力系數矩陣的基礎上,將高斯噪聲以越來越大的方差加入到注意力系數矩陣中,評估每個噪聲水平下模型性能的變化。標準差為0的選擇讓模型在不改變注意力系數總和的情況下,合理地評估每一個注意力系數對模型輸出的影響。具體來說,添加的噪聲來自于5個不同方差的正態分布:。

模型評價結果如圖8所示。雖然模型的性能隨著注意力系數矩陣中噪聲的增加而退化,但是這種退化并不是突然變化的,而是隨著噪聲水平的增加而平滑發生,表明注意力系數能有效計算特定輸入向量對輸出結果的影響,并對神經網絡的訓練起到了指導作用,在提高模型預報精度的基礎之上,使人類加深了對黑盒模型的理解,并有了判斷模型可靠與否的依據,提高了模型的透明度與可解釋性。

圖8 高斯噪聲擾動下的納什效率系數變化趨勢Fig. 8 Change trend of Nash-Sutcliffe efficiency coefficient under Gaussian noise disturbance

5 結語

本文在分析屯溪流域徑流量隨時間和空間變化趨勢的基礎上,利用圖神經網絡提取流域站點拓撲結構,并結合雙階注意力機制指導長短期記憶網絡更好地學習輸入水文時間序列數據與預測值之間的非線性關系。通過多個模型的預測結果與誤差分析比較發現,本文所提出的基于圖神經網絡和雙階注意力機制的徑流預報模型在多個評價指標下均保持了較好的預報精度,且隨著預報步長的增長,其精度衰減相較純數據驅動模型明顯變緩。

此外,通過可視化注意力系數形成熱點圖,實現從時空角度分析注意力機制對模型訓練的指導作用,并從水文角度分析熱點圖的可行性,即熱點圖是否符合人類在徑流預報領域的經驗推斷。最后,使用一種數值擾動的方式,通過向注意力系數中添加高斯噪聲保證注意力系數熱點圖能充分反映模型特征,實驗結果表明模型的預測值受到了較為明顯的影響,驗證了模型的有效性與可靠性,有助于提高模型的透明度與可解釋性。

在后續的研究中,需要考慮流域本身的下墊面特征,將更多相關領域的物理知識與工程理論加入到深度學習之中,增加了“黑盒子”模型的透明度與物理可解釋性。

[1] 芮孝芳.論流域水文模型[J].水利水電科技進展,2017,37(4):1-7,58.(RUI X F. Discussion of watershed hydrological model [J]. Advances in Science and Technology of Water Resources,2017, 37(4): 1-7, 58.)

[2] 黎云云,暢建霞,金文婷,等.基于SWAT模型的渭河流域分區徑流模擬研究[J].西北農林科技大學學報(自然科學版),2017,45(4):204-212.(LI Y Y, CHANG J X,JIN W T, et al. Runoff simulation in subzones of the Wei River Basin based on the SWAT model [J]. Journal of Northwest A amp; F University (Natural Science Edition), 2017, 45(4): 204-212.)

[3] ZOUNEMAT-KERMANI M, MATTA E, COMINOLA A, et al. Neurocomputing in surface water hydrology and hydraulics: a review of two decades retrospective,current status and future prospects [J]. Journal of Hydrology, 2020, 588: Article No.125085.

[4] DAWSON C W, ABRAHART R J, SHAMSELDIN A Y, et al. Flood estimation at ungauged sites using artificial neural networks [J]. Journal of Hydrology, 2006, 319(1/2/3/4):391-409.

[5] HALFF A H, HALFF H M, AZMOODEH M. Predicting runoff from rainfall using neural networks [C]// Proceedings of the 1993 Symposium: Engineering Hydrology. New York: American Society of Civil Engineers, 1993: 760-765.

[6] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representations by error propagation [M]// COLLINS A, SMITH E E. Readings in Cognitive Science: A Perspective from Psychology and Artificial Intelligence. San Francisco: Morgan Kaufmann, 1988: 399-421.

[7] CARRIERE P, MOHAGHEGH S, GASKARI R. Performance of a virtual runoff hydrograph system [J]. Journal of Water Resources Planning and Management, 1996, 122(6): 421-427.

[8] HSU K L, GUPTA H V, SOROOSHIAN S. Application of a recurrent neural network to rainfall-runoff modeling [C]// Proceedings of the 1997 24th Annual Water Resources Planning and Management Conference. New York: American Society of Civil Engineers, 1997: 68-73.

[9] NAGESH KUMAR D, SRINIVASA RAJU K, SATHISH T. River flow forecasting using recurrent neural networks [J]. Water Resources Management, 2004, 18(2): 143-161.

[10] BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult [J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.

[11] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[12] KRATZERT F, KLOTZ D, BRENNER C, et al. Rainfall-runoff modelling using Long Short-Term Memory (LSTM) networks [J]. Hydrology and Earth System Sciences, 2018, 22(11): 6005-6022.

[13] ZHANG D, LINDHOLM G, RATNAWEER H. Use long short-term memory to enhance Internet of Things for combined sewer overflow monitoring [J]. Journal of Hydrology, 2018, 556: 409-418.

[14] 朱躍龍,趙群,余宇峰,等.基于時空特征挖掘的流量過程智能模擬方法[J].河海大學學報(自然科學版),2021,49(1):7-12.(ZHU Y L, ZHAO Q, YU Y F, et al. Intelligent simulation method of runoff process based on spatiotemporal feature mining[J]. Journal of Hohai University (Natural Sciences), 2021, 49(1): 7-12.)

[15] YIN Z K, LIAO W H, LEI X H, et al. Comparing the hydrological responses of conceptual and process-based models with varying rain gauge density and distribution [J]. Sustainability, 2018, 10(9): Article No.3209.

[16] CHAKRABORTY S, TOMSETT R, RAGHAVENDRA R, et al. Interpretability of deep learning models: a survey of results [C]// Proceedings of the 2017 IEEE SmartWorld, Ubiquitous Intelligence amp; Computing,Advanced amp; Trusted Computed, Scalable Computing amp; Communications, Cloud amp; Big Data Computing, Internet of People and Smart City Innovation. Piscataway: IEEE: 2017: 1-6.

[17] LAURENS M van der, HINTON G. Visualizing data using t-SNE [J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

[18] RIBEIRO M T, SINGH S, GUESTRIN C. “Why should I trust you?”: explaining the predictions of any classifier [C]// Proceedings of the 2016 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . New York: ACM, 2016:1135-1144.

[19] SAMEK W, BINDER A, MONTAVON G, et al. Evaluating the visualization of what a deep neural network has learned [J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 28(11): 2660-2673.

[20] CHOI E, BAHADORI M T, KULAS J A, et al. RETAIN: interpretable predictive model in healthcare using reverse time attention mechanism [C]// Proceedings of the 2016 30th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2016: 3512-3520.

[21] 王天罡,張曉濱,馬紅葉,等.可解釋的層次注意力機制網絡危重癥預警[J].計算機工程與應用,2021,57(5):131-138.(WANG T G, ZHANG X B,MA H Y, et al. Early warning of critical illness based on explicable hierarchical attention mechanism [J]. Computer Engineering and Applications,2021, 57(5): 131-138.)

[22] DING Y K, ZHU Y L, FENG J, et al. Interpretable spatio-temporal attention LSTM model for flood forecasting [J]. Neurocomputing,2020, 403: 348-359.

[23] VELI?KOVI? P, CUCURULL G,CASANOVA A, et al. Graph attention networks [EB/OL]. [2021-03-09]. https://arxiv.org/pdf/1710.10903.pdf.

[24] ZHU L P, WAN B H, LI C Y, et al. Dyadic relational graph convolutional networks for skeleton-based human interaction recognition [J]. Pattern Recognition, 2021, 115: Article No.107920.

[25] 夏軍,謝平.論概念性元素的推移和坦化作用[J].水利學報,1995(10):65-68.(XIA J, XIE P. On the transposition and attenuation of conceptual elements [J]. Journal of Hydraulic Engineering, 1995(10): 65-68.)

[26] YAO C, LI Z J, YU Z B, et al. A priori parameter estimates for a distributed, grid-based Xinanjiang model using geographically based information [J]. Journal of Hydrology, 2012, 468/487/488/469: 47-62.

[27] 王斌,黃金柏,宮興龍.基于HWSD的流域柵格土壤水分常數估算[J].水文,2015,35(2):8-11.(WANG B, HUANG J B, GONG X L. Grid soil moisture constants estimation based on HWSD over basin [J]. Journal of China Hydrology, 2015, 35(2): 8-11.)

[28] 楊哲,張行南,夏達忠,等.基于包氣帶厚度的流域蓄水容量計算及水文模擬[J].水力發電學報,2015,34(3):8-13.(YANG Z, ZHANG X N,XIA D Z, et al. Calculation of maximum thickness of unsaturated zone and modeling of hydrological process in Xingxing watershed [J]. Journal of Hydroelectric Engineering, 2015, 34(3): 8-13.)

[29] QIN Y, SONG D J, CHEN H F, et al. A dual-stage attention-based recurrent neural network for time series prediction [C]// Proceedings of the 2017 26th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2017: 2627-2633.

Runoff forecast model based on graph attention network and dual-stage attention mechanism

HU Hexuan1,2,3, SUI Huachao1,2, HU Qiang1,2*, ZHANG Ye1,2, HU Zhenyun4, MA Nengwu5,6,7

(1.College of Computer and Information,Hohai University,Nanjing Jiangsu211100,China;2.Key Laboratory of Water Big Data Technology of Ministry of Water Resources(Hohai University),Nanjing Jiangsu211100,China;3.College of Electrical Engineering,Tibet Agriculture and Animal Husbandry University,Linzhi Xizang860000,China;4.Business School,Hohai University,Nanjing Jiangsu211100,China;5.Yangtze River Survey Planning and Design Research Company Limited,Wuhan Hubei430010,China;6.Changjiang Space Information Technology Engineering Company Limited,Wuhan Hubei430010,China;7.Hubei Research Center of Water Conservancy Information Perception and Large Data Engineering Technology,Wuhan Hubei430010,China)

To improve the accuracy of watershed runoff volume prediction, and considering the lack of model transparency and physical interpretability of data-driven hydrological model, a new runoff forecast model named Graph Attention neTwork and Dual-stage Attention mechanism-based Long Short-Term Memory network (GAT-DALSTM) was proposed. Firstly, based on the hydrological data of watershed stations, graph neural network was introduced to extract the topology of watershed stations and generate the feature vectors. Secondly, according to the characteristics of hydrological time series data, a runoff forecast model based on dual-stage attention mechanism was established to predict the watershed runoff volume, and the reliability and transparency of the proposed model were verified by the model evaluation method based on attention coefficient heat map. On the Tunxi watershed dataset, the proposed model was compared with Graph Convolution Neural network (GCN) and Long Short-Term Memory network (LSTM) under each prediction step. Experimental results show that, the Nash-Sutcliffe efficiency coefficient of the proposed model is increased by 3.7% and 4.9% on average respectively,which verifies the accuracy of GAT-DALSTM runoff forecast model. By analyzing the heat map of attention coefficient from the perspectives of hydrology and application, the reliability and practicability of the proposed model were verified. The proposed model can provide technical support for improving the prediction accuracy and model transparency of watershed runoff volume.

graph neural network; attention mechanism; encoder-decoder; Long Short-Term Memory network (LSTM); time series prediction; hydrological forecast

TP183

A

1001-9081(2022)05-1607-09

10.11772/j.issn.1001-9081.2021050829

2021?05?19;

2021?10?08;

2021?10?09。

國家重點研發計劃項目(2018YFC0407904)。

胡鶴軒(1975—),男,江蘇南京人,教授,博士,CCF會員,主要研究方向:人工智能、機器學習、水利大數據; 隋華超(1997—),男,山東青島人,碩士研究生,CCF會員,主要研究方向:數據挖掘、人工智能、水利大數據; 胡強(1992—),男,江蘇鎮江人,博士研究生,CCF會員,主要研究方向:機器學習、人工智能; 張曄(1976—),女,江蘇南京人,講師,博士,主要研究方向:水利大數據、人工智能; 胡震云(1968—),女,江蘇南京人,教授,博士,主要研究方向:水資源管理; 馬能武(1965—),男,湖北天門人,教授級高級工程師,博士,主要研究方向:水利水電安全監測。

This work is partially supported by National Key Research and Development Program of China (2018YFC0407904).

HU Hexuan, born in 1975, Ph. D., professor. His research interests include artificial intelligence, machine learning, big data of water conservancy.

SUI Huachao, born in 1997, M. S. candidate. His research interests include data mining, artificial intelligence, big data of water conservancy.

HU Qiang, born in 1992, Ph. D. candidate. His research interests include machine learning, artificial intelligence.

ZHANG Ye, born in 1976, Ph. D., lecturer. Her research interests include big data of water conservancy, artificial intelligence.

HU Zhenyun, born in 1968, Ph. D., professor. Her research interests include water resource management.

MA Nengwu, born in 1965, Ph. D., professor of engineering. His research interests include water conservancy and hydropower safety monitoring.

猜你喜歡
機制模型
一半模型
構建“不敢腐、不能腐、不想腐”機制的思考
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
定向培養 還需完善安置機制
中國衛生(2016年9期)2016-11-12 13:28:08
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 国产麻豆福利av在线播放| 美女扒开下面流白浆在线试听| 香蕉eeww99国产在线观看| 久久精品国产999大香线焦| 一区二区三区四区日韩| 国产免费一级精品视频| 视频二区国产精品职场同事| a国产精品| 精品国产电影久久九九| 国产高清毛片| 99久久国产综合精品2023| 国产91成人| 国产靠逼视频| 尤物精品国产福利网站| 日本亚洲最大的色成网站www| 三上悠亚一区二区| 亚洲热线99精品视频| 热这里只有精品国产热门精品| 亚洲视频a| 亚洲天堂成人| 色有码无码视频| 国产av色站网站| 久热中文字幕在线观看| 无码人妻热线精品视频| 一级看片免费视频| 无码AV动漫| 日韩成人免费网站| 无码福利日韩神码福利片| 四虎成人精品| 国产乱肥老妇精品视频| 国产欧美在线| 日韩区欧美国产区在线观看| 黄色网站不卡无码| 91po国产在线精品免费观看| www.91在线播放| 婷五月综合| www.91在线播放| 国产日韩欧美视频| 伊人色在线视频| 欧美色丁香| 亚洲AV无码久久精品色欲| 日韩大片免费观看视频播放| 日韩免费中文字幕| 九色在线观看视频| 亚洲综合在线最大成人| 亚洲有无码中文网| 成AV人片一区二区三区久久| 久久久四虎成人永久免费网站| 精品久久国产综合精麻豆| 97久久人人超碰国产精品| 午夜福利免费视频| 粉嫩国产白浆在线观看| 国产色网站| 天堂在线亚洲| 国产在线观看成人91| 99人体免费视频| 亚洲成人手机在线| 激情五月婷婷综合网| 成人在线天堂| 欧美精品一区二区三区中文字幕| 免费国产高清视频| 国产91色在线| 久久综合国产乱子免费| 国产av一码二码三码无码| igao国产精品| 国产真实二区一区在线亚洲| 亚洲成人黄色网址| 免费日韩在线视频| 特级欧美视频aaaaaa| 欧美一级高清片久久99| 人妻精品久久无码区| 亚洲国产成人精品一二区| 欧美成人亚洲综合精品欧美激情| 久久国产V一级毛多内射| 精品久久久无码专区中文字幕| 国产国语一级毛片在线视频| 一级毛片网| 毛片免费视频| 最新国语自产精品视频在| 狠狠躁天天躁夜夜躁婷婷| 毛片免费视频| 国产毛片基地|