中圖分類號:TL329 文獻標志碼:A DOI:10.19907/j.0490-6756.250053
A virtual measurement approach integrating attention mechanism with ED-LSTM model in nuclear engineering
HUANG Lei,ZHAO Da-Zhi2,LAI Li3,MINChao 1,2 (204號 (1.School of Sciences,Southwest Petroleum University,Chengdu 6lO5Oo,China; 2.Institute for Artificial Intelligence,Southwest Petroleum University,Chengdu 6lO5Oo,China; 3.School ofMathematics,SichuanUniversity,Chengdu 6lOo65,China)
Abstract: Virtual measurement (VM) approaches are frequently employed in nuclear engineering for the transient condition monitoring of nuclear reactor.As a data-driven approach,VM eliminates the reliance on physical sensors and efectively overcomes thelimitations of conventional monitoring techniques,such as high deployment costs and maintenance challenges.Nowadays,mainstream VM approaches still exhibit inadequate temporal feature extraction and suboptimal prediction accuracy.In this paper,an enhanced VM framework that integrates attntion mechanism with Encoder-Decoder Long Short-Term Memory (ED-LSTM) ar chitecture is proposed.Four attntion mechanisms are used:temporal attention,causal attention,convolutional attention and hierarchical attention.Meanwhile,the attention mechanisms are incorporated into the EDLSTMmodel in three ways:encoder-only,decoder-only and encoder-decoder hybrid.To optimize the model parameters,a high-fidelity nuclear reactor transient dataset generated by PCTRAN simulation software is used,and 13 parameter configuration schemes are evaluated by using the performance metrics including Root Mean Square Error(RMSE),Mean Absolute Error(MAE)and coeficient of determination(R2),respectively.Simulation results demonstrate that:(i) The integration of every attention mechanism into the encoder of ED-LSTM model enhances the model prediction performance,in which the temporal attention mechanism achieves the optimal result through a 23.4% RMSE reduction;(ii) The integration of causal attention mechanism in every way improves the prediction stability across implementations;(ii) The integration of temporal,convolutional or hierarchical atention mechanism into the decoder of ED-LSTM model degrades the model prediction performance,likely due to the information redundancy or overfiting phenomena. The obtained results substantiate the technical feasibilityof integrating atention mechanism with ED-LSTM architecture for the precision enhancementof VM approaches.
Keywords: Nuclear engineering;Virtual measurement;ED-LSTM;Attention mechanism
1引言
虛擬測量方法是核工程中常用的一種瞬時狀態監測工具.該方法用數學模型或數據驅動的方法替代昂貴或難以實時獲取的傳感器數據,能夠為系統的實時監測控制和故障診斷提供關鍵信息.相比傳統的通過傳感器獲取數據的方法,虛擬測量方法具有成本低、部署靈活、維護簡單等優點,且不受設備成本、規模和天氣的影響1.
虛擬測量方法使用的數據是一類特殊觀測時間序列2.此類數據可能來自金融、交通、能源、氣象、醫療及核工程等領域[3-7].時間序列預測方法是虛擬測量方法的數學基礎.正是利用時間序列預測,虛擬測量方法才能對數據進行分析,提取其中的季節、趨勢及噪聲等信息,進而用特定方法和模型來預測和推斷未來某時刻或某段時間內數據的變化趨勢.
時間序列預測方法的精度直接影響工業過程的感知能力,目前,復雜非線性系統的動態變化特征給高精度、高魯棒性的虛擬測量方法帶來巨大的挑戰.例如,雖然長短期記憶(LongShort-TermMemory,LSTM)模型在捕獲數據的長時間依賴趨勢方面表現優越,也已被廣泛應用于虛擬測量任務,但在面對具有復雜非線性關系或長時間跨度的數據(如核反應堆數據)時卻存在明顯局限性,如對輸人信息權重不平衡、無法有效識別關鍵數據等.為此,研究者提出了Encoder-DecoderLSTM(ED-LSTM)模型,并將其用于處理輸入和輸出序列長度不對稱的時間序列數據,研究表明,該方法在復雜時間序列預測中表現出色.
近年來,部分研究者嘗試將注意力機制引入ED-LSTM模型.通過動態調整模型對輸人序列各部分的關注度,此類研究試圖使模型聚焦于時序中最重要部分,以提高模型對數據關鍵特征的捕獲能力和預測精度.本文的研究是一個最新的嘗試.具體來說,通過將時間注意力、因果自注意力、卷積注意力及分層注意力等4種注意力機制引入ED-LSTM模型的編碼器或解碼器,本文研究了注意力機制對ED-LSTM模型預測能力的增強作用.基于PCTRAN仿真軟件所生成的核反應堆高保真動態數據集,本文通過仿真實驗評價了融合不同注意力機制及不同融合方式的ED-LSTM模型的預測效果,并用箱型圖和熱力圖展示了不同注意力機制和融合方式對模型的預測性能的影響.
2 相關工作
2.1 虛擬測量方法
在核工程中,虛擬測量方法主要通過數據驅動模型或基于物理規律的數值模擬來實現狀態監測.目前,該方法已被成功應用在那些難以獲取直接測量數據的應用場景,且表現突出[8.為了克服單一模型的局限性9,當前的研究主要關注那些結合物理模型和機器學習的混合方法.然而,核動力系統作為一類典型的復雜系統,其高度的動態性和非線性特征對現有虛擬測量方法從精度和適應性等方面提出了巨大的挑戰.
2.2 LSTM和ED-LSTM
長短期記憶網絡(LSTM常被用于捕捉數據的長時間依賴特征,目前已被廣泛應用于金融及工業過程控制等應用場景.LSTM通過門控機制來解決標準循環神經網絡(RNN)的梯度消失問題,特別適合處理長時間跨度的數據[10].
鑒于傳統的LSTM模型在輸入和輸出序列長度不一致的任務中表現欠佳,研究者提出了ED-LSTM架構.該模型最初被用于自然語言處理,目前則已在各類復雜任務中得到應用[11].在核工程應用中,ED-LSTM模型可以有效捕捉系統的復雜非線性關系,能夠適應系統的動態變化,對提升虛擬測量方法的預測性能有重要作用[12].
2.3 注意力機制
雖然ED-LSTM在處理長時間依賴數據方面有優勢,但該模型對復雜輸人中不同特征重要性的關注能力有限.另一方面,注意力機制能夠有效地緩解神經網絡對長時序的長期依賴問題,可能對提高ED-LSTM模型的可解釋性和性能起到重要作用[1.因此,將注意力機制引入ED-LSTM模型可能增強其對時序重要特征的捕捉能力.
本文選用4種注意力機制,分述如下,
(i)時間注意力機制.借鑒Bahdanau等[14提出的方法,時間注意力機制通過對每個時間步的重要性打分使模型聚焦于時序關鍵部分.如圖1所示,時間注意力機制采用線性變換和激活函數對輸入特征進行映射,以注意力得分和因果掩碼策略確保模型只關注當前和此前的時間步,防止信息泄露,并有效提取重要歷史特征.涉及的主要公式如下:


其中, X′ 指經過 W 線性層處理后的輸入序列,v是可學習的權重向量,score,是時間步 t 的注意力得分, Wt 是時間步 t 的注意力權重, T 是總時間步數,
Xt 表示第t個時間步的輸人數據, Y 為輸出序列矩陣.另外,tanh激活函數用于隱藏層激活,它的輸出是有界的,有助于控制數據分布、減少梯度消失問題,提高數值計算的穩定性,Softmax函數將向量轉換為概率分布,常被用于注意力權重歸一化處理.

(ii)多頭因果自注意力機制,簡稱多頭注意力機制.多頭注意力機制源自Transformer模型[15],通過查詢(Q)鍵 (K) 和值 (V) 矩陣的線性變換計算輸人的注意力的得分,并利用多個注意力頭來增強表示能力.

圖2為多頭注意力機制的基本結構.其中,因果掩碼策略確保當前時間步的注意力計算只考慮當前和之前的時間步,避免信息泄露,并提高預測精度與可靠性.涉及的主要公式如下:

(ii)時間卷積注意力機制.時間卷積注意力機制是卷積神經網絡(CNN)與時間注意力機制的結合,結構如圖3所示.類似于時間注意力機制,時間卷積注意力機制在進行后續操作時先通過一維卷積提取輸人序列的局部特征,以便有效捕捉短期模式與局部依賴性[16].

(iv)分層注意力機制.分層注意力機制將時序劃分為多個片段,在每個片段內計算局部注意力,再對片段特征進行匯總、形成全局特征表示.分層注意力機制的結構如圖4所示,其中,分層結構使得模型能夠在不同粒度上學習時序特征、關注時序局部片段的重要性,然后結合全局結構進行建模,以增強模型對復雜層次結構的理解能力[7].

3 數據及模型
3.1 數據
本研究使用的動態數據集源自國際原子能署(IAEA)發布的《PCTRAN通用壓水反應堆模擬器練習手冊》18中所描述的PCTRAN通用壓水堆仿真平臺.該平臺基于兩回路壓水堆(PWR)的通用設計(熱功率 1800MW ,電功率 600MW ,主要包含反應堆冷卻劑系統(RCS)應急堆芯冷卻系統(ECCS)蒸汽發生器(SG)等核心模塊,可以模擬正常工況、瞬態事故及嚴重事故等條件下核動力系統的動態變化.該軟件采用一種基于熱工-水力耦合模型的實時數值計算方法,利用簡化的兩回路壓水堆系統模型實時計算并更新反應堆的各項動態參數,如溫度、壓力和流量等.軟件的交互式圖形界面如圖5所示.另一方面,基于以上數據集,用戶可以觀察和控制反應堆系統的關鍵參數,在正常、過渡與嚴重事故等多種模式下模擬反應堆系統的瞬態響應,仿真結果可以反映壓水堆關鍵參數的動態變化,適用于虛擬測量任務中的高保真數據生成.
本文隨機設置不同起始功率及其升降幅度,分別利用PCTRAN仿真得到反應堆在“升功率”、“降功率”和“甩負荷”等3種工況條件下的多組數據,然后各取2組數據進行整合,作為訓練集,同時以“甩負荷”工況的第3組數據作為測試集.本文選取常見的13個物理傳感器提供的系統參數進行仿真,如表1所示,其中前12個傳感器作為輸入特征,“LSGA\"作為預測的目標變量.
3.2模型
本文構建一種基于ED-LSTM架構的預測模型,并將時間注意力、因果注意力、卷積注意力和分層注意力等4種注意力機制分別融合進模型,以增強模型對時間序列的理解和特征提取能力.如圖6所示,ED-LSTM模型由編碼器(Encoder)和解碼器(Decoder)組成,其中編碼器負責提取輸入序列的特征,解碼器負責逐步生成未來時間步的預測.時間注意力的添加方式有3種:只在編碼器添加,只在解碼器添加以及同時在編碼器和解碼器添加.
模型的輸入有多個特征,涵蓋P、THA、THB、WFHB等多個傳感器特征信息.這些輸入特征首先被傳入編碼器,編碼器基于LSTM網絡結構提取時序中隱藏層的特征.在編碼器部分,模型采用多層LSTM網絡對輸入時序進行處理,然后根據需求選擇是否在編碼器中添加注意力機制來提高特征表示能力.在解碼器部分,該模型同樣采用多層LSTM來逐步生成輸出序列,并根據需求選擇是否結合注意力機制動態地聚焦編碼器的輸出特征.


結果與分析
為全面評價不同注意力機制及融合方式對ED-LSTM模型的預測效果的影響,本文設計了包含4種注意力機制及3種添加方式的仿真實驗,共12種,并將結果與無注意力機制的基準仿真實驗進行比較.因此,仿真實驗共有13組.在仿真實驗中,每組實驗均進行40次重復實驗,以確保結果的穩定性和可靠性、減少偶然因素的影響,每次實驗都記錄模型的主要性能指標,主要包括均方根誤差(RMSE)、平均絕對誤差(MAE)和判定系數(R2) .另外,本研究采用7:3的訓練集與驗證集劃分比例,以確保模型的訓練和驗證數據充足且均衡.
在模型調參階段,通過逐步調整隱藏層單元數、Dropout率和學習率等參數,本文發現,任務表2中所示的參數設置能夠有效捕捉時間序列中的關鍵特征.此外,AdamW優化器在傳統Adam優化器的基礎上引入了權重衰減(L2正則化),有助于模型在訓練過程中穩定收斂,而結合Dropout則可以有效減少過擬合的風險.
鑒于核動力系統中的傳感器對預測精度有極高要求,本文優先考慮將RMSE作為主要評價指標,因為它能放大誤差對模型性能的影響、避免忽略較大偏差導致的潛在風險.此外,MAE能夠反映模型對穩態參數的預測穩定性, R2 能夠反映模型對目標變量的解釋能力.因此,結合MAE和 R2 就能夠全面評價模型的整體誤差水平和擬合能力、為決策提供可靠依據.
為減少仿真實驗過程中由隨機初始化或偶然波動導致的極端誤差對結果的影響,本文參考穩健統計學[19]中的截尾均值法,以RMSE值為參照,剔除每組實驗中5個最大值和5個最小值,保留中間30次實驗的結果進行統計分析.截尾均值法的基本思想是先將數據按大小順序排列,去掉兩端一定比例或一定數量的極端值,然后對剩下的數據計算均值,以便有效降低異常數據對整體評估的干擾,同時保留數據分布的核心特征,提升結果的穩健性和可重復性[20].


為行文簡潔,本文對注意力機制的添加方式進行簡記.以時間注意力為例,只對編碼器添加記為“時間注意力-E”,只對解碼器添加記為“時間注意力-D”,對編碼器和解碼器都添加則記為“時間注意力-ED”.其他注意力機制類似簡記.
對30次實驗得到的評價指標求平均,以無注意力的基準模型得到的結果作為對照組,融合注意力后的模型得到的結果作為實驗組,結果參見表3.我們有如下結果.
(i)只對編碼器添加注意力機制時,4種注意力機制均能提高模型的預測性能,這可能得益于注意力機制聚焦關鍵特征的能力.
(ii)3種不同的因果注意力機制添加方式都能提高模型的預測性能,這可能是因為多頭注意力機制能夠捕捉多個傳感器之間的關系、使模型的性能提升更穩定.
(iii)在解碼器中分別添加時間、卷積和分層注意力機制導致模型的預測性能降低,這可能是因為編碼器提供的特征信息已經足夠多,在解碼器上引入注意力反而會使模型關注相同的信息、導致信息冗余,破壞預測的連貫性.
(iv)綜合比較來看,只在編碼器上添加時間注意力機制對模型預測效果的提高最大,RMSE指標降低了 23.4% ·

圖7為根據實驗結果繪制的箱型圖.此圖更直觀地展示了仿真實驗結果的RMSE值的分布情況,如中位數、四分位數和異常值等.可以看到,圖7的結果與表3基本一致:時間注意力-E的中位數RMSE值最低且分布相對集中,表明在編碼器中添加時間注意力的效果最好,能夠顯著且穩定地降低模型的預測誤差.
進一步,本文通過假設檢驗比較了實驗結果之間的差異顯著性,鑒于時間序列不服從正態分布,本文采用非參數統計中的Mann-WhitneyU檢驗[21來進行分析并繪制熱力圖,結果如圖8所示,其中深藍色的區域表示p值小于顯著性水平,對應的兩組RMSE值有顯著性差異.可以看到,結果與表3和圖7中的結果同樣一致.


5 結論與展望
本文分析了不同注意力機制及融合方式對ED-LSTM模型預測性能的作用,得到了一個最佳的融合注意力機制與ED-LSTM模型的虛擬測量方法.仿真結果表明,在模型的編碼器上添加注意力機制能夠最大化地提高模型的預測效果.該方法有望大大提升核工程虛擬測量方法的精度和適應性.
對不同類型的核工程數據,特定的注意力機制可能發揮關鍵性作用.通過定制化設計,可能更好捕捉時序中的關鍵模式和變化,在虛擬測量任務中實現更高準確性和魯棒性.因此,在未來研究中可以考慮對添加在解碼器上的注意力機制進行定制和優化,探索更高效的注意力機制,有效減少信息冗余,增強模型對時序關鍵特征的聚焦能力.此外,將模型與其他先進神經網絡架構(如圖神經網絡或變換器)結合使用可能更有助于提高模型對復雜動態系統的預測適應性和精度.總之,未來的工作應致力于在保持模型復雜度可控的前提下提升其在實際應用中的效果.
參考文獻:
[1]Liu L,Kuo S M,Zhou M C.Virtual sensing techniques and their applications [C]// 2OO9 International Conference on Networking,Sensing and Control, Okayama,Japan.Piscataway: IEEE,2O09:31.
[2]Sriramalakshmi P,Subhasree V,Vondivillu S T,et al.Time series analysis and forecasting of wind turbine data [C]// Proceedings of the 2022 International Virtual Conference on Power Engineering Computing and Control: Developments in Electric Vehicles and Energy Sector for Sustainable Future (PECCON). Piscataway: IEEE, 2022:1.
[3]Hernandez-Matamoros A,Fujita H,Hayashi T,et al.Forecasting of COVID19 per regions using ARIMA models and polynomial functions [J]. Appl Soft Comput,2020,96:106610.
[4] Dash A,Ye J,WangG.A review of generative adversarial networks(GANs)and its applications in a wide variety of disciplines:From medical to remote sensing[J].IEEE Access,2023,12:18330.
[5] Kamalov F,RajabK,Cherukuri AK,et al.Deep learning for Covid-19 forecasting:State-of-the-art review [J].Neurocomputing,2022,511:142.
[6] Liu YL,Gu Y L. Spatiotemporal characteristics prediction of highway traffic flow based on CNNBiLSTM[J].Traffic Science and Economy,2022, 24:9.[劉永樂,谷遠利.基于CNN-BiLSTM的高 速公路交通流量時空特性預測[J].交通科技與經 濟,2022,24:9.]
[7] Gasparin A,Lukovic S,Alippi C. Deep learning for time series forecasting: The electric load case[J]. CAAI Transactions on Intelligence Technology,2022,7: 1.
[8] LiL,Zhang Y X,Yu Q Y.Review and prospect of virtual measurement technology for manufacturing processes[J].InfControl,2023(3),52(3):417. [李莉,張雅瑄,于青云.面向制造過程的虛擬量測 技術綜述與展望[J].信息與控制,2023,52 (3):417.]
[9] HiscoxBD,PopovEL,ArchibaldRK,et al.Artificial intellgence for multiphysics nuclear design optimization with additive manufacturing[R].Oak Ridge: Oak Ridge National Laboratory, 2021.
[10]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9:1735.
[11]:Sutskever I,Vinyals O,Le Q V. Sequence to sequence learning with neural networks [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems (NIPS). Montreal: MIT Press,2014:3104.
[12]ChoK,MerrienboerBV,GulcehreC,etal.Learningphrase representations using RNN encoderdecoder for statistical machine translation [C]// Conference on Empirical Methods in Natural Language Processing(EMNLP),Doha,Qatar. Stroudsburg:ACL,2014:1724.
[13]Liu JW,Liu JW,Luo X L. Research progress in attention mechanism in deep learning[J].Chinese Jour nal of Engineering,2021,43:1499.[劉建偉,劉俊 文,羅雄麟.深度學習中注意力機制研究進展[J]. 工程科學學報,2021,43:1499.]
[14]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and trans late[EB/OL].[2025-02-10] htps://arxiv.org/abs/ 1409.0473.
[15]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proceedings of the 3lst International Conference on Neural Information Processing Systems.Long Beach,California.New York: ACM,2017:6000.
[16]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE,1998,86:2278.
[17]Yang Z,Yang D,Dyer C,et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2Ol6 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego,California. Stroudsburg:ACL, 2O16:1480.
[18]IAEA. PCTRAN generic pressurized water reactor simulator exercise handbook [M].Vienna:IAEA, 2019.
[19]Huber PJ,Roncheti E M.Robust statistics[M]. Hoboken: John Wileyamp; Sons,2009.
[20]Wilcox R.Introduction to robust estimation and hy pothesis testing[M].Amsterdam:Elsevier,2017.
[21]Myles H,Douglas W A,Eric C.Nonparametric statistical methods[M].Hoboken:John Wileyamp;. Sons,2015.
(責任編輯:周興旺)