宋霄森 余 刃 毛 偉 殷少軒
(海軍工程大學 武漢 430033)
熱管冷卻核反應堆的設計理念最早于20 世紀60 年代提出,是通過將熱管和燃料棒交替排列,通過熱管非能動的將堆芯熱量傳遞給二回路的固態反應堆[1~2]。因其模塊化的設計思想、簡化的反應堆結構設計、良好的固有安全特性與瞬態響應特性等特點,迅速受到核科學家的關注[3]。
目前核動力裝置采用的功率控制技術仍然是以經典控制理論為基礎的傳統控制技術。建立在經典控制理論基礎上的PI(D)控制方法,因其易于設計和實現,并具有良好的魯棒性,是核動力裝置功率控制中常用的方法。但是傳統的PI(D)控制方法也存在一些缺點,如PI(D)控制器的參數一般是固定的且難以在線整定,難以在整個運行工況范圍內始終保持最優的控制效果。隨著計算機技術和控制理論的發展,在傳統的PI(D)控制方法的基礎上,研究設計了多種新型PI(D)控制方法,如模糊PI 控制[4~5]、自適應PI 控制[6]、神經網絡PI 控制[7]、變參數PID控制算法[8]等。這些新型PI(D)控制方法在一定程度上彌補了傳統PI(D)控制方法的不足。為實現熱管冷卻核反應堆在全工況范圍內的功率優化控制,本文研究了采用深度強化學習TD3(Twin delayed deep deterministic policy gradient)算法進行PID控制器參數尋優的方法。
假設堆內的中子分布不隨空間的變化而變化,堆內各處的中子密度分布是均勻的,采用點堆方程建立堆芯的中子動力學模型。將六組緩發中子點堆方程簡化為單組后得到的方程為式(1)所示[9]:
式中:nr為相對中子通量密度,即相對功率;β為緩發中子總份額;λ為衰變常數;l為快中子一代平均壽命;ρ為堆芯引入總反應性。
堆芯中的傳熱過程包括兩部分:1)燃料芯塊產熱,加熱自身并向氣隙傳熱;2)基體接收氣隙傳遞的熱量,加熱自身并向熱管傳熱。依據熱平衡原理,建立堆芯熱動力學模型如式(2)所示:
式中:Tf為燃料溫度;Tm為基體溫度;Tg_aν為布雷頓循環冷卻氣體平均溫度;Rg為熱管冷凝段與冷卻氣體間的傳熱熱阻;R?p為熱管總熱阻;單根燃料的穩態初始功率。
熱管冷卻核反應堆的反應性反饋主要考慮燃料和基體的多普勒效應以及燃料和基體的膨脹效應。忽略熱管內部的空泡效應產生的反應性反饋,以及反射層膨脹產生的反應性反饋。使用αf與αm分別表示燃料和基體的總反饋系數,它們均包含了多普勒效應和膨脹效應,反應性反饋方程如式(3)所示:
式中:ρr表示外部控制鼓轉動輸入的反應性,ρf表示燃料反饋的反應性,ρm表示基體反饋的反應性;Tf0表示燃料初始溫度,Tm0表示基體初始溫度。
熱管冷卻核反應堆在堆芯外圍布置有控制鼓,控制鼓可在0°~180°范圍內水平轉動,向反應堆引入反應性,控制反應堆功率變化??刂乒囊敕磻缘乃俾逝c控制鼓轉動的角速度及其控制鼓微分價值有關,控制鼓引入反應性的微分表達式為
式中:Gr為控制鼓微分價值,Wr為控制鼓轉動角速度。
結合上述式(1)~(4),得到堆芯熱動力學模型的方程組,如式(5)所示:
對式(5)采用微擾法進行線性處理后的系統表達式如式(6)所示:
通過狀態空間法來描述該模型如式(7)所示:
設狀態向量x、輸入向量u 和輸出向量y 分別:
狀態矩陣A、輸入矩陣B、輸出矩陣C 和前饋矩陣D分別為
PID 控制器由比例單元、積分單元、微分單元三部分組成,如式(8)所示[10],e(t)一般選取被控量與設定量的差值作為輸入信號。
熱管冷卻核反應堆的輸出值和需求值得偏差值作為PID 控制器的輸入,PID 控制器輸出控制鼓的轉動角速度,控制鼓轉動,從而實現反應堆功率的閉環控制,如圖1所示。

圖1 PID控制流程圖
PID 控制器的性能取決于KP、KI、KD 的選取。從所建立的熱管冷卻核反應堆堆芯模型可以看出,反應堆功率隨反應性變化的特性與反應堆所處的初始功率水平是密切相關的,采用一套固定的PID參數通常難以在整個運行工況范圍內始終保持最優的控制效果。
深度強化學習TD3 算法是基于Actor-Critic 框架來實現的,學習流程如圖2 所示。演員網絡和評論家網絡都是由兩部分組成:1)演員網絡分為Actor網絡μ(S|?μ)和Target Actor網絡μ'(S|?μ');2)評論家網絡由Critic網絡-1Q1(S,A|θQ1)、Critic網絡-2Q2(S,A|θQ2)、Target Critic 網絡-1Q1'(S,A|θQ1')和Target Critic 網絡-2Q2'(S,A|θQ2')組成[11~12]。其中,S為系統狀態向量、A 為動作向量。?μ、?μ'、θQ1、θQ2、θQ1'和θQ2'分別為上述六個神經網絡的參數值。基于TD3算法的強化學習步驟如下。

圖2 TD3算法學習流程圖
1)神經網絡參數初始化:首先分別初始化Actor 網絡、Critic 網絡-1 和Critic 網絡-2 的初值為μ?、Qθ1和Qθ2,參數值分別為?、θ1和θ2;然后對Target Actor 網絡、Target Critic 網絡-1 和Target Critic 網絡-2 三個神經網絡進行初始化,此時將參數?、θ1和θ2復制給?'、θ1' 和θ2',以完成Target Actor網絡和Target Critic網絡參數的初始化。
2)初始化動作-狀態經驗回放池(Replay Buffer),該回放池作為一個集合(S、A、R、S'、done)存放歷史信息。其中,經驗回放池的目的是為了消除強化學習前后動作的相關性,從訓練池中選取狀態可以加強對模型的訓練效果。
3)Critic 網絡-1 和Critic 網絡-2 更新:在訓練過程中,從Replay Buffer 選取一組數據為(S、A、R、S'、done),利用Target Actor 網絡計算出狀態S'下的動作如式(9)所示。
在迭代過程中,為了平滑策略期望值,對Target Actor 網絡中獲得的目標動作A'加上一個噪聲,如式(10)所示。
在TD3 算法中,由于采用基于雙Critic 神經網絡的思想,計算目標值時需要選取Target Critic 神經網絡中的最小值,如式(11)所示。
針對Critic 網絡-1 和Critic 網絡-2 的更新,利用Critic 網絡的評估值和Target Critic 的目標值之間的誤差Lci,基于梯度下降算法求取最小化誤差,此時可得到更新的Critic網絡參數,如式(12)所示。
4)Actor 網絡更新:Actor 網絡采取延遲更新策略,即當Critic 進行多次更新后,完成一次對Actor網絡的更新(常采用Critic 更新兩次,Actor 更新一次)?;诋斍盃顟BS 通過Actor網絡可得到狀態S對應的新動作A,如式(13)所示。通過Critic 網絡計算基于當前狀態及動作(S,Anew)的評估值qnew,如式(14)所示。采用梯度上升算法使得qnew最大化,從而完成對Actor 網絡的更新。在更新qnew值過程中,基于Actor網絡目標在于最大化累計期望價值,所以無需選取最小的評估值Q,即任意選取兩個Critic 網絡獲得的Q 值即可,此處選取了Critic 網絡-1。
5)Target Actor 和Target Critic 網絡更新:在網絡初始化時,通過復制Actor和Critic神經網絡的參數值進行Target Actor和Target Critic網絡參數的初始化。在訓練過程中,則通過軟更新的方法代替通過直接復制網絡參數進行目標網絡的更新。通過引入一定的學習率τ,通過將舊的Target Actor 和Target Critic 網絡參數和對應時刻Actor 和Critic 網絡參數進行加權平均,并將求解的值賦予Target Actor和Target Critic,如式(15)和(16)所示。
通過Simulink 中的強化學習(RL)模塊來完成對Actor 和Critic 網絡的搭建,Actor 和Critic 網絡均由輸入層、輸出層和一層全連接層構成,全連接層包含128 個神經元。在RL 神經網絡模塊外部還需要設計獎勵函數、終止函數、觀測器模塊。
獎勵函數模塊是Critic網絡根據當前狀態選取對應價值最大的動作,使得相對功率輸出可以跟蹤輸入的階躍信號變化,并且使得相對功率和階躍信號的偏差值盡可能的小或者為零,因此選取相對功率偏差值e(t)和控制鼓轉動角速度W(t-1)作為獎勵函數模塊的輸入,設計的獎勵函數如式(17)所示。
終止函數模塊是為了信號終止訓練,可以用來終止一段進展順利或者不順利的訓練過程。針對該模型基于在階躍信號下進行訓練,在Q值得以收斂的區域并具有較好的控制效果來決定訓練終止信號。
觀測器模塊是為了選取系統模型合適的狀態輸入到Actor網絡中。為了使TD3算法模型訓練結束后可以輸出PID 控制器的三個最優控制參數KP、KI、KD,系統選取相對功率偏差值e的比例、積分、微分三個值作為觀測狀態向量輸入到Actor 網絡中,Actor 網絡執行的動作輸出為控制鼓的轉動角速度,并將其作為堆芯模型的輸入,由此構建了可以替代PID 控制器的具有觀測誤差、誤差積分、誤差微分的全連接層Actor神經網絡。神經網絡的權重值則為PID控制器的控制參數KP、KI、KD。
以熱管冷卻核反應堆在相對功率從0.4階躍到0.5 的運行工況為例,對比通過試湊法選取的PID控制參數和基于TD3進行PID參數尋優后的PID控制器控制效果。
圖3是通過試湊法選取PID控制參數的控制效果,仿真總時間為t=100s,在相對功率從0.4 階躍到0.5過程中,控制器使反應堆功率在28s后重新到達穩態,上升時間為5s,達到峰值時間為10s,超調的持續時間為23s,超調量為3.8%。

圖3 基于試湊法選取的PID參數的控制效果圖
圖4 是基于TD3 算法的控制參數尋優的模型訓練圖,相對功率從0.4 階躍到0.5 運行工況下,模型訓練了將近325 個時間步后停止,此時基于每一步動作的價值和平均價值以及Q0均完成收斂,表明針對0.4~0.5 階躍工況的模型訓練完成。如圖5所示,為通過參數尋優后的PID 控制器控制效果,仿真時間共計200s,在相對功率從0.4階躍到0.5過程中,采用參數尋優設計的PID 控制器使反應堆系統在22s 后重新到達穩態,系統上升時間為2s,達到峰值時間為4s,產生超調的時間為20s,超調量為0.93%。

圖4 基于TD3算法在0.4~0.5階躍工況下的模型訓練圖

圖5 基于TD3參數尋優的控制效果圖
為驗證通過參數尋優設計的PID 控制器具有全工況最優控制,本文對熱管冷卻核反應堆的四種不同運行工況進行了PID 參數尋優,并和基于試湊法選取的在滿功率運行工況下具有較好控制效果的傳統PID 控制器的控制效果作對比,控制效果對比如表1所示。

表1 控制效果對比表
由表1 可知,基于參數尋優設計的PID 控制器相較于傳統PID 控制器,在相同運行工況下具有更優秀的控制效果,且在全工況范圍內均可實現優化控制。
本文針對熱管冷卻核反應堆的功率控制設計PID 控制器,并提出了一種基于TD3 算法的PID 參數尋優控制。由仿真結果可知,基于TD3參數尋優設計的PID 控制器具有更快的響應速度,更小的超調量。該算法可以有效避免通過試湊法選取PID控制參數存在的偶然性,實現熱管冷卻核反應堆全工況運行范圍內的優化控制。