999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的濃密機(jī)底流濃度在線控制算法

2021-08-28 04:55:38袁兆麟何潤姿姚超李佳班曉娟
自動(dòng)化學(xué)報(bào) 2021年7期
關(guān)鍵詞:實(shí)驗(yàn)評價(jià)模型

袁兆麟 何潤姿 姚超 李佳 班曉娟

在現(xiàn)代復(fù)雜過程工業(yè)生產(chǎn)中,對控制性能指標(biāo)進(jìn)行優(yōu)化是不同控制算法、控制系統(tǒng)的首要任務(wù).在冶金、采礦領(lǐng)域等復(fù)雜過程工業(yè)場景下,濃密機(jī)是一種被廣泛應(yīng)用的大型沉降工具,它通過重力沉降作用可以將低濃度的固液混合物進(jìn)行濃縮形成高濃度的混合物,起到減水、濃縮的作用.在對濃密機(jī)進(jìn)行控制時(shí),底流濃度是核心控制指標(biāo).該參量與其他過程監(jiān)控變量如進(jìn)料流量、進(jìn)料濃度、出料流量、泥層高度有著復(fù)雜的耦合關(guān)系.在大部分的實(shí)際生產(chǎn)過程中,濃密機(jī)底流濃度的控制一般是操作員根據(jù)個(gè)人經(jīng)驗(yàn),通過對底流流量設(shè)定值、絮凝劑流量設(shè)定值進(jìn)行調(diào)節(jié),間接地使底流濃度追蹤其工藝設(shè)定值.但是由于濃密機(jī)運(yùn)行過程具有非線性、多變量、高時(shí)滯等特點(diǎn),操作員難以維持底流濃度持續(xù)穩(wěn)定,濃度存在偏差的底流會導(dǎo)致產(chǎn)品質(zhì)量退化以及增加工業(yè)生產(chǎn)成本.

濃密機(jī)是一種典型的復(fù)雜過程工業(yè)設(shè)備,關(guān)于過程工業(yè)設(shè)備優(yōu)化控制的研究一直是工業(yè)界、學(xué)術(shù)界研究的熱點(diǎn)問題.對于機(jī)械結(jié)構(gòu)明確、且能夠精確建立動(dòng)態(tài)模型的工業(yè)設(shè)備,可以采用基于模型的優(yōu)化控制方法,如:實(shí)時(shí)優(yōu)化控制(Realtime optimization,RTO)[1]、模型預(yù)測控制(Model predictive control,MPC)[2]等.但由于濃密機(jī)系統(tǒng)機(jī)械結(jié)構(gòu)復(fù)雜、部分變量難以觀測,因此難以建立準(zhǔn)確的數(shù)學(xué)模型近似其運(yùn)轉(zhuǎn)機(jī)理,導(dǎo)致基于模型的方法無法適用于此類復(fù)雜工業(yè)設(shè)備的控制.研究人員提出了基于數(shù)據(jù)驅(qū)動(dòng)的控制方法來實(shí)現(xiàn)對此類無模型工業(yè)設(shè)備的控制.Dai 等[3]提出了用于解決赤鐵礦研磨系統(tǒng)控制問題的數(shù)據(jù)驅(qū)動(dòng)優(yōu)化(Date driven opimization,DDO)控制算法.Wang 等[4]采用基于數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)評價(jià)方法解決連續(xù)時(shí)間未知非線性系統(tǒng)的無窮范圍魯棒最優(yōu)控制問題.

近年來,基于強(qiáng)化學(xué)習(xí)[5?6]理論的最優(yōu)控制技術(shù),也稱為自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive dynamic programming,ADP)[7?9]技術(shù),是控制領(lǐng)域的研究熱點(diǎn)話題.典型的自適應(yīng)動(dòng)態(tài)規(guī)劃算法,如HDP、雙啟發(fā)式動(dòng)態(tài)規(guī)劃(Dual heuristic programming,DHP)、動(dòng)作依賴啟發(fā)式動(dòng)態(tài)規(guī)劃(Action dependent heuristic dynamic programming,ADHDP)[8]等均采用多個(gè)神經(jīng)網(wǎng)絡(luò)分別對被控系統(tǒng)動(dòng)態(tài)模型、控制策略、策略評價(jià)模型進(jìn)行建模.此類方法可以在模型未知的情況下以數(shù)據(jù)驅(qū)動(dòng)的方式在線學(xué)習(xí)控制策略.Liu 等[10]提出了一種在線自適應(yīng)動(dòng)態(tài)規(guī)劃算法用來解決離散時(shí)間多輸入多輸出仿射系統(tǒng)控制問題,且該方法僅需要訓(xùn)練少量網(wǎng)絡(luò)參數(shù).Liu 等[11]采用一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)跟蹤控制技術(shù)解決多輸入多輸出系統(tǒng)容錯(cuò)控制問題.Xu 等[12]采用拉普拉斯特征映射算法提取被控系統(tǒng)全局特征,并將該全局特征用于DHP 算法中以增強(qiáng)值函數(shù)網(wǎng)絡(luò)的近似能力.

近年來,利用自適應(yīng)動(dòng)態(tài)規(guī)劃方法解決過程工業(yè)控制問題也取得很大研究進(jìn)展.Wei 等[13]將煤炭氣化過程的最優(yōu)追蹤控制轉(zhuǎn)化為雙人零和最優(yōu)控制問題,并采用迭代自適應(yīng)動(dòng)態(tài)規(guī)劃方法求解最優(yōu)控制率,同時(shí)給出了收斂穩(wěn)定性的分析.Jiang 等[14]利用穿插學(xué)習(xí)策略迭代(Interleaved learning policy iteration,ILPL)實(shí)現(xiàn)了對浮選過程操作指標(biāo)優(yōu)化的控制,獲得了比傳統(tǒng)值函數(shù)迭代(Value iteration,VI)、策略迭代(Policy iteration,PI)算法更佳的控制效果.Jiang 等[15]將強(qiáng)化學(xué)習(xí)與舉升方法結(jié)合(Lifting technology),實(shí)現(xiàn)了對浮選過程設(shè)備層與操作層雙速率系統(tǒng)的最優(yōu)控制.

上述算法均使用被控系統(tǒng)實(shí)時(shí)生成的數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,該訓(xùn)練方法忽略了系統(tǒng)在短期內(nèi)產(chǎn)生的歷史軌跡數(shù)據(jù)對模型學(xué)習(xí)的影響.同時(shí),在工業(yè)場景下進(jìn)行設(shè)備在線控制對算法實(shí)時(shí)性要求較高.上述方法對于控制量的計(jì)算均依托于表征控制策略的神經(jīng)網(wǎng)絡(luò),而對于控制網(wǎng)絡(luò)或動(dòng)作網(wǎng)絡(luò)的訓(xùn)練將產(chǎn)生較大的時(shí)間開銷.為了解決上述問題,本文引入了短期經(jīng)驗(yàn)回放技術(shù)[16?17]以對短期內(nèi)的系統(tǒng)運(yùn)行軌跡數(shù)據(jù)進(jìn)行回放訓(xùn)練.實(shí)驗(yàn)證明該技術(shù)有效增強(qiáng)了算法收斂穩(wěn)定性,且在其他ADP 類在線控制算法中具有通用性.同時(shí)本文根據(jù)濃密機(jī)系統(tǒng)特性提出了一種迭代梯度優(yōu)化算法,該算法可以在沒有動(dòng)作網(wǎng)絡(luò)的情況下求解控制輸入量.實(shí)驗(yàn)表明該方法能夠在提升控制精度的同時(shí),減少模型學(xué)習(xí)過程中產(chǎn)生的時(shí)間消耗.

本文主要貢獻(xiàn)總結(jié)如下:

1)提出了一種基于ADP 算法架構(gòu)的啟發(fā)式評價(jià)網(wǎng)絡(luò)值迭代算法(Heuristic critic network value iteration,HCNVI).該算法僅通過評價(jià)網(wǎng)絡(luò)、模型網(wǎng)絡(luò)和梯度優(yōu)化算法即可求解系統(tǒng)最優(yōu)控制輸入.

2)提出了一種適用于評價(jià)網(wǎng)絡(luò)訓(xùn)練的短期經(jīng)驗(yàn)回放技術(shù).訓(xùn)練評價(jià)網(wǎng)絡(luò)時(shí),將短期內(nèi)系統(tǒng)運(yùn)行軌跡數(shù)據(jù)共同用于模型訓(xùn)練,該方法可以有效增強(qiáng)評價(jià)網(wǎng)絡(luò)收斂速度.

3)通過濃密機(jī)仿真實(shí)驗(yàn)驗(yàn)證了HCNVI 算法的有效性.實(shí)驗(yàn)結(jié)果表明本文提出方法在時(shí)間消耗、控制精度上均優(yōu)于其他對比方法.

本文正文部分組織如下:第1 節(jié),對濃密機(jī)沉降過程進(jìn)行形式化描述.第2 節(jié),HCNVI 算法介紹以及利用該算法實(shí)現(xiàn)濃密機(jī)在線控制.第3 節(jié),通過兩組仿真實(shí)驗(yàn)驗(yàn)證本文提出控制模型的有效性.第4 節(jié)對本文研究工作進(jìn)行總結(jié).

1 濃密過程控制問題描述

濃密機(jī)在采礦、冶金領(lǐng)域是重要的沉降分離設(shè)備,其運(yùn)行過程如圖1 所示.低濃度的料漿源源不斷地流入濃密機(jī)頂部進(jìn)料口.利用沙粒的密度大于水的特性以及絮凝劑的絮凝作用,料漿中沙粒不斷沉降,并在濃密機(jī)底部形成高濃度的底流料漿.高濃度的底流料漿多以管道輸送的形式流至其他工業(yè)設(shè)備進(jìn)行后續(xù)加工處理.

圖1 濃密過程示意圖Fig.1 Illustration of thickening process.

對于濃密沉降控制過程的性能進(jìn)行評價(jià),其核心控制指標(biāo)為底流濃度y.該因素受控制輸入、系統(tǒng)狀態(tài)參量、及其他外部噪音擾動(dòng)影響.控制輸入包括底流泵轉(zhuǎn)速u1(k) 以及絮凝劑泵轉(zhuǎn)速u2(k),系統(tǒng)狀態(tài)參量為泥層高度h(k),外部噪音輸入為進(jìn)料流量c1(k)、進(jìn)料濃度c2(k). 由于在部分工業(yè)場景中,上游工序產(chǎn)生的物料濃度、物料流量是不可控的.為了使提出的濃密機(jī)控制模型具有通用性,因此本文將進(jìn)料狀態(tài)作為噪音輸入量.濃密機(jī)進(jìn)料顆粒大小,進(jìn)料成分都會對濃密機(jī)底流濃度產(chǎn)生影響.不過由于此類變量無法觀測且波動(dòng)較小,為了簡化問題,本文假定其保持恒定.根據(jù)上述定義,其中u(k)[u1(k),u2(k)]T∈R2為可控制輸入量,c(k)[c1(k),c2(k)]T∈R2為不可控但是可觀測的噪音量,h(k)∈R為系統(tǒng)狀態(tài)量,該參量是表征當(dāng)前濃密機(jī)狀態(tài)的重要參量,它可被間接控制但不作為控制目標(biāo).因此,濃密機(jī)系統(tǒng)可表述為式(1)形式的非線性系統(tǒng),其中f(·) 為未知非線性函數(shù).

本文提出的濃密機(jī)底流濃度控制算法,可以根據(jù)當(dāng)前底流濃度y(k)、泥層高度h(k)、進(jìn)料流量c1(k)、進(jìn)料濃度c2(k) 幾個(gè)狀態(tài)量,自動(dòng)地調(diào)節(jié)底流泵速u1(k) 和絮凝劑泵速u2(k) ,使底流濃度y(·) 追蹤其設(shè)定值y?.

2 利用HCNVI 算法實(shí)現(xiàn)濃密機(jī)底流濃度在線控制

當(dāng)前,工業(yè)場景下控制濃密機(jī)的方法主要依靠操作員手工控制.操作員根據(jù)生產(chǎn)經(jīng)驗(yàn)給出絮凝劑添加量的設(shè)定值 (m3/h) 以及底流流量設(shè)定值(m3/h),濃密機(jī)內(nèi)相配套的回路控制系統(tǒng)會根據(jù)設(shè)定值的大小自動(dòng)調(diào)節(jié)絮凝劑泵速 (Hz) 與底流泵速 (Hz),使絮凝劑的實(shí)時(shí)流量、底流實(shí)時(shí)流量追蹤操作員給出的設(shè)定值.然而,由于濃密機(jī)系統(tǒng)的復(fù)雜性,操作員難以實(shí)時(shí)、完整地掌握系統(tǒng)運(yùn)行參數(shù),因此無法及時(shí)、準(zhǔn)確地設(shè)定目標(biāo)點(diǎn)位.這導(dǎo)致在實(shí)際生產(chǎn)過程中,濃密機(jī)常常處于非最優(yōu)工作狀態(tài),底流濃度大范圍頻繁波動(dòng),偏離理想的底流濃度.

對于濃密過程式(1),控制系統(tǒng)的首要目標(biāo)是使底流濃度y(k) ,追蹤其設(shè)定值y?(k) .另外,為了保證系統(tǒng)運(yùn)行安全與儀器壽命,控制輸入必須滿足一定的限制條件.綜合上述指標(biāo)因素,可以將濃密機(jī)控制問題轉(zhuǎn)化為有約束的最優(yōu)化問題式(2).

J(k)為折扣累計(jì)評價(jià)值函數(shù),用來評估控制策略的好壞.式(3)是效用函數(shù),代表在當(dāng)前狀態(tài)y(k)下,執(zhí)行控制輸入u(k) 需要承受的代價(jià).γ ∈(0,1]是折扣因子,代表系統(tǒng)短期控制過程中產(chǎn)生的懲罰值在累計(jì)懲罰項(xiàng)所占比重.Q>0,R是對稱正定矩陣,分別代表對ui(k) 的限制,umid

2.1 理論最優(yōu)控制模型

本節(jié)根據(jù)對式(2)的定義,求解理想情況下最優(yōu)控制輸入u?(k) .

式(2)可以表示為式(4)貝爾曼方程的形式:

根據(jù)貝爾曼最優(yōu)原則,第k時(shí)刻的最優(yōu)評價(jià)值函數(shù)J?(k) 滿足離散哈密頓?雅可比?貝爾曼方程

第k時(shí)刻,最優(yōu)的控制輸入u?(k) 可以表示為

由于式(1)中f(·) 是復(fù)雜非線性函數(shù),無法直接對式(5)進(jìn)行求解,但可以利用算法1 以值函數(shù)迭代的方式求解最優(yōu)值函數(shù)和最優(yōu)控制律,其中x(k)用于表征系統(tǒng)狀態(tài),x(k)[y(k),h(k),c(k)T]T.根據(jù)文獻(xiàn)[18],可以證明當(dāng)i →∞時(shí),值函數(shù)V i →J?,控制律u i →u?.

算法 1.值迭代算法

初始化:隨機(jī)定義V0(·)

2.2 啟發(fā)式評價(jià)網(wǎng)絡(luò)值迭代算法

本節(jié)將基于算法1,提出一種啟發(fā)式評價(jià)網(wǎng)絡(luò)值迭代算法.該算法能根據(jù)濃密機(jī)系統(tǒng)產(chǎn)生的實(shí)時(shí)監(jiān)測數(shù)據(jù)x(k) 進(jìn)行在線學(xué)習(xí),并產(chǎn)生滿足 ?u約束的控制輸入量u(k),且最小化J(k) .算法整體結(jié)構(gòu)如圖2 所示.HCNVI 算法中包含兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是模型網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò).神經(jīng)網(wǎng)絡(luò)均采用單隱層人工神經(jīng)網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖3 所示.模型網(wǎng)絡(luò)的訓(xùn)練全部離線進(jìn)行,在控制任務(wù)開始后,將不再對模型網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整.控制動(dòng)作決策算法根據(jù)濃密機(jī)實(shí)時(shí)反饋狀態(tài)x(k) 計(jì)算控制變量u(k) 并用于濃密機(jī)系統(tǒng)控制,u(k),x(k) 被放入短期經(jīng)驗(yàn)數(shù)據(jù)暫存區(qū)存儲.模型訓(xùn)練時(shí),由短期經(jīng)驗(yàn)暫存區(qū)提供訓(xùn)練數(shù)據(jù)供模型訓(xùn)練.算法學(xué)習(xí)過程中,僅評價(jià)網(wǎng)絡(luò)參數(shù)發(fā)生改變.

圖2 HCNVI 算法結(jié)構(gòu)示意圖Fig.2 Structure diagram of algorithm HCNVI

評價(jià)網(wǎng)絡(luò).HCNVI 采用一個(gè)稱為評價(jià)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)來近似算法1 中的V(·) 函數(shù).神經(jīng)網(wǎng)絡(luò)選擇單隱層人工神經(jīng)網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖3 所示.評價(jià)網(wǎng)絡(luò)的具體定義如下:

tanh(x)是網(wǎng)絡(luò)的激活函數(shù),網(wǎng)絡(luò)輸入層包含4 個(gè)節(jié)點(diǎn),隱層包含14 個(gè)節(jié)點(diǎn),輸出層1個(gè)節(jié)點(diǎn),Wc1和Wc2內(nèi)參數(shù)均初始化為 ?1 ~1 之間的隨機(jī)數(shù).該模型采用由濃密機(jī)控制過程中產(chǎn)生的在線數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練.為了保證算法更新的實(shí)時(shí)性,本文采用單步時(shí)序差分誤差(Temporal difference error,TD error)[5]計(jì)算評價(jià)網(wǎng)絡(luò)估計(jì)誤差值,見式(10).

網(wǎng)絡(luò)損失函數(shù)為Ec(k).通過極小化該目標(biāo)函數(shù),可以使評價(jià)網(wǎng)絡(luò)根據(jù)被控系統(tǒng)反饋的狀態(tài)信號及效用值信號,增量式地逼近對于當(dāng)前控制策略的評價(jià)函數(shù).使用鏈?zhǔn)椒▌t可以計(jì)算損失值E c(k)對網(wǎng)絡(luò)參數(shù)的梯度:

采用梯度下降算法對評價(jià)網(wǎng)絡(luò)進(jìn)行訓(xùn)練更新:

l c是學(xué)習(xí)率,由于濃密機(jī)所處環(huán)境的外界噪音是不斷波動(dòng)的,當(dāng)外界噪音c(k) 改變時(shí),網(wǎng)絡(luò)需要根據(jù)訓(xùn)練數(shù)據(jù)快速收斂,l c需設(shè)定為固定值以保持學(xué)習(xí)能力.

由于不同物理量的取值差異很大,這會導(dǎo)致網(wǎng)絡(luò)無法有效學(xué)習(xí)并且造成超參數(shù)設(shè)定困難.因此本文采用濃密機(jī)系統(tǒng)產(chǎn)生的離線數(shù)據(jù)中各參量的極值對所有訓(xùn)練數(shù)據(jù)利用式(13)進(jìn)行歸一化放縮.

模型網(wǎng)絡(luò).建立模型網(wǎng)絡(luò)用來對系統(tǒng)動(dòng)態(tài)進(jìn)行建模,根據(jù)當(dāng)前系統(tǒng)狀態(tài)、外部噪音量、控制輸入、預(yù)測下一時(shí)刻底流濃度和泥層高度變化.網(wǎng)絡(luò)結(jié)構(gòu)仍采用單隱層神經(jīng)網(wǎng)絡(luò),如圖3 所示.模型網(wǎng)絡(luò)具體定義如下:

其中,?(k)[xT(k),uT(k)]T,網(wǎng)絡(luò)輸入層包含6 個(gè)節(jié)點(diǎn),隱層包含20 個(gè)節(jié)點(diǎn),輸出層2 個(gè)節(jié)點(diǎn),W m1和Wm2內(nèi)各個(gè)參數(shù)均初始化為 ?1 ~1 之間的隨機(jī)數(shù).通過梯度下降方法訓(xùn)練模型網(wǎng)絡(luò):

損失函數(shù)Em(k) 定義為:

對于模型網(wǎng)絡(luò),同樣采用式(13)對訓(xùn)練數(shù)據(jù)進(jìn)行放縮.模型網(wǎng)絡(luò)的訓(xùn)練全部離線進(jìn)行,在控制任務(wù)開始后,將不再對模型網(wǎng)絡(luò)進(jìn)行調(diào)整.

2.3 動(dòng)作生成

大部分的ADP 類算法都是通過建立一個(gè)動(dòng)作網(wǎng)絡(luò)來計(jì)算控制輸入,并利用評價(jià)網(wǎng)絡(luò)輸出值更新動(dòng)作網(wǎng)絡(luò)的參數(shù).HCNVI 方法以HDP 算法架構(gòu)為基礎(chǔ),去掉了動(dòng)作網(wǎng)絡(luò),直接利用評價(jià)網(wǎng)絡(luò)和模型網(wǎng)絡(luò)計(jì)算控制動(dòng)作.該方法可以在環(huán)境噪音改變時(shí),使被控系統(tǒng)更快速地收斂,并且減少內(nèi)存占用以及削減訓(xùn)練時(shí)間的消耗.

利用評價(jià)網(wǎng)絡(luò)和模型網(wǎng)絡(luò)計(jì)算控制動(dòng)作u(k)的過程如算法2 所示.式(19)中在估計(jì)k+1時(shí)刻的折扣累計(jì)懲罰時(shí),下一時(shí)刻濃密機(jī)系統(tǒng)所處外界噪音是未知的.不過由于真實(shí)工業(yè)環(huán)境下進(jìn)料噪音都是連續(xù)變化的,很少出現(xiàn)突變,因此本模型用當(dāng)前時(shí)刻噪音c(k) 來充當(dāng)下一時(shí)刻噪音c(k+1) .

算法 2.利用迭代梯度下降算法計(jì)算控制動(dòng)作

輸入:第k時(shí)刻系統(tǒng)狀態(tài)y(k),h(k),c(k)

輸出:第k時(shí)刻的控制動(dòng)作輸出u(k)

圖4 迭代梯度下降過程可視化Fig.4 Visualize the process of iterative gradient decline

2.4 短期經(jīng)驗(yàn)回放

為了增加評價(jià)網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確性和收斂速度,本文進(jìn)一步提出短期經(jīng)驗(yàn)回放方法優(yōu)化網(wǎng)絡(luò)訓(xùn)練損失函數(shù),并計(jì)算優(yōu)化梯度.短期經(jīng)驗(yàn)回放方法將式(10)的誤差值計(jì)算方法修改為

通過存儲短期內(nèi)被控系統(tǒng)的運(yùn)行軌跡數(shù)據(jù),在訓(xùn)練過程中,短期軌跡數(shù)據(jù)可以用來共同計(jì)算評價(jià)網(wǎng)絡(luò)的損失值以及優(yōu)化梯度方向.

HDP、DHP 以及本文提出的HCNVI 算法都是面向狀態(tài)值函數(shù)進(jìn)行建模的在線控制算法,其策略模塊的更新都是以模型網(wǎng)絡(luò)作為媒介,計(jì)算評價(jià)網(wǎng)絡(luò)輸出值對于控制輸入u(k) 的梯度,并在此梯度基礎(chǔ)上更新動(dòng)作網(wǎng)絡(luò)或者利用算法2 優(yōu)化u(k) .因此對于u(k) 梯度估計(jì)的準(zhǔn)確性極大地影響了策略模塊的更新效果,進(jìn)而影響整個(gè)控制系統(tǒng)的控制效果與收斂速度.u(k) 的梯度表達(dá)式為式(25)

對于濃密機(jī)等大型過程工業(yè)設(shè)備來說,系統(tǒng)的運(yùn)行過程緩慢,短時(shí)間內(nèi)系統(tǒng)狀態(tài)不會發(fā)生劇烈改變,即x(k)≈x(k+1),且評價(jià)網(wǎng)絡(luò)具有連續(xù)可微的性質(zhì).因此可以近似認(rèn)為λ(k)≈λ(k+1) .同樣,由于系統(tǒng)的運(yùn)行過程緩慢會導(dǎo)致提供給控制模型學(xué)習(xí)的訓(xùn)練數(shù)據(jù)中系統(tǒng)狀態(tài)參量分布非常集中,可以近似認(rèn)為式(26)成立.

該式表明短期內(nèi)系統(tǒng)狀態(tài)點(diǎn)x(k ?t) 都在以x(k)為中心,δ為半徑的領(lǐng)域內(nèi).通過式(24)將短期L條數(shù)據(jù)共同用于評價(jià)網(wǎng)絡(luò)訓(xùn)練,可以使評價(jià)網(wǎng)絡(luò)在x(k) 的鄰域內(nèi)學(xué)習(xí)地更佳充分,進(jìn)而更準(zhǔn)確地估計(jì)λ(k) .

為了更直觀地展示增加短期經(jīng)驗(yàn)回放對評價(jià)網(wǎng)絡(luò)學(xué)習(xí)過程的影響,本文對第3.1 節(jié)實(shí)驗(yàn)1 中的評價(jià)網(wǎng)絡(luò)進(jìn)行了可視化,實(shí)驗(yàn)結(jié)果如圖5 所示.該實(shí)驗(yàn)中采用等高線圖對評價(jià)網(wǎng)絡(luò)的輸出值進(jìn)行展示,其中圖5(a)代表不使用經(jīng)驗(yàn)回放,利用式(10)訓(xùn)練網(wǎng)絡(luò),圖5(b)代表使用短期經(jīng)驗(yàn)回放,回放數(shù)據(jù)點(diǎn)數(shù)L為2,利用式(24)訓(xùn)練網(wǎng)絡(luò).對于兩種算法,分別繪制了連續(xù)四次迭代中,評價(jià)網(wǎng)絡(luò)在更新后對不同泥層高度h(·) 和底流濃度y(·) 的評價(jià)值.圖中橫縱坐標(biāo)分別代表被歸一化后的泥層高度和底流濃度.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn).在圖5(a)中評價(jià)網(wǎng)絡(luò)的輸出值在不同輸入下基本趨同.且在當(dāng)前時(shí)刻系統(tǒng)狀態(tài)點(diǎn)附近,網(wǎng)絡(luò)輸出值的梯度很小.說明單數(shù)據(jù)點(diǎn)更新會造成評價(jià)網(wǎng)絡(luò)很快地遺忘歷史數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)輸出值整體漂移,難以穩(wěn)定地學(xué)習(xí)到正確的局部梯度.在圖5(b)中,當(dāng)前系統(tǒng)狀態(tài) (h(k),y(k)) 所處臨域內(nèi),網(wǎng)絡(luò)輸出值具有較大差異,局部梯度值可以被較好地保持.準(zhǔn)確的梯度λ(k) 可以提高?u(k)估計(jì)的精確度,因此對短期數(shù)據(jù)進(jìn)行回放訓(xùn)練可以更好地指導(dǎo)控制策略輸出更優(yōu)控制動(dòng)作,促使評價(jià)網(wǎng)絡(luò)和被控系統(tǒng)快速收斂.同時(shí),當(dāng)經(jīng)驗(yàn)回放數(shù)據(jù)量式(24)中L的過大,會導(dǎo)致性能的退化.其原因在于本文提出的方法是同策略(On-policy)強(qiáng)化學(xué)習(xí)方法,而時(shí)間相差較遠(yuǎn)的歷史數(shù)據(jù)點(diǎn)不能表征由當(dāng)前控制策略產(chǎn)生的控制軌跡,因此評價(jià)網(wǎng)絡(luò)會學(xué)習(xí)到錯(cuò)誤的評價(jià)值.另外,L過大將不再滿足性質(zhì)式(26),過多的歷史數(shù)據(jù)回放將不再有助于評價(jià)網(wǎng)絡(luò)學(xué)習(xí)x(k) 處的梯度值λ(k),進(jìn)而不會提高對?u(k)估計(jì)的精確度.通過實(shí)驗(yàn)觀察,一般將L限定在 5 以內(nèi),本文也將這種經(jīng)驗(yàn)回放方法稱為短期經(jīng)驗(yàn)回放.

圖5 短期經(jīng)驗(yàn)回放對評價(jià)網(wǎng)絡(luò)的輸出值的影響Fig.5 The effect of short-term experience replay on critic network

將HCNVI 算法用于濃密機(jī)控制的具體流程如算法3 所示.

算法 3.利用HCNVI 算法實(shí)現(xiàn)濃密機(jī)在線控制

3 濃密機(jī)仿真實(shí)驗(yàn)

濃密機(jī)仿真模型.由于在真實(shí)工業(yè)場景下進(jìn)行濃密機(jī)控制實(shí)驗(yàn)成本較高,本節(jié)采用濃密機(jī)仿真模型驗(yàn)證本文提出控制算法的有效性,模型構(gòu)建方法參考了文獻(xiàn)[19?24].該仿真模型建立在如下假設(shè)基礎(chǔ)上:

1)進(jìn)料都是球形顆粒.

2)絮凝劑在濃密機(jī)的靜態(tài)混合器中作用完全.

3)流體的擴(kuò)散以固液混合物形式進(jìn)行.

4)忽略顆粒間相互作用、濃密機(jī)中把機(jī)中軸的影響.

模型推導(dǎo)過程中出現(xiàn)的變量如表1~表3所示

表1 參量定義Table 1 Variables definition

表2 仿真模型常量Table 2 Definitions for constant variables

表3 部分變量計(jì)算方法Table 3 Definitions for part intermediate variables

由文獻(xiàn)[23],可得泥層高度與泥層液固質(zhì)量比之間的關(guān)系.

根據(jù)固體守恒定律,泥層內(nèi)固體質(zhì)量變化量等于由進(jìn)料導(dǎo)致泥層內(nèi)固體量增加量與底流導(dǎo)致泥層內(nèi)固體減少量的差.因此可以建立泥層內(nèi)平均單位體積含固量與粒子沉降速度的關(guān)系.

對式(28)做變形可得式(29):

聯(lián)立式(29),式(27),可得泥層高度h(t) 與底流濃度cu(t) 的一階變化率

在該仿真模型中,絮凝劑泵速f f和底流泵速f u是控制輸入u[f u,f f]T,進(jìn)料泵速f i和進(jìn)料濃度c i是外部干擾量c[f i,c i]T,底流濃度c u為控制系統(tǒng)追蹤變量yc u. 理想的控制系統(tǒng)能夠在外界干擾量c不斷波動(dòng)下,通過在合理范圍內(nèi)調(diào)節(jié)u,驅(qū)使y追蹤其設(shè)定值y?. 根據(jù)真實(shí)生產(chǎn)情況對部分變量做如下定義:umin[40,30]T,umax[120,50]T,ymin280,ymax1200,cmin[40,30]T,cmax[120,50]T,y?680.接下來本節(jié)將基于濃密機(jī)仿真模型式(30)、式(31),分別進(jìn)行兩組實(shí)驗(yàn)驗(yàn)證在兩種類型噪音量c(k) 輸入下HCNVI 模型的控制效果,并與其他算法進(jìn)行比較.

3.1 實(shí)驗(yàn)1:恒定 ? 階躍型噪音輸入下濃密機(jī)控制仿真實(shí)驗(yàn)

第一組實(shí)驗(yàn)中設(shè)置干擾量輸入c為恒定值,并在某一時(shí)刻為其增加階躍突變,噪音輸入量如圖6所示.該實(shí)驗(yàn)用來驗(yàn)證控制模型能否在濃密機(jī)外在環(huán)境發(fā)生大幅度變化下,快速尋找到u?,使被控模型達(dá)到理想收斂穩(wěn)態(tài).

圖6 噪音量變化曲線Fig.6 Noise input in the simulation experiment

使用本文提出的HCNVI 算法與HDP、DHP、ILPL 算法進(jìn)行對比實(shí)驗(yàn).仿真實(shí)驗(yàn)參數(shù)如下:迭代輪次T270,仿真步長T d120 s,Q0.004,γ0.6,N a4 000,N c500,?c0.001,?a0.0001,l m0.01,l c0.01,l a0.009,l u0.4,L c2,L m[0.01,3].其中HDP、DHP 算法也使用短期經(jīng)驗(yàn)回放,回放點(diǎn)數(shù)L為2.實(shí)驗(yàn)中HDP、ILPL、HCNVI 的評價(jià)網(wǎng)絡(luò)結(jié)構(gòu)相同,且網(wǎng)絡(luò)參數(shù)初始化為相同數(shù)值.實(shí)驗(yàn)結(jié)果如圖7 所示.

圖7 HCNVI 與其他ADP 算法在恒定噪音輸入下的對比Fig.7 HCNVI versu other ADP algorithms under stable noisy input

根據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),對于不同控制算法,由于網(wǎng)絡(luò)參數(shù)初始值均為隨機(jī)設(shè)定值,訓(xùn)練初期底流濃度有較大幅度的波動(dòng),且在設(shè)定值兩側(cè)持續(xù)震蕩.隨著各個(gè)控制模型的學(xué)習(xí),系統(tǒng)狀態(tài)與網(wǎng)絡(luò)參數(shù)不斷趨于平穩(wěn),直到某一時(shí)刻底流濃度開始穩(wěn)定并與設(shè)定值重合且不再產(chǎn)生波動(dòng),此時(shí)控制模型參數(shù)也不再發(fā)生變化,被控系統(tǒng)和控制模型同時(shí)收斂到最優(yōu)態(tài).從效用值變化曲線也可以看出,早期由于底流濃度與其設(shè)定值偏差較大,效用值較高.但是隨著模型與系統(tǒng)趨于穩(wěn)態(tài),效用值u(k) 不斷縮減直到接近于0 的位置.到達(dá)270 分鐘時(shí),系統(tǒng)進(jìn)料濃度、進(jìn)料流量發(fā)生突變,底流濃度無法維持穩(wěn)態(tài),開始遠(yuǎn)離設(shè)定值.控制模型根據(jù)噪音量改變后的系統(tǒng)所產(chǎn)生的軌跡數(shù)據(jù)重新訓(xùn)練,將底流濃度拉回設(shè)定值位置.由于在第一階段控制模型已經(jīng)到達(dá)過一次穩(wěn)態(tài),在第二階段僅需要少量迭代就可以使系統(tǒng)重歸理想收斂穩(wěn)態(tài).通過觀察不同控制算法產(chǎn)生的系統(tǒng)軌跡,可以發(fā)現(xiàn)不同控制算法到達(dá)最優(yōu)態(tài)所需的時(shí)間有較大差別,且在收斂到最優(yōu)態(tài)的過程中,底流濃度的波動(dòng)也有較大差異.在實(shí)驗(yàn)第一階段,為使系統(tǒng)達(dá)到穩(wěn)態(tài),HCNVI 算法所需要的迭代次數(shù)更少,訓(xùn)練過程中產(chǎn)生的底流濃度振幅也更小.并且在噪音量改變后,HCNVI 算法可以迅速地使模型重歸最優(yōu)態(tài),且底流濃度幾乎未發(fā)生大幅度波動(dòng).

HCNVI 的快速收斂能力主要來源于其采用迭代算法2 得出的u(k) 嚴(yán)格滿足式(7)的最小化條件,可以使評價(jià)網(wǎng)絡(luò)更快地收斂到最優(yōu)評價(jià)值函數(shù).而其他ADP 算法中引入了動(dòng)作網(wǎng)絡(luò),這會使策略的更新存在一定的滯后性,進(jìn)而拖慢評價(jià)網(wǎng)絡(luò)的訓(xùn)練速度.

為了驗(yàn)證短期經(jīng)驗(yàn)回放技術(shù)對控制算法性能的影響,本文分別對比了無經(jīng)驗(yàn)回放、使用短期經(jīng)驗(yàn)回放 (L2) 情況下HDP、HCNVI 的控制性能.對比結(jié)果如圖8 所示.在本實(shí)驗(yàn)中,僅比較了兩種算法的效用值變化,效用值越快地收斂到0 說明算法控制效果越佳.通過觀察圖8(a)和圖8(b)中無經(jīng)驗(yàn)回放情況下的效用值變化曲線,可以發(fā)現(xiàn)曲線波動(dòng)較大.相比于使用短期經(jīng)驗(yàn)回放,無經(jīng)驗(yàn)回放情況下控制模型需要更多的迭代輪次才能夠使系統(tǒng)達(dá)到收斂.特別是在圖7(a) 的HCNVI 的實(shí)驗(yàn)中,270 分鐘時(shí)系統(tǒng)噪音輸入量改變,效用值開始劇增,底流濃度開始偏離設(shè)定值,評價(jià)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果如圖5(a)中的第4 部分所示.評價(jià)網(wǎng)絡(luò)對當(dāng)前狀態(tài)點(diǎn)x(k)的局部梯度估計(jì)有較大偏差,使得利用算法2求解的u(k) 并沒有驅(qū)使底流濃度向其設(shè)定值移動(dòng),被控系統(tǒng)無法收斂.但在增加了短期經(jīng)驗(yàn)數(shù)據(jù)回放后,無論是本文提出的HCNVI 算法還是HDP算法,效用函數(shù)值可以快速收斂至最低點(diǎn),有效實(shí)現(xiàn)對被控系統(tǒng)的控制.該實(shí)驗(yàn)結(jié)果表明短期經(jīng)驗(yàn)回放技術(shù)對于控制模型的收斂速度改善效果明顯,且對不同ADP 算法具有通用型.

圖8 短期經(jīng)驗(yàn)回放對HDP 與HCNVI 的影響Fig.8 The influence of short-term experience replay on HDP and HCNVI

另外本文進(jìn)行了十組實(shí)驗(yàn)來對比HCNVI 算法在時(shí)間上的優(yōu)勢.選取HDP 算法作為參考對象,T270,結(jié)果如圖9 所示.由于每次實(shí)驗(yàn)中網(wǎng)絡(luò)初始值不同,系統(tǒng)運(yùn)行軌跡以及模型訓(xùn)練過程也不同,因此每組實(shí)驗(yàn)中模型學(xué)習(xí)以及控制所需的累積時(shí)間略有差異.但是從多次實(shí)驗(yàn)結(jié)果可以看出,由于HCNVI 算法中去掉了動(dòng)作網(wǎng)絡(luò),僅需要訓(xùn)練評價(jià)網(wǎng)絡(luò),所以模型整體訓(xùn)練時(shí)間大大縮減,盡管算法2 中計(jì)算控制輸入所需時(shí)間相比于HDP 算法直接利用動(dòng)作網(wǎng)絡(luò)前向傳播求解控制動(dòng)作所需時(shí)間長,但是HCNVI 算法總消耗時(shí)間明顯少于HDP 算法.

圖9 實(shí)驗(yàn)一中HDP 與HCNVI 在時(shí)間消耗上的對比Fig.9 Comparison of time consuming in HDP and HCNVI in Experiment 1

前人研究表明[25?26],在啟發(fā)式動(dòng)態(tài)規(guī)劃類算法中,去掉動(dòng)作網(wǎng)絡(luò)可以有效減少模型訓(xùn)練時(shí)間.但是在某些復(fù)雜系統(tǒng)控制問題中,去除動(dòng)作網(wǎng)絡(luò)會使模型難以擬合復(fù)雜策略函數(shù),最終導(dǎo)致控制效果變差.在本文的實(shí)驗(yàn)中,由于濃密機(jī)系統(tǒng)運(yùn)行緩慢且具有較高時(shí)滯性,當(dāng)前時(shí)刻控制輸入量u(k) 對的影響較小,即對的影響較小.因此利用算法2 求解的u(k) 滿足式(7)的最小化條件.而在HDP、DHP、ILPL 等方法中采用神經(jīng)網(wǎng)絡(luò)擬合出的控制策略,難以輸出嚴(yán)格滿足式(7) 的u(k),算法2 的最優(yōu)性代表HCNVI 可以最大程度地利用評價(jià)網(wǎng)絡(luò)給出的協(xié)狀態(tài)信息優(yōu)化當(dāng)前控制策略,進(jìn)而獲得更高的控制效果.但HCNVI 方法也具有一定的局限性,當(dāng)被控系統(tǒng)狀態(tài)變化速率較快,隨u(k) 變化的分布函數(shù)不再是單峰函數(shù),算法2 求解出的u(k) 極容易陷入到局部最優(yōu)解,算法控制效果及收斂速度必然變差.而此時(shí)在HDP、DHP、ILPL 等方法中采用神經(jīng)網(wǎng)絡(luò)擬合的控制策略往往能夠給出相對更優(yōu)、魯棒性更強(qiáng)的控制動(dòng)作u(k),其控制效果與收斂速率必然優(yōu)于HCNVI 算法.

3.2 實(shí)驗(yàn)2:高斯噪音波動(dòng)輸入下濃密機(jī)控制仿真實(shí)驗(yàn)

實(shí)驗(yàn)1 中仿真模型的進(jìn)料狀態(tài)是恒定的,只在某一時(shí)刻產(chǎn)生突變,其目的是為了更好地觀察不同控制算法的收斂速度.而真實(shí)工業(yè)場景下,濃密機(jī)的進(jìn)料濃度和進(jìn)料流量是實(shí)時(shí)波動(dòng)的.在本節(jié)實(shí)驗(yàn)中,進(jìn)料流量和進(jìn)料濃度兩個(gè)噪音量持續(xù)波動(dòng),用來模仿真實(shí)工業(yè)場景下的濃密機(jī)系統(tǒng)環(huán)境.噪音輸入的單步變化增量服從高斯分布,進(jìn)料波動(dòng)變化如圖10 所示.

圖10 噪音量變化曲線Fig.10 The fluctuation of noisy input

本實(shí)驗(yàn)中HCNVI 控制器參數(shù)與第3.1 節(jié)實(shí)驗(yàn)1 中的算法參數(shù)相同,迭代輪次T270,仿真步長T d120 s.利用該仿真模型再次對比HCNVI 與其他算法控制性能的差異,結(jié)果如圖11 所示.

圖11 HCNVI 與其他ADP 算法在波動(dòng)噪聲輸入下的對比Fig.11 HCNVI versu other ADP algorithms under fluctuate noisy input

通過觀察實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)在環(huán)境噪音連續(xù)變化條件下,濃密機(jī)底流濃度會發(fā)生持續(xù)震蕩.隨著對模型參數(shù)的不斷訓(xùn)練,各個(gè)算法的控制性能趨于平穩(wěn),由于進(jìn)料噪音導(dǎo)致的底流濃度波動(dòng)稍有減弱.對比不同控制算法的控制性能,可以發(fā)現(xiàn)HCNVI 相比于其他ADP 算法能夠更快地將底流濃度鎖定在設(shè)定值臨域范圍內(nèi),且濃度振幅小于其他算法.從效用值變化曲線也可以看出,相比于其他算法,HCNVI算法的效用值整體較小,且在訓(xùn)練后期幾乎0.

該實(shí)驗(yàn)結(jié)果與第3.1 節(jié)實(shí)驗(yàn)1 中進(jìn)料噪音突變條件下的實(shí)驗(yàn)結(jié)果相吻合.HCNVI 算法在外界噪音頻繁改變時(shí),可以更快地響應(yīng)外部變化,快速調(diào)節(jié)評價(jià)網(wǎng)絡(luò)參數(shù),將底流濃度穩(wěn)定在目標(biāo)值附近.其他算法由于增加了動(dòng)作網(wǎng)絡(luò)產(chǎn)生了訓(xùn)練滯后性,進(jìn)而導(dǎo)致無法快速適應(yīng)外部環(huán)境的變化,使其控制性能差于HCNVI.

表4 給出了不同算法在第3.1 節(jié)實(shí)驗(yàn)1 和第3.2 節(jié)實(shí)驗(yàn)2 中底流濃度控制性能指標(biāo)對比結(jié)果.相比其他算法,HCNVI 算法可以更好地控制底流濃度穩(wěn)定在其設(shè)定值附近,其控制總體穩(wěn)定性(由MSE、IAE 體現(xiàn))、控制魯棒性(由MAE 體現(xiàn))更佳.在過程工業(yè)控制場景中,控制系統(tǒng)的MAE 指標(biāo)尤為重要,某一工序的物料性質(zhì)發(fā)生劇烈波動(dòng)會使下游物料加工工序出現(xiàn)連帶波動(dòng),嚴(yán)重影響生產(chǎn)的穩(wěn)定性和最終產(chǎn)品的質(zhì)量.HCNVI 算法在MAE指標(biāo)上的優(yōu)勢證實(shí)了其在過程工業(yè)控制問題中的適用性.

表4 不同控制算法之間性能分析Table 4 Performances analysis of different algorithms

圖12 展示在環(huán)境噪音持續(xù)變化條件下,不使用經(jīng)驗(yàn)回放和使用短期經(jīng)驗(yàn)回放 (L2) 兩種情況下HCNVI 算法控制性能.在無經(jīng)驗(yàn)回放情況下,底流濃度穩(wěn)定性明顯較差,且效用值明顯較高,使用短期經(jīng)驗(yàn)回放 (L2) 后模型控制效果較好.實(shí)驗(yàn)結(jié)果表明,短期經(jīng)驗(yàn)回放技術(shù)在環(huán)境噪音持續(xù)變化下仍對模型控制效果與收斂速度有重要促進(jìn)作用.

圖12 噪音持續(xù)變化下短期經(jīng)驗(yàn)回放對HCNVI 的影響Fig.12 The influence of short-term experience replay on HCNVI

為了展現(xiàn)在噪音持續(xù)變化條件下,HCNVI 算法在時(shí)間上的優(yōu)勢,再次重復(fù)了10 次實(shí)驗(yàn)對比了HCNVI 算法與HDP 算法的時(shí)間消耗,T270 .實(shí)驗(yàn)結(jié)果如圖13 所示.在噪音持續(xù)變化環(huán)境下,HCNVI算法和HDP 算法的總時(shí)間消耗相比于圖9中的結(jié)果均有增加.這是由于當(dāng)外部環(huán)境存在持續(xù)擾動(dòng)時(shí),被控系統(tǒng)和控制模型參數(shù)不再如第3.1 節(jié)實(shí)驗(yàn)1 中達(dá)到穩(wěn)定態(tài),而是始終處于震蕩狀態(tài),被控系統(tǒng)軌跡數(shù)據(jù)不斷變化.每輪學(xué)習(xí)過程中,為了滿足評價(jià)網(wǎng)絡(luò)的精度ec(k)2

圖13 實(shí)驗(yàn)二中HCNVI 算法與HDP 算法在時(shí)間消耗上的對比Fig.13 Comparison of time consuming in HDP and HCNVI in Experiment 2

4 結(jié)論

本文提出了基于強(qiáng)化學(xué)習(xí)的自適應(yīng)控制算法HCNVI,該算法通過構(gòu)建用于識別系統(tǒng)動(dòng)態(tài)方程的模型網(wǎng)絡(luò)以及用于估計(jì)折扣累計(jì)代價(jià)的評價(jià)網(wǎng)絡(luò)來解決濃密機(jī)控制問題.該方法可以在對濃密機(jī)系統(tǒng)未知的情況下,僅利用濃密機(jī)系統(tǒng)輸出數(shù)據(jù)以及歷史運(yùn)行數(shù)據(jù)即可實(shí)現(xiàn)在線學(xué)習(xí)并獲得較好的控制效果.另外本文提出的短期經(jīng)驗(yàn)回放技術(shù)可以很好地增強(qiáng)評價(jià)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,在其他自適應(yīng)動(dòng)態(tài)規(guī)劃算法中也具有較好通用性.根據(jù)仿真實(shí)驗(yàn)驗(yàn)證結(jié)果可以發(fā)現(xiàn),相比其他在線ADP 算法,由于HCNVI算法模型結(jié)構(gòu)簡單,且具有較高的學(xué)習(xí)敏捷性,因此在濃密機(jī)仿真系統(tǒng)控制問題中,HCNVI 算法消耗了更少的訓(xùn)練時(shí)間但獲得了更優(yōu)的控制效果.但是HCNVI 算法也存在自身的局限性,其去掉動(dòng)作網(wǎng)絡(luò)的可行性是建立濃密機(jī)具有運(yùn)行緩慢、穩(wěn)定的特性基礎(chǔ)之上的.但是當(dāng)被控系統(tǒng)相對復(fù)雜且不再具有此特性時(shí),如系統(tǒng)狀態(tài)量變化過程并不連續(xù)或系統(tǒng)運(yùn)行速度較快,HCNVI 依靠迭代算法求解的控制量難以保持最優(yōu)性,控制性能極有可能產(chǎn)生退化.如何使HCNVI 算法以及其他無動(dòng)作網(wǎng)絡(luò)類自適應(yīng)動(dòng)態(tài)規(guī)劃類算法適用于此類復(fù)雜被控系統(tǒng),在優(yōu)化訓(xùn)練時(shí)間消耗的同時(shí)保證其控制性能與收斂速度,將是未來非常有意義的研究方向.

猜你喜歡
實(shí)驗(yàn)評價(jià)模型
一半模型
記一次有趣的實(shí)驗(yàn)
SBR改性瀝青的穩(wěn)定性評價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
基于Moodle的學(xué)習(xí)評價(jià)
主站蜘蛛池模板: 九九热在线视频| 在线亚洲精品自拍| 国产成人91精品免费网址在线| 狠狠色丁香婷婷综合| 污网站在线观看视频| 欧美色99| 亚洲毛片一级带毛片基地| 久久国产成人精品国产成人亚洲| 国产精品九九视频| 久久综合婷婷| 成年女人a毛片免费视频| 日韩欧美国产综合| 亚洲精品无码在线播放网站| 狠狠综合久久| 国产玖玖玖精品视频| 欧美精品啪啪一区二区三区| 99久久亚洲综合精品TS| 亚洲无码91视频| 日韩 欧美 小说 综合网 另类 | 国产成人久久777777| 国产亚洲精品yxsp| 亚洲国产成人精品青青草原| 久久国产亚洲欧美日韩精品| 国产精品第页| 国产91精选在线观看| 国产无码网站在线观看| 中文字幕波多野不卡一区| 青青草91视频| 久久婷婷六月| 国产精品成人第一区| 专干老肥熟女视频网站| AV天堂资源福利在线观看| 中文字幕在线不卡视频| 91精品国产自产91精品资源| 亚洲人成日本在线观看| 国产精品综合久久久| 六月婷婷综合| 亚洲中文无码av永久伊人| 国产成人久久综合777777麻豆| 92午夜福利影院一区二区三区| 中文字幕无码中文字幕有码在线| 亚洲综合第一区| 日韩A级毛片一区二区三区| 国产成人AV综合久久| 日韩精品免费在线视频| 欧美日韩在线国产| 国产在线精彩视频论坛| 欧美日韩一区二区在线播放| 久热精品免费| 成年女人18毛片毛片免费| 国产激情无码一区二区APP| 91综合色区亚洲熟妇p| 国产成人无码AV在线播放动漫| 色久综合在线| 无码高潮喷水专区久久| 久草视频精品| 日韩精品资源| 欧美国产在线看| 亚洲网综合| 99久久精品无码专区免费| 成人一区在线| 国产精品白浆无码流出在线看| 欧美中文一区| 狠狠色综合网| 免费视频在线2021入口| 欧美国产日韩在线| 久久国产精品波多野结衣| 日日碰狠狠添天天爽| 午夜福利在线观看入口| 亚洲欧美成人综合| 欧美97欧美综合色伦图| 激情国产精品一区| 一本大道香蕉中文日本不卡高清二区| 中文字幕永久视频| 国产第一页屁屁影院| 熟妇丰满人妻| 欧美综合激情| 国产精品美女网站| 色网在线视频| 92午夜福利影院一区二区三区| 久久国产毛片| 免费看黄片一区二区三区|