999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于迭代神經動態規劃的數據驅動非線性近似最優調節

2017-04-01 05:17:03王鼎穆朝絮劉德榮
自動化學報 2017年3期
關鍵詞:規劃系統

王鼎 穆朝絮 劉德榮

基于迭代神經動態規劃的數據驅動非線性近似最優調節

王鼎1,2穆朝絮2劉德榮3

利用數據驅動控制思想,建立一種設計離散時間非線性系統近似最優調節器的迭代神經動態規劃方法.提出針對離散時間一般非線性系統的迭代自適應動態規劃算法并且證明其收斂性與最優性.通過構建三種神經網絡,給出全局二次啟發式動態規劃技術及其詳細的實現過程,其中執行網絡是在神經動態規劃的框架下進行訓練.這種新穎的結構可以近似代價函數及其導函數,同時在不依賴系統動態的情況下自適應地學習近似最優控制律.值得注意的是,這在降低對于控制矩陣或者其神經網絡表示的要求方面,明顯地改進了迭代自適應動態規劃算法的現有結果,能夠促進復雜非線性系統基于數據的優化與控制設計的發展.通過兩個仿真實驗,驗證本文提出的數據驅動最優調節方法的有效性.

自適應動態規劃,數據驅動控制,迭代神經動態規劃,神經網絡,非線性近似最優調節

最優控制研究如何設計控制器使得系統的性能指標達到最優.它廣泛存在于工程技術和社會生活中,是現代控制理論的重要內容之一.與線性系統的最優控制問題需要求解Riccati方程不同,研究非線性系統的最優控制通常需要求解非線性Hamilton-Jacobi-Bellman(HJB)方程.例如,對于離散時間非線性系統而言,這一過程就包含求解非線性偏微分方程,這在很多情況下是難以實現的.雖然動態規劃是求解最優控制問題的經典方法,但是其后向求解的特點往往導致“維數災”現象的發生[1],同時這種后向求解模式也不利于該方法的實際應用.于是,基于人工神經網絡良好的自適應、自學習等特性,自適應(或者近似)動態規劃(Adaptive/approximate dynamic programming,ADP)方法應運而生[2].文獻[3?5]針對ADP方法的基本原理、實現結構和目前的發展狀況,給出了階段性總結與研究展望,并且指出ADP實際上是一種有效的數據驅動方法[5?6].根據文獻[2]和文獻[7],可以將ADP方法劃分為三種主要結構:1)啟發式動態規劃(Heuristic dynamic programming,HDP);2)二次啟發式動態規劃(Dual heuristic dynamic programming, DHP);3)全局二次啟發式動態規劃(Globalized DHP,GDHP).在與上述內容相關的三種執行依賴結構(Action-dependent)中,執行依賴HDP類似于機器學習領域的Q-學習(Q-learning)[8].另外,Si和Wang[9]提出的神經動態規劃也是一種類似于執行依賴HDP的在線學習控制方法,具有容易實現、在線優化、不依賴被控對象模型等特點,對于ADP結構的發展產生了很大的影響.但是,值得注意的是,上述神經動態規劃方法的重點在于強調控制系統的在線學習與優化設計,沒有從理論上證明控制算法的收斂性,因此可以看到,實驗結果的成功具有一定的概率.

近年來,正在興起的許多社會和工程新技術的重要特點是擁有實時海量的大數據信息[10].在大數據技術快速發展的背景下,隨著對數據驅動思想和類腦學習理念的深入研究,ADP已經發展成為進行智能控制與優化設計的有效途徑,因此受到了許多學者的重視.針對離散時間系統[11?20]和連續時間系統[21?26],這種基于數據的自學習控制都取得了豐碩的研究成果.Al-Tamimi等[11]針對離散時間仿射非線性系統xk+1=f(xk)+g(xk)uk,首次提出基于貪婪迭代的HDP算法研究無限時間最優控制設計,創造性地將求解代數方程的迭代思想引入ADP方法的框架之中.這促進了迭代ADP算法的快速發展,由此涌現出大量的研究成果[12?19].在基本的迭代ADP算法中,一般需要構建兩個神經網絡,即評判網絡和執行網絡,分別用以近似代價函數和控制函數.然后利用特定的最優化算法,通過在迭代過程中不斷更新神經網絡的權值矩陣,從而自適應地學習最優權值.值得一提的是,Wang等[14]針對有限時間域上的非線性最優控制問題,提出迭代ε-ADP算法,得到和文獻[11]不同的收斂性結論,從全新的角度詮釋迭代ADP算法的精髓.但是,也應該注意到,在現有的迭代ADP算法中,針對執行網絡的訓練大多數依賴于控制矩陣g(xk)的直接信息或者其神經網絡表示,也就是在一定程度上依賴于系統動態.于是,Zhong等[19]提出一種新的目標導向型(Goal representation)ADP結構求解非線性系統的在線優化控制,以發展神經動態規劃的結論,放松對系統動態的要求,但是基于HDP的實現結構導致評判網絡不能直接輸出代價函數的導函數信息,而且HDP結構的控制效果也有待改進.實際上,已有的研究表明,在ADP方法的實現結構中,DHP和GDHP會在一定程度上得到比HDP更好的控制效果[12,16].總的來說,雖然基于ADP的非線性系統最優控制研究已經取得了很大的進展,但是仍然缺少基于GDHP實現結構的迭代意義下神經動態規劃的報道,因此對于現有執行網絡的更新方法也鮮有改進.基于此,本文提出一種基于迭代神經動態規劃的離散時間非線性系統數據驅動近似最優控制方法,旨在改進執行網絡的訓練方法,進一步降低迭代ADP算法對于控制系統動態模型的依賴,促進基于數據的復雜非線性系統優化控制的發展.

1 問題描述

考慮離散時間非線性系統

其中,k是描述系統運行軌跡的時間步驟,xk=[x1k, x2k,···,xnk]T∈?x?Rn為系統的狀態向量,uk=[u1k,u2k,···,umk]T∈?u?Rm為系統的控制向量.我們設定時間步驟k=0時的狀態x0=[x10, x20,···,xn0]T為被控系統的初始狀態向量.這里,式(1)描述的是一般意義下的離散時間非線性系統.容易知道,具有仿射形式的非線性系統,即xk+1=f(xk)+g(xk)uk,其中,g(xk)為控制矩陣,是系統(1)的一種特殊情況.這里給出下面兩個基本假設[11?12,16].

假設1.動態函數F(·,·)在屬于Rn并且包含原點的集合?x上Lipschitz連續且有F(0,0)=0,因此,x=0是系統(1)在控制u=0時的一個平衡狀態.

假設2.動態系統(1)可控,即在集合?u中存在一個能夠漸近鎮定被控系統的連續控制律,使得在其作用下產生的控制輸入序列能夠將系統從初始狀態轉移到平衡狀態.

本文研究無限時間域上的最優調節器設計問題.這里,最優調節的目標是設計一個狀態反饋控制律u(x),將系統從初始狀態x0鎮定到平衡狀態,同時使得在其作用下的(無限時間)代價函數

達到最小,其中,U是效用函數,U(0,0)=0,且對于任意的xp,up,有U(xp,up)≥0,折扣因子γ滿足0<γ≤1.方便討論起見,選取二次型形式的效用函數U(xp,up)=xTpQxp+uTpRup,其中,Q和R為正定矩陣.事實上,對于最優控制問題,待設計的反饋控制律不僅能夠在?x上鎮定被控系統,而且使得相應的代價函數有限,這就是容許控制的概念[11?12,16].

根據經典的最優控制理論,最優代價函數

可以寫為

于是,J?(xk)滿足離散時間HJB方程

相應的最優控制為

注1.通過式(4)發現,求解當前時刻k的最優控制u?,需要得到最優代價J?,但是卻與系統下一時刻的狀態向量xk+1有關,這在當前時刻是不能做到的.因此,在難以得到HJB方程解析解的情況下,有必要研究如何獲得其近似解.ADP以及隨后出現的迭代ADP算法,就是為了克服這些難題而提出的近似求解方法.

2 迭代ADP算法及其收斂性

根據迭代ADP算法的基本思想[11?13,16],需要構建兩個序列,即代價函數序列{Vi(xk)}和控制律序列{vi(xk)},通過迭代運算得到收斂性結論.這里,記i為迭代指標,并初始化代價函數V0(·)=0.對于i=0,1,···,迭代過程包括不斷計算控制律和更新代價函數

直到算法收斂(當i→∞ 時,有Vi→J?和vi→ u?).

在證明上述迭代算法的收斂性與最優性之前,首先給出下面兩個引理[11?12,16].

引理1.(有界性)定義代價函數序列{Vi(xk)}如式(6)所示.如果系統可控,則存在一個上界Y使得對于任意的i,都有0≤Vi(xk)≤Y成立.

引理2.(單調性)定義代價函數序列{Vi(xk)}如式(6)所示且有V0(·)=0,同時定義控制律序列{vi(xk)}如式(5)所示.那么,{Vi(xk)}是一個單調非減序列,即0≤Vi(xk)≤Vi+1(xk),?i.

定理 1.定義代價函數序列{Vi(xk)}如式(6)所示,且V0(·)=0,控制律序列{vi(xk)}如式(5)所示.執行迭代ADP算法,代價函數序列{Vi(xk)}收斂于離散時間HJB方程中的最優代價函數J?(xk),即當i→ ∞ 時,有Vi(xk)→ J?(xk).相應地,當i→∞ 時,{vi(xk)}收斂于最優控制律u?(xk),即limi→∞vi(xk)=u?(xk).

證明.根據引理1和引理2,代價函數序列{Vi(xk)}單調非減且有上界,所以,它的極限存在.定義limi→∞Vi(xk)=V∞(xk)為其極限.

一方面,對于任意的uk和i,根據式(6),可得

由引理2,對于任意的i,都有Vi(xk)≤V∞(xk)成立.因此,式(7)變為

令i→∞,則

考慮到式(8)中的控制向量uk是任意的,可以得到

另一方面,由于對任意的i,迭代過程中的代價函數滿足

再次考慮Vi(xk)≤V∞(xk),我們有

令i→∞,則

結合式(9)和式(10),可以得到

同樣地,記limi→∞vi(xk)=v∞(xk)為控制律序列{vi(xk)}的極限.根據式(5)和式(6),有

其中,

注意式(11)和式(3),同時注意式(12)和式(4),可以得到,V∞(xk)=J?(xk)和v∞(xk)=u?(xk),即,limi→∞Vi(xk)=J?(xk)且limi→∞vi(xk)= u?(xk).由此驗證了迭代算法的收斂性和最終得到的控制律的最優性. □

注2.利用迭代代價函數的表達式(6),依據迭代指標i逐次進行遞推,我們有

進而,考慮到V0(xk+i+1)=0這一事實,可以將迭代代價函數Vi+1(xk)寫成關于效用函數加和的形式

觀察式 (13)可以發現,在迭代代價函數Vi+1(xk)中,構成效用函數的控制輸入序列是由一個控制律組(vi,vi?1,···,v0)產生的,即其中的每一個控制輸入都依賴于不同的控制律,因此控制輸入是vi?l(xk+l)的形式,其中,l=0,1,···,i.盡管如此,最終作用到被控對象的控制律,是經過上述迭代算法之后得到的收斂的(狀態反饋)控制律.事實上,根據定理1和容許控制的概念,最終得到的v∞=u?是一個可以鎮定系統的穩定控制.在其作用下,將會產生一個控制輸入序列,實現被控非線性系統的最優調節.

3 迭代神經動態規劃及其實現

由于這里研究的被控對象是一般的非線性系統,難以直接求解HJB方程.雖然通過執行迭代ADP算法(5)和(6),可以從理論上得到最優控制律和最優代價函數,但是迭代控制律和代價函數的信息是不能精確獲得的,而且進行迭代運算需要被控系統的近似動態信息.所以,利用函數近似結構(例如神經網絡)來重構系統動態以及vi(xk)和Vi(xk).這里,將基于神經動態規劃思想的迭代ADP算法稱為迭代神經動態規劃方法.本節給出基于GDHP技術的迭代神經動態規劃實現方案,包含構建三種神經網絡,即模型網絡、評判網絡和執行網絡.

3.1 模型網絡

為了不依賴被控系統的動態信息F(xk,uk),在執行主要的迭代過程之前,首先構建一個模型網絡并記隱藏層神經元個數為Nm,輸入層到隱藏層的權值矩陣為νm∈R(n+m)×Nm,隱藏層到輸出層的權值矩陣為ωm∈RNm×n.輸入狀態向量xk和近似的控制向量?vi(xk)如下文所示,模型網絡的輸出為

其中,σ(·)∈RNm為激活函數(下同).模型網絡的誤差函數為emk= ?xk+1?xk+1,訓練目標函數為Emk=(1/2)eTmkemk.利用梯度下降法更新模型網絡的權值矩陣

其中,αm>0是模型網絡的學習率且j是訓練權值參數的迭代指標.當模型網絡經過充分學習之后,保持其權值不再改變,并開始執行迭代神經動態規劃的主要步驟,即訓練評判網絡和執行網絡.

3.2 評判網絡

評判網絡的作用是近似代價函數Vi(xk)及其偏導數(稱為協函數,記為λi(xk),即λi(xk)根據定理1,當i→ ∞ 時,Vi(xk)→ J?(xk).由于則相應的協函數序列{λi(xk)}在i→∞時也是收斂的,即λi(xk)→λ?(xk).這在仿真研究中也會得到驗證.

設評判網絡的隱藏層神經元個數為Nc,輸入層到隱藏層的權值矩陣為νc∈Rn×Nc,隱藏層到輸出層的權值矩陣為ωc∈RNc×(n+m).在進行第i次迭代時,可以將權值矩陣寫為νci和ωci,于是,評判網絡的輸出為

這里,GDHP技術中評判網絡的結構如圖1所示.可以看出,它將HDP和DHP技術中的評判網絡進行了融合.

圖1 評判網絡結構Fig.1 The architecture of critic network

在GDHP實現結構中,評判網絡的訓練目標由代價函數和協函數兩部分組成,即

其中,αc>0為評判網絡的學習率,j為更新權值參數的迭代指標,0≤β≤1是一個常數,反映HDP和 DHP在GDHP技術中相結合的權重大小.

注3.這里采用的GDHP技術綜合了HDP能夠直接輸出代價函數和DHP控制效果好的優點.雖然引入協函數會在一定程度上增加計算復雜度,但是可以獲得比初等的ADP方法(例如HDP)更好的運行效果.

3.3 執行網絡

構建執行網絡的作用是近似控制律,設其隱藏層神經元個數為Na,輸入層到隱藏層的權值矩陣為νa∈Rn×Na,隱藏層到輸出層的權值矩陣為ωa∈RNa×m.在上述的迭代環境下,我們將權值矩陣寫成νa(i?1)和ωa(i?1)的形式,則執行網絡的輸出為

其中,αa>0是執行網絡的學習率,j是更新權值參數的迭代指標.

總的來說,本文提出的迭代神經動態規劃的結構如圖2所示,其中,模塊γDX表示?xk+1關于xk的偏導數計算結果n×n方陣的γ倍.

注4.傳統的迭代ADP算法,例如文獻[11?18],在訓練執行網絡時需要利用控制矩陣的直接信息或者其神經網絡表示. 其中,針對仿射系統[11?13,15,17],需要系統控制矩陣的直接信息g(xk)[11,12,17],或者辨識控制矩陣得到其近似表示?g(xk)[13,15];針對非仿射系統[14,16,18],也需要神經網絡表示.那樣,執行網絡的訓練目標為

誤差函數定義為ˉea(i?1)k=?vi?1(xk)?vi?1(xk),在此基礎上訓練執行網絡.這樣的實現方法,很大程度上依賴于控制系統的動態信息,尤其是控制矩陣的信息.這里提出的迭代神經動態規劃方法,不僅沿用迭代ADP算法的基本框架,能夠保證迭代算法的收斂性;而且引入神經動態規劃的思想,放松對系統動態的要求,所以更利于達到數據驅動控制的目的.

圖2 迭代神經動態規劃結構Fig.2 The architecture of iterative neural dynamic programming

3.4 設計步驟

設xk為任意可控狀態,J?(xk)為最優代價函數.根據定理1中的收斂性結論,當迭代指標i→∞時,Vi(xk)→J?(xk).但是,在計算機實現中,不可能無限地執行迭代算法.從工程應用角度來看,我們更關心是否存在一個有限的i,使得

成立.因此,將J?(xk)和Vi(xk)之間的誤差ε引入迭代ADP算法,使得代價函數序列{Vi(xk)}能夠在經過有限次迭代之后收斂.從這個角度來看,這里設計的控制器實現了對被控系統近似最優調節的目的.實際上,這種近似意義上的收斂,能夠滿足一般的設計需求;也是ADP方法在無法精確求解HJB方程的背景下,進行近似最優控制設計的體現.

但是,也應該看到,在一般情況下,最優代價函數J?(xk)事先未知,難以利用停止準則(14)來驗證迭代算法是否達到要求.因此,這里提出一種相對容易判定的算法停止準則,即

定理 2.對于非線性系統(1)和代價函數(2),在使用迭代神經動態規劃方法時,由式(14)和式(15)描述的兩種收斂性準則是等價的.

證明.一方面,若|J?(xk)?Vi(xk)|≤ε成立,則有J?(xk)≤Vi(xk)+ε.根據引理2和定理1可知Vi(xk)≤Vi+1(xk)≤J?(xk)成立.于是,有Vi(xk)≤Vi+1(xk)≤Vi(xk)+ε.即,0≤Vi+1(xk)?Vi(xk)≤ε,也即式(15)成立.

另一方面,根據定理1,|Vi+1(xk)?Vi(xk)|→0意味著Vi(xk)→J?(xk).這樣,如果對于任意小的ε都有|Vi+1(xk)?Vi(xk)|≤ε成立,則當i相當大時,|J?(xk)?Vi(xk)|≤ε成立.由此證明了兩種準則的等價性. □

考慮到神經網絡的近似作用,在具體的實現過程中,采用近似的代價函數構建停止準則,即這里給出利用迭代神經動態規劃方法設計非線性系統近似最優調節器的具體步驟,如算法1所示.

算法1.迭代神經動態規劃方法

注5.定理2的重要作用在于,它提供了利用迭代神經動態規劃方法實現離散時間非線性系統近似最優調節的具有實用意義的設計準則.因此,在實際應用中,我們可以運行算法1得到合理可行的結果.

4 仿真實驗

本節開展兩個仿真實驗:1)針對仿射非線性系統;2)針對非仿射形式的一般非線性系統.

例1.考慮離散時間(仿射)非線性系統

這是對文獻[14]和文獻[20]中仿真例子的修改,其中,xk=[x1k,x2k]T∈R2和uk∈R分別是被控系統的狀態向量和控制向量.選取二次型形式的效用函數U(xk,uk)=xTkxk+uTkuk.

利用三層反向傳播(Back propagation)神經網絡來構建模型網絡、評判網絡和執行網絡,且三者的結構分別為3-8-2、2-8-3和2-8-1.激活函數通常選取為

其中,ξ是一個列向量且維數與隱藏層神經元個數相同,ξj代表該向量的第j個分量.

注6.這里對隱藏層神經元個數的設定主要是憑借工程經驗,同時在計算精度要求和計算復雜度之間取得一個折衷方案.

利用迭代神經動態規劃方法,運行算法1,首先需要訓練模型網絡:輸入層和隱藏層、隱藏層和輸出層之間的權值分別在區間[?0.5,0.5]和[?0.1,0.1]中隨機初始化.參數設置(如學習率)會在一定程度上影響算法的收斂速度.我們通過實驗選取合適的學習率αm=0.1,采集500組數據進行學習,并在訓練結束之后保持其權值不再變化.其次,評判網絡和執行網絡的初始權值都在區間[?0.1,0.1]中隨機選取.然后,選取折扣因子γ=1,GDHP技術的調節參數β=0.5,在k=0時刻執行神經動態規劃方法完成59次迭代(即i=1,2,···,59),使得計算誤差達到預先定義的精度10?6.在每次迭代中,都對評判網絡和執行網絡分別進行2000次訓練,并且學習率參數取為αc=αa=0.05.評判網絡和執行網絡的權值矩陣范數的收斂結果如圖3所示.這里,我們對比兩種不同的實現方法的收斂效果.這種不同主要體現在對執行網絡的訓練方法上(如第3.3節和注4所述).對于k=0和x0=[0.5,?1]T,代價函數及其偏導數序列的收斂過程如圖4所示(清楚起見,只刻畫前15次迭代的結果),其中,星線代表本文提出的迭代神經動態規劃方法,點線代表傳統的迭代ADP算法[12?18](下同).可以發現,迭代神經動態規劃方法在不利用系統動態信息的情況下,也基本達到了和傳統迭代ADP算法一樣的收斂效果,這驗證了迭代神經動態規劃方法的有效性.

最后,對于給定的初始狀態x0=[0.5,?1]T,我們將基于兩種不同實現方法的GDHP近似最優控制律運用于被控對象(16).在運行15個時間步后得到的系統狀態響應曲線及相應的控制曲線分別如圖5和圖6所示.由此可以清楚地看到,采用兩種不同的實現方法得到的控制效果是很相近的.這再次驗證了融合迭代ADP算法,神經動態規劃思想,和GDHP技術的優點.

圖3 權值矩陣范數的收斂過程Fig.3 The convergence process of the norm of weight matrices

圖4 代價函數及其偏導數的收斂過程Fig.4 The convergence process of the cost function and its derivative

例2.考慮離散時間(非仿射)非線性系統

其中,xk∈R和uk∈R分別是被控系統的狀態向量和控制向量.構建模型網絡、評判網絡和執行網絡,且三者的結構分別為2-6-1、1-6-2和1-6-1.首先訓練模型網絡,得到的最終權值為

圖5 系統狀態軌跡xFig.5 The system state trajectory x

圖6 控制輸入軌跡uFig.6 The control input trajectory u

對于評判網絡和執行網絡,選取初始的權值矩陣分別為

其他參數設置同例1.在k=0時刻執行算法1并完成19次迭代,使得計算誤差達到預先定義的精度10?5.評判網絡和執行網絡的權值矩陣范數的收斂結果如圖7所示.對于k=0和x0=0.8,代價函數及其偏導數序列的收斂過程如圖8所示.最后,對于給定的初始狀態x0=0.8,利用GDHP技術和迭代神經動態規劃方法得到的最優控制律運用于被控對象(17),在運行60個時間步后得到的系統狀態響應曲線及相應的控制曲線如圖9所示.這些仿真結果驗證了迭代神經動態規劃設計方法的有效性.

圖8 代價函數及其偏導數的收斂過程Fig.8 The convergence process of the cost function and its derivative

圖9 系統狀態軌跡x和控制輸入軌跡uFig.9 The system state trajectory x and control input trajectory u

5 結論

本文利用基于數據的思想,建立針對離散時間非線性系統近似最優調節的迭代神經動態規劃方法.提出離散時間非仿射非線性系統的迭代ADP算法并且證明其滿足收斂性與最優性.通過構建三種神經網絡(模型網絡、評判網絡和執行網絡),結合GDHP技術,給出迭代算法的具體實現步驟.在這種新穎的迭代神經動態規劃結構中,訓練執行網絡不需要利用系統動態信息,尤其是仿射非線性系統xk+1=f(xk)+g(xk)uk中的控制矩陣g(xk).這在很大程度上減少了迭代算法對系統動態的依賴,改進了以往的實現結構.通過仿真研究,驗證了本文建立的數據驅動最優調節器設計策略的有效性.值得注意的是,本文研究的是無限時間近似最優控制問題.如何將神經動態規劃思想與有限時間迭代ADP算法[14]相結合,改進執行網絡的訓練方法,從而將迭代神經動態規劃方法推廣到有限時間近似最優調節器設計是值得深入研究的主題之一.另外,本文目前的研究側重于理論方面的收斂性分析和具體的算法實現,如何將提出的方法應用于實際系統也有待于進一步討論.

1 Bellman R E.Dynamic Programming.Princeton,NJ: Princeton University Press,1957.

2 Werbos P J.Approximate dynamic programming for realtime control and neural modeling.Handbook of Intelligent Control.New York:Van Nostrand Reinhold,1992.

3 Lewis F L,Vrabie D,Vamvoudakis K G.Reinforcement learning and feedback control:using natural decision methods to design optimal adaptive controllers.IEEE Control Systems,2012,32(6):76?105

4 Zhang Hua-Guang,Zhang Xin,Luo Yan-Hong,Yang Jun. An overview of research on adaptive dynamic programming. Acta Automatica Sinica,2013,39(4):303?311 (張化光,張欣,羅艷紅,楊珺.自適應動態規劃綜述.自動化學報, 2013,39(4):303?311)

5 Liu De-Rong,Li Hong-Liang,Wang Ding.Data-based selflearning optimal control:research progress and prospects. Acta Automatica Sinica,2013,39(11):1858?1870 (劉德榮,李宏亮,王鼎.基于數據的自學習優化控制:研究進展與展望.自動化學報,2013,39(11):1858?1870)

6 Hou Z S,Wang Z.From model-based control to data-driven control:survey,classi fi cation and perspective.Information Sciences,2013,235:3?35

7 Prokhorov D V,Wunsch D C.Adaptive critic designs.IEEE Transactions on Neural Networks,1997,8(5):997?1007

8 Sutton R S,Barto A G.Reinforcement Learning—An Introduction.Cambridge,MA:MIT Press,1998.

9 Si J,Wang Y T.Online learning control by association and reinforcement.IEEE Transactions on Neural Networks, 2001,12(2):264?276

10 Wang Fei-Yue.Parallel control:a method for data-driven and computational control.Acta Automatica Sinica,2013, 39(4):293?302 (王飛躍.平行控制:數據驅動的計算控制方法.自動化學報,2013, 39(4):293?302)

11 Al-Tamimi A,Lewis F L,Abu-Khalaf M.Discrete-time nonlinear HJB solution using approximate dynamic programming:convergence proof.IEEE Transactions on Systems, Man,Cybernetics,Part B,Cybernetics,2008,38(4):943?949

12 Zhang H G,Luo Y H,Liu D R.Neural-network-based nearoptimal control for a class of discrete-time affine nonlinear systems with control constraints.IEEE Transactions on Neural Networks,2009,20(9):1490?1503

13 Dierks T,Thumati B T,Jagannathan S.Optimal control of unknown affine nonlinear discrete-time systems using offlinetrained neural networks with proof of convergence.Neural Networks,2009,22(5?6):851?860

14 Wang F Y,Jin N,Liu D R,Wei Q L.Adaptive dynamic programming for fi nite-horizon optimal control of discrete-time nonlinear systems with ε-error bound.IEEE Transactions on Neural Networks,2011,22(1):24?36

15 Liu D R,Wang D,Zhao D B,Wei Q L,Jin N.Neuralnetwork-based optimal control for a class of unknown discrete-time nonlinear systems using globalized dual heuristic programming.IEEE Transactions on Automation Science and Engineering,2012,9(3):628?634

16 Wang D,Liu D R,Wei Q L,Zhao D B,Jin N.Optimal control of unknown nonaffine nonlinear discrete-time systems based on adaptive dynamic programming.Automatica, 2012,48(8):1825?1832

17 Zhang H G,Qin C B,Luo Y H.Neural-network-based constrained optimal control scheme for discrete-time switched nonlinear system using dual heuristic programming.IEEE Transactions on Automation Science and Engineering,2014, 11(3):839?849

18 Liu D R,Li H L,Wang D.Error bounds of adaptive dynamic programming algorithms for solving undiscounted optimal control problems.IEEE Transactions on Neural Networks and Learning Systems,2015,26(6):1323?1334

19 Zhong X N,Ni Z,He H B.A theoretical foundation of goal representation heuristic dynamic programming.IEEE Transactions on Neural Networks and Learning Systems, 2016,27(12):2513?2525

20 HeydariA,BalakrishnanS N.Finite-horizon controlconstrained nonlinear optimal control using single network adaptive critics.IEEE Transactions on Neural Networks and Learning Systems,2013,24(1):145?157

21 Jiang Y,Jiang Z P.Robust adaptive dynamic programming and feedback stabilization of nonlinear systems.IEEE Transactions on Neural Networks and Learning Systems, 2014,25(5):882?893

22 Na J,Herrmann G.Online adaptive approximate optimal tracking control with simpli fi ed dual approximation structure for continuous-time unknown nonlinear systems. IEEE/CAA Journal of Automatica Sinica,2014,1(4):412?422

23 Liu D R,Yang X,Wang D,Wei Q L.Reinforcement

learning-based robust controller design for continuous-time uncertain nonlinear systems subject to input constraints. IEEE Transactions on Cybernetics,2015,45(7):1372?1385

24 Luo B,Wu H N,Huang T W.O ff-policy reinforcement learning for H∞control design.IEEE Transactions on Cybernetics,2015,45(1):65?76

25 Mu C X,Ni Z,Sun C Y,He H B.Air-breathing hypersonic vehicle tracking control based on adaptive dynamic programming.IEEE Transactions on Neural Networks and Learning Systems,2017,28(3):584?598

26 Wang D,Liu D R,Zhang Q C,Zhao D B.Data-based adaptive critic designs for nonlinear robust optimal control with uncertain dynamics.IEEE Transactions on Systems,Man, and Cybernetics:Systems,2016,46(11):1544?1555

Data-driven Nonlinear Near-optimal Regulation Based on Iterative Neural Dynamic Programming

WANG Ding1,2MU Chao-Xu2LIU De-Rong3

An iterative neural dynamic programming approach is established to design the near optimal regulator of discrete-time nonlinear systems using the data-driven control formulation.An iterative adaptive dynamic programming algorithm for discrete-time general nonlinear systems is developed and proved to guarantee the property of convergence and optimality.Then,a globalized dual heuristic programming technique is developed with detailed implementation by constructing three neural networks,where the action network is trained under the framework of neural dynamic programming.This novel architecture can approximate the cost function with its derivative,and simultaneously,adaptively learn the near-optimal control law without depending on the system dynamics.It is signi fi cant to observe that it greatly improves the existing results of iterative adaptive dynamic programming algorithm,in terms of reducing the requirement of control matrix or its neural network expression,which promotes the development of data-based optimization and control design for complex nonlinear systems.Two simulation experiments are described to illustrate the e ff ectiveness of the data-driven optimal regulation method.

Adaptive dynamic programming,data-driven control,iterative neural dynamic programming,neural networks,nonlinear near-optimal regulation

王 鼎 中國科學院自動化研究所副研究員.2009年獲得東北大學理學碩士學位,2012年獲得中國科學院自動化研究所工學博士學位.主要研究方向為自適應與學習系統,智能控制,神經網絡.本文通信作者.E-mail:ding.wang@ia.ac.cn(WANG Ding Associate professor at the Institute of Automation,Chinese Academy of Sciences.He received his master degree in operations research and cybernetics from Northeastern University,Shenyang, China and his Ph.D.degree in control theory and control engineering from the Institute of Automation,Chinese Academy of Sciences,Beijing,China,in 2009 and 2012,respectively.His research interest covers adaptive and learning systems,intelligent control,and neural networks.Corresponding author of this paper.)

穆朝絮 天津大學電氣自動化與信息工程學院副教授.2012年獲得東南大學工學博士學位.主要研究方向為非線性控制理論與應用,智能控制與優化,智能電網.E-mail:cxmu@tju.edu.cn(MU Chao-Xu Associate professor at the School of Electrical and Information Engineering,Tianjin University. She received her Ph.D.degree in control science and engineering from Southeast University,Nanjing,China,in 2012. Her research interest covers nonlinear control and application,intelligent control and optimization,and smart grid.)

劉德榮 北京科技大學教授.主要研究方向為自適應動態規劃,計算智能,智能控制與信息處理,復雜工業系統建模與控制.E-mail:derong@ustb.edu.cn(LIU De-Rong Professor at University of Science and Technology Beijing.His research interest covers adaptive dynamic programming,computational intelligence,intelligent control and information processing,and modeling and control for complex industrial systems.)

王鼎,穆朝絮,劉德榮.基于迭代神經動態規劃的數據驅動非線性近似最優調節.自動化學報,2017,43(3): 366?375

Wang Ding,Mu Chao-Xu,Liu De-Rong.Data-driven nonlinear near-optimal regulation based on iterative neural dynamic programming.Acta Automatica Sinica,2017,43(3):366?375

2016-03-16 錄用日期2016-05-17

Manuscript received March 16,2016;accepted May 17,2016國家自然科學基金(61233001,61273140,61304018,61304086,615 33017,U1501251,61411130160),北京市自然科學基金(4162065),天津市自然科學基金(14JCQNJC05400),中國科學院自動化研究所復雜系統管理與控制國家重點實驗室優秀人才基金,天津市過程檢測與控制重點實驗室開放課題基金(TKLPMC-201612)資助

Supported by National Natural Science Foundation of China (61233001,61273140,61304018,61304086,61533017,U1501251, 61411130160),Beijing Natural Science Foundation(4162065), Tianjin Natural Science Foundation(14JCQNJC05400),the Early Career Development Award of the State Key Laboratory of Management and Control for Complex Systems(SKL-MCCS)of the Institute of Automation,Chinese Academy of Sciences(CASIA),and Research Fund of Tianjin Key Laboratory of Process Measurement and Control(TKLPMC-201612)本文責任編委侯忠生

Recommended by Associate Editor HOU Zhong-Sheng

1.中國科學院自動化研究所復雜系統管理與控制國家重點實驗室北京100190 2.天津市過程檢測與控制重點實驗室,天津大學電氣自動化與信息工程學院天津300072 3.北京科技大學自動化學院北京100 083

1.The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190 2.Tianjin Key Laboratory of Process Measurement and Control,School of Electrical and Information Engineering,Tianjin University,Tianjin 300072 3.School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083

DOI10.16383/j.aas.2017.c160272

猜你喜歡
規劃系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
發揮人大在五年規劃編制中的積極作用
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
規劃引領把握未來
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 3D动漫精品啪啪一区二区下载| 国产精品国产三级国产专业不| 一本大道香蕉中文日本不卡高清二区| 国产又爽又黄无遮挡免费观看 | 欧美人在线一区二区三区| 67194亚洲无码| 国产精品九九视频| 国产午夜无码片在线观看网站| 国产精品久久自在自线观看| 国产日韩AV高潮在线| 国产成人免费手机在线观看视频| 国产欧美视频在线| 亚洲女人在线| 九九九九热精品视频| 亚洲码一区二区三区| 呦系列视频一区二区三区| 亚洲码一区二区三区| 伊人激情综合网| 亚洲色图欧美一区| 亚洲乱亚洲乱妇24p| 精品视频一区二区三区在线播| 亚洲精品无码高潮喷水A| 少妇精品在线| 欧美精品在线视频观看| 国产午夜不卡| 无码乱人伦一区二区亚洲一| 国产福利影院在线观看| 国产对白刺激真实精品91| 91精品人妻互换| 欧美成一级| 在线另类稀缺国产呦| 国产男人天堂| 欧美一区二区三区国产精品| 成人福利在线免费观看| 在线亚洲精品自拍| 国产精品第| 国产一在线观看| 欧美啪啪一区| 成人精品视频一区二区在线| 亚洲欧美日韩中文字幕在线| 黄片在线永久| 另类欧美日韩| 玩两个丰满老熟女久久网| a毛片免费看| 国产jizz| 欧美a在线| 成人午夜视频免费看欧美| 日本三级欧美三级| 特级做a爰片毛片免费69| 美女潮喷出白浆在线观看视频| 国产污视频在线观看| 國產尤物AV尤物在線觀看| 精品无码日韩国产不卡av| 欧美日韩国产综合视频在线观看 | 亚洲日本中文综合在线| 日本精品αv中文字幕| 久久永久精品免费视频| 亚洲精品视频免费| 国产靠逼视频| 97人人模人人爽人人喊小说| 亚洲免费毛片| 亚洲无码免费黄色网址| 国产日韩久久久久无码精品| 91国内外精品自在线播放| 精品视频福利| 欧美日韩高清| 欧洲一区二区三区无码| 成年A级毛片| 国产精品区视频中文字幕 | 毛片大全免费观看| 精品国产网| 日韩东京热无码人妻| 亚洲人成网站18禁动漫无码| 五月天天天色| 五月婷婷激情四射| 亚洲av无码久久无遮挡| 少妇露出福利视频| 亚洲一级毛片| 精品国产免费人成在线观看| 亚洲av无码人妻| 免费人成视网站在线不卡| 欧美亚洲日韩中文|