楊加秀, 李新凱, 張宏立, 王昊
(新疆大學 電氣工程學院, 新疆 烏魯木齊 830017)
四旋翼無人機因其易于操作、靈活機動、機械結構簡單等優點,廣泛用于執行各種重要任務,如貨物運輸[1]、地形勘測[2]以及電力巡檢任務[3]等。相比于固定翼無人機,四旋翼無人機具有獨特的懸停和垂直起降的能力,因此研究四旋翼無人機及其可靠的控制方法具有現實意義。然而,由于四旋翼無人機具有較強的非線性、強耦合和欠驅動的特點[4],以及其在飛行過程中會受到外部環境干擾、內部系統參數攝動、未建模動態等復合影響,使得其位置軌跡跟蹤控制系統的設計具有很大的挑戰性。
為了解決四旋翼無人機位置軌跡跟蹤控制系統設計所面臨的挑戰,國內外眾多研究人員結合線性、非線性以及智能控制方法提出了很多有效的控制方案。針對四旋翼無人機具有較強的非線性和強耦合性,文獻[5]提出了一種魯棒反饋線性化方法,將四旋翼無人機解耦為4個線性的標稱子系統模型,而耦合和非線性、參數攝動及輸入干擾被視為不確定性,然后針對每個子系統設計了一種解耦的魯棒控制器。文獻[6]基于反步法和魯棒補償理論設計了一種魯棒級聯控制器,用以解決具有時滯的不確定性四旋翼無人機的魯棒軌跡跟蹤問題。文獻[7]采用基于測量反饋和狀態反饋的非線性H∞算法,設計了一個魯棒控制器-估計器框架。文獻[8]設計了一個擴張狀態觀測器,用以觀測四旋翼無人機系統受到的多源干擾。文獻[9]設計了一個基于參數估計的自適應魯棒控制器,估計模型中的陀螺效應因子和風阻系數。文獻[10]為了抑制外界擾動和參數不確定性的影響,分別設計了基于動態內模法的位置控制器和基于高階滑模的姿態控制器。文獻[11] 基于自適應控制方法對未知動力學參數和外界干擾進行估計,提出了一種雙閉環預設性能控制方法。文獻[12]提出了一種模糊自適應動態面跟蹤控制策略,來處理四旋翼無人機動力學中的系統不確定性和未知外界干擾。但是基于自適應控制的控制方法只能保證有界的跟蹤誤差,并且有可能導致較差的動態和瞬態性能。上述文獻中的魯棒控制方法以及智能控制方法都是為了抑制四旋翼無人機中的非線性、參數不確定性和外部擾動,但是這些方法具有模型依賴性,而在四旋翼無人機的實際飛行中,無人機精確的數學模型很難獲得,因此需要設計一種不依賴四旋翼無人機系統動力學模型的控制方法。
強化學習最優控制(RLOC)理論可以用來解決具有未知模型動態的最優控制問題[13-16]。目前,RLOC理論已應用于控制系統的最優輸出調節、最優輸出跟蹤、復雜過程工業控制和先進航天器控制等領域。文獻[17]研究了具有外部干擾和系統不確定性的離散時間部分線性系統的最優輸出調節問題。文獻[18]基于輸出反饋控制提出了一種改進的帶有神經網絡觀測器的強化學習算法,以解決線性連續時間系統的跟蹤控制問題。文獻[19]研究了部分非線性系統存在輸入約束和不可測狀態的最優跟蹤問題。文獻[20]基于RLOC理論,研究了復雜過程工業控制中濃密機的底流濃度在線控制技術。文獻[21]基于積分強化學習(IRL)方法,研究了有效載荷抓捕后具有不確定動態的空間繩系統的平動控制問題,控制系統的代數黎卡提方程可以在沒有已知動力學的情況下在線求解。綜上所述,RLOC理論能夠解決系統中存在外部擾動和系統模型動態不確定的控制問題。
在上述研究的基礎上,本文基于RLOC理論中的IRL技術,結合H∞控制理論和神經網絡自適應技術,針對系統模型動態不確定和受外部干擾的四旋翼無人機系統的位置軌跡跟蹤控制問題設計了一個自適應IRL的H∞控制器,所提出的控制方案能夠實現對期望軌跡的漸近跟蹤并抑制外部干擾。與已有的研究相比,本文的貢獻體現在如下3個方面:
1)使用四旋翼無人機增廣系統的輸入輸出數據代替了復雜的四旋翼無人機動力學模型,利用RLOC理論設計的H∞控制器,使四旋翼無人機系統能夠在不依賴系統動力學模型的情況下完成魯棒跟蹤任務。
2)在價值函數中加入了折扣因子,通過調節折扣因子的大小可保證價值函數的有界性。
3)在不依賴系統動力學模型的強化學習算法在線求解時,使用單網絡演員-評論家結構同步更新控制和擾動策略,減少了計算成本。
四旋翼無人機通過改變4個旋翼中電機的轉速(升力)差來完成各種機動任務。為了對四旋翼無人機的位置和姿態進行描述,設OGxGyGzG為固定在地球上的慣性坐標系,OBxByBzB為四旋翼無人機自身的機體坐標系。若將四旋翼無人機視為剛體,則無人機質心坐標系與機體坐標系的原點重合,其模型結構如圖1所示。圖1中,θ、φ、ψ分別為四旋翼無人機的俯仰角、橫滾角和偏航角。

圖1 四旋翼無人機的模型示意圖
文獻[5]將具有強非線性的四旋翼無人機系統劃分為4個子系統,并為每個子系統設計了一個線性和解耦的標稱動力學模型,但文獻[5]中的模型沒有考慮四旋翼無人機受到外部干擾的情況。設P=[pxpypz]T∈3×1表示四旋翼無人機在慣性坐標系中3個維度的位置信息;Ω=[θφψ]T∈3×1表示四旋翼無人機在機體坐標系中的姿態信息;u=[uθuφuzuψ]T∈R4×1表示四旋翼無人機4個子系統相應的控制輸入;d=[dxdθdydφdzdψ]T∈6×1表示四旋翼無人機4個子系統相應的擾動輸入。因此,針對飛行過程中受到外部干擾的無人機系統,完整的無人機系統模型表述如下:
縱向子系統模型:
(1)
橫向子系統模型:
(2)
高度子系統以及偏航子系統模型:
(3)
式中:a1j1~a5j1、bj1為標稱參數,j1=x、y;a1j2~a2j2、bj2為標稱參數,j2=z、ψ,由四旋翼無人機的配置和負載條件決定,并通過系統辨識過程獲得。并且有
需要說明的是,無人機標稱動力學模型是為了給強化學習算法提供一個交互環境,用以在線生成輸入輸出數據。
依據式(1)~式(3),將四旋翼無人機的各個子系統模型重寫為如下狀態空間形式:
(4)
式中:x∈Rn×1表示無人機各個子系統的狀態向量,且假設無人機所有狀態完全可測;u∈Rm×1為控制輸入;d∈Rm×1為干擾輸入;y∈Rp×1表示無人機各個子系統的輸出(向量維數n=4或n=2,m=1,p=1);A=AN+ΔA,AN為標稱系統動力學矩陣,ΔA為由參數擾動產生的不確定性動態系統矩陣;B和D分別表示四旋翼各個子系統的控制輸入矩陣和干擾輸入矩陣。
為了使四旋翼無人機系統式(4)實現對期望軌跡的魯棒跟蹤,本節通過狀態重構的方法構建了一個包含外部干擾的四旋翼無人機增廣系統。將四旋翼無人機系統的狀態變量與期望跟蹤軌跡的狀態變量合到一起作為新構建增廣系統的狀態向量,把四旋翼無人機的魯棒跟蹤問題轉化成鎮定問題。從而解決了當時間變為無窮大時,傳統方法[22]中期望參考軌跡必須接近于零的問題。
四旋翼無人機系統的期望跟蹤軌跡如下:
(5)
式中:xr∈Rnr×1為期望跟蹤軌跡系統的狀態變量,nr為狀態變量維度;yr∈Rpr×1為期望軌跡,pr為期望軌跡輸出變量維度;Ar和Cr為適當維度的常數矩陣,用以設計不同的期望跟蹤軌跡。
結合式(4)和式(5),可以得到四旋翼無人機增廣系統動力學如下:
(6)

對于四旋翼無人機的魯棒跟蹤控制問題,可以將其轉化為對相應標稱無人機系統的最優控制問題。由于外部干擾d會影響四旋翼無人機增廣系統的軌跡跟蹤性能,要予以抑制。因此首先定義能夠反映控制系統輸出對于外部干擾輸入敏感程度的L2-增益。


(7)
式中:Q≥0,R>0,分別為系統狀態權重系數和控制輸入權重系數。式(7) 表示外部擾動d對參考軌跡跟蹤性能的影響至少可以衰減到γ的一定程度。然后定義如下價值函數:

(8)

價值函數式(8)中的正折扣因子α進一步保證了價值函數的有界性,與文獻[23]類似,它也表明當前的累計回報對價值函數的影響較大,而未來可能的回報對價值函數的影響將被削弱。
本節給出與式(8)中價值函數相關的無人機魯棒跟蹤貝爾曼方程和哈密頓-雅克比-艾薩克(HJI)方程。由于求解滿足干擾抑制條件式(7)的最優控制輸入u等價于最小化價值函數式(8),沿著四旋翼無人機的增廣系統軌跡式(6)對V(yerr,u,d)求導,得
(9)
根據式(9),可得貝爾曼方程
H(V,u,d)
(10)

(11)
式中:V*滿足下述HJI方程
H(V*,u*,d*)
(12)

證明由式(10)~式(12)可得

(13)
再結合式(12)中的H(V*,u*,d*)=0,并將u=u*代入式(13),可得

(14)

(15)
為了還原出帶有折扣因子的價值函數形式,將式(15)的兩邊同乘以e-αt,再對其兩邊同時積分,

(16)
式中:T為積分采樣時間。
由于V*(·)≥0,下述不等式成立
(17)
由式(17)可以發現,四旋翼增廣系統利用式(11)中的最優控制率u*滿足干擾抑制條件,結合式(14),當d=d*=0時,
(18)

(19)
將式(19)的左右兩邊同乘以e-αt,可得

(20)

由此可見,通過求解HJI方程式(12),可得到V*和對應的u*和d*,從而完成四旋翼無人機系統對參考軌跡的魯棒跟蹤控制任務。
首先引入基于四旋翼無人機系統動力學的強化學習算法,該算法是后面提出的不依賴系統動力學模型IRL算法的基礎。
算法1基于系統動力學的強化學習算法。
步驟1初始化:給定初始容許控制u0和干擾策略d0,i=0,i表示迭代次數;
步驟2策略評估:給定控制律ui,使用四旋翼無人機增廣系統的貝爾曼方程求解價值函數Vi+1;

(21)
步驟3策略改進:更新控制輸入和擾動輸入策略;
(22)
步驟4令i=i+1,如果滿足收斂條件‖Vi-Vi-1‖≤ε,則停止迭代,否則返回步驟2。
從式(21)、式(22)中可以看出,算法1需要完整的系統動力學模型來對價值函數Vi+1進行評估,并改進策略ui+1和di+1。而在實際應用中四旋翼無人機的精確系統動力學參數很難獲得,且直接求解HJI方程式(21)困難,因此接下來將通過設計一種基于IRL的在線同步策略更新算法來得到最優控制輸入u*和擾動輸入d*,實現四旋翼無人機在欠驅動、系統動力學模型動態不確定、和外部干擾影響下的魯棒軌跡跟蹤控制。
算法2不依賴系統動力學模型的IRL算法。
針對四旋翼無人機標稱動力學模型飛行過程中產生的輸入輸出數據樣本集,IRL算法強調在探索新的輸入輸出樣本和利用已有數據樣本之間達到平衡。鑒于此,將式(9)的兩邊同乘以e-αt,再對其兩邊同時在t到t+T(T為采樣周期)之間積分,可得無人機增廣系統的IRL貝爾曼方程如下:
(23)


圖2 算法2流程圖
如算法2所示,可以將策略評估與策略改進結合起來去求解IRL貝爾曼方程。由定理2可知,算法1與算法2等價,因此算法2的收斂性可以得到保證。
定理2算法1和算法2的等價性。算法2中,通過IRL方法求解IRL貝爾曼方程得到的(Vi+1,ui+1,di+1)與算法1中由式(21)、式(22)求得的值相同。
證明對算法2中的IRL貝爾曼方程兩側求微分并求極限,有

(24)
根據洛必達法則,

(25)

(26)
然后將式(25)和式(26)代入式(24),可得
(27)
證畢。
演員-評論家框架廣泛應用于強化學習背景中,本節基于該框架提出一種四旋翼無人機控制器的在線求解方法,系統控制框圖如圖3所示。

圖3 基于演員-評論家結構的系統控制框圖
在策略評估時,評論家依據觀測得到的系統狀態、獎勵和兩個演員的策略進行價值評估。在策略迭代時,兩個演員依據從環境中觀測到的系統狀態和從評論家處獲得的價值,來分別調節控制策略u(x)和擾動策略d(x)。如果使用神經網絡來分別近似價值函數、控制策略和擾動策略,則需要3個神經網絡,由于同時訓練3個神經網絡需要較大的計算成本,本節推導一種基于IRL的單網絡同步策略更新方法。
由于神經網絡可以逼近任意函數,算法2中的價值函數Vi+1可以近似表示為
(28)

(29)
然后有
(30)
相應地,算法2中的控制和擾動策略可以近似為
(31)
(32)

(33)
現給出算法2基于單網絡演員-評論家結構在線實現的偽代碼,如圖4所示。
1.初始化


4.在線收集數據過程:


7.收集系統的數據信息,積分采樣時間T;
8.if rankX=l
9.簡化采樣數據集X,Y;
10.else
11.繼續收集系統數據信息;
12.end if
13.IRL學習過程:

16.break
17.end if
18.end for
19.獲得最優控制u*和干擾輸入d*;
20.stop
圖4 算法2基于神經網絡在線實現的偽代碼
Fig.4 Algorithm 2 pseudo-code for online implementation based on neural networks

基于IRL的同步更新神經網絡方法是用于求解算法2中IRL貝爾曼方程的。由定理2可知算法2中的IRL貝爾曼方程和式(21)相等,即基于IRL的同步更新神經網絡方法是在數學上求解式(21)。式(21)與文獻[25]中的Lyapunov方程從純數學的角度是等價的,因此直接使用文獻[25]中的結果得到引理1。

引理1表明,基于IRL的同步更新神經網絡方法可以實現對貝爾曼方程式(21)解的一致逼近。
定理3如果引理1中的條件成立,則?ζ>0,?i0,l0,當i≥i0,l≥l0時,有
(34)

定理3進一步證明了基于IRL的同步更新神經網絡方法的一致收斂性,即該算法所求得的價值函數Vi+1可以收斂于式(21)的最優解V*。
設置兩組仿真算例來說明本文基于IRL算法控制器的有效性及優越性。第1組仿真實驗選擇較為常規的三維螺旋線作為期望參考軌跡,第2組仿真實驗則設定更為復雜的蝴蝶形快速飛行軌跡。首先構建一個虛擬的外部環境為強化學習算法生成系統數據,在虛擬外部環境中采用的四旋翼無人機模型的標稱參數如表1所示。

表1 四旋翼無人機模型的標稱參數
四旋翼無人機系統期望跟蹤的三維螺旋線軌跡由以下動力學系統生成:
(35)
(36)
算例1的仿真如圖5~圖9所示。圖5表示四旋翼無人機4個子系統IRL過程中神經網絡權重的收斂情況,從中可以看出,經過4~5次迭代后神經網絡的權值實現了收斂,說明價值函數收斂到了最優值,控制器的解趨于穩定。與演員-評論家三網絡結構相比,四旋翼無人機每一個子系統都只有一個神經網絡需要訓練,可以在有限機載資源下簡化神經網絡個數,減少計算成本。

圖5 算例1中神經網絡權重的收斂性
從圖6中可以更直觀地看出,算法2通過實時采集四旋翼無人機飛行過程中產生的輸入輸出數據,最終跟蹤上了預先設定的三維螺旋線軌跡,在具有外部干擾和不依賴無人機系統動力學模型的情況下,完成了對最優控制器的學習。從圖7和圖8中可以看出,在IRL過程中,四旋翼無人機的的縱向和橫向子系統在經過3次的控制器更新后在18 s左右基本實現了對期望參考軌跡的跟蹤,并且其姿態響應橫滾角θ和俯仰角φ同樣在18 s左右實現收斂并趨于穩定。高度和偏航子系統由于其增廣系統中的未知參數較少,所需樣本數據步長較短,在5 s左右就基本完成了跟蹤任務。由圖9可以明顯看出,在6 s和12 s時,對四旋翼無人機縱向子系統和橫向子系統的控制器進行了更新。

圖6 算例1中無人機IRL過程中的三維軌跡跟蹤曲線

圖7 算例1中IRL學習過程中的位置跟蹤

圖8 算例1中IRL學習過程中的姿態響應

圖9 算例1中IRL學習過程中無人機4個子系統控制輸入
通過算例1,可以基本證實本文通過四旋翼無人機標稱模型在初始容許控制下飛行產生的數據,在線學習到的控制器在軌跡跟蹤和抗干擾等方面的有效性。
在實際四旋翼無人機小范圍電力巡檢的飛行過程中,由于外界指令或復雜的線路,四旋翼無人機在電力巡檢過程中需要對故障點進行盤旋式多方位檢測。因此仿真算例2選擇在x軸、y軸方向發散的且更為復雜的蝴蝶形軌跡作為無人機期望跟蹤的參考軌跡,該軌跡由以下動力學系統生成:

(37)
(38)
算例2的仿真如圖10~圖15所示。由圖10~圖15可知,當期望參考軌跡設定為x軸、y軸方向發散的且更為復雜的蝴蝶形軌跡時,四旋翼無人機系統仍能在算法2的作用下,在具有外部擾動和不依賴無人機系統動力學模型的情況下,利用無人機飛行過程中產生的輸入輸出數據,實現對最優控制器的學習和更新,并最終實現對復雜期望參考軌跡的跟蹤及維持自身姿態的穩定。

圖10 算例2中神經網絡權重的收斂性

圖11 算例2中IRL學習過程中的位置跟蹤

圖12 算例2中IRL學習過程中的姿態響應

圖13 算例2中IRL學習過程中無人機4個子系統控制輸入
為了說明本文設計控制方法的魯棒性能,在18~20 s 加入如下干擾d=[sintcostsintsintcost0.2sint]T,并將本文基于IRL的算法2所學習到的控制器與傳統基于模型的LQR控制器和文獻[21]的控制方法進行對比。對于3種控制器的參數Q和R,都設計為相同的參數值。將LQR控制器和文獻[21]的控制器也作用于本文所設計的軌跡跟蹤增廣系統上。
從圖14及圖15中可以看出:3種方法均能使四旋翼無人機跟蹤上期望參考軌跡。但基于LQR和文獻[21]的控制方法在18~20 s施加外部干擾時,會出現明顯的位置波動,而本文基于IRL的控制器的控制性能沒有明顯變化,表明本文基于IRL的控制方法具有更好的魯棒性;算法2在期望參考信號的跟蹤初始階段比其他兩種控制方法的響應更為平穩,表明基于IRL的控制方法相比其他兩種方法還具有更好的收斂速度和較小的超調量。更重要的是,當無人機的工作點及自身的質量發生變化時,基于無人機系統動力學模型信息的LQR控制器不能自適應地對控制器進行調整,控制性能自然會隨之下降。而本文算法2能夠不依賴自身系統動力學模型信息自適應地學習到一個新的控制器。由此,結合算例1,可得出基于IRL的控制器相比LQR控制器和文獻[21]控制器具有更加優良的控制性能。算例2進一步展示出算法2具有較強的跟蹤控制性能和抗擾能力。結合算例1,可以證明算法2在多個場景下具有較強的穩定性。

圖14 算例2中無人機的三維軌跡跟蹤曲線

圖15 算例2中四旋翼無人機4個子系統的跟蹤誤差
本文針對存在系統模型動態不確定性和外部干擾的四旋翼無人機系統魯棒位置跟蹤問題,提出了一種不依賴四旋翼無人機系統動力學模型的單網絡IRL控制方案,使四旋翼無人機有效地完成了軌跡跟蹤任務。該控制方案結合RLOC理論和H∞控制理論,將四旋翼無人機系統的魯棒軌跡跟蹤控制問題進行了轉換。然后通過單網絡演員-評論家結構降低了算法復雜度,并利用四旋翼無人機增廣系統的輸入輸出數據對控制器在線求解。仿真結果表明,本文設計的控制方案不僅保證了受擾四旋翼無人機在不依賴系統動力學矩陣A的情況下的高精度軌跡跟蹤,而且提高了四旋翼無人機跟蹤期望軌跡時的響應速度和控制性能。