仿蝠鲼航行器游動(dòng)規(guī)律智能控制與優(yōu)化方法

2022-01-19 05:18:10魏旭飛劉洲陽(yáng)魏先利

數(shù)字海洋與水下攻防 2021年6期

魏旭飛，劉洲陽(yáng)，魏先利

（航天科工集團(tuán)第三研究院水下裝備總體部，北京 100074）

0 引言

海洋中的魚(yú)類(lèi)等生物經(jīng)歷了億萬(wàn)年的演化，在水下運(yùn)動(dòng)和環(huán)境適應(yīng)能力上展現(xiàn)出優(yōu)越特性，研究人員“道法自然”，開(kāi)展了大量仿生水下航行器的研究[1-3]。然而，受限于傳感器、材料、結(jié)構(gòu)和控制等技術(shù)，仿生水下航行器相較于真實(shí)魚(yú)類(lèi)在許多指標(biāo)上還有較大差距。以推進(jìn)效率為例，依靠尾和鰭的協(xié)調(diào)運(yùn)動(dòng)，普通魚(yú)類(lèi)的推進(jìn)效率可達(dá)80%，鲹科魚(yú)類(lèi)則超過(guò)90%，而普通螺旋槳推進(jìn)器的平均效率僅為 40%～50%[4]。因此，如何提高游動(dòng)性能已經(jīng)成為仿生水下航行器領(lǐng)域一個(gè)重要的科學(xué)問(wèn)題。

游動(dòng)性能的提升涉及水動(dòng)力構(gòu)形、結(jié)構(gòu)機(jī)構(gòu)、驅(qū)動(dòng)方式、運(yùn)動(dòng)控制等多學(xué)科的優(yōu)化，是個(gè)非常復(fù)雜的耦合問(wèn)題。Anderson設(shè)計(jì)了升沉和俯仰2個(gè)自由度的二維平板擺動(dòng)實(shí)驗(yàn)，通過(guò)測(cè)量尾鰭輸入和輸出的功率來(lái)計(jì)算推進(jìn)效率，證明了仿生機(jī)器魚(yú)推進(jìn)效率優(yōu)于傳統(tǒng)機(jī)械方式[5]。哈工程的蘇玉民團(tuán)隊(duì)從水動(dòng)力性能出發(fā)，通過(guò)計(jì)算流體力學(xué)仿真發(fā)現(xiàn)調(diào)整弦向變形相位角可以使尾鰭節(jié)省能量[6]。中科院自動(dòng)化所喻俊志團(tuán)隊(duì)從驅(qū)動(dòng)裝置優(yōu)化的角度出發(fā)，設(shè)計(jì)曲柄滑塊裝置，避免了電機(jī)因不斷加速和減速而造成的能量損失，從而提升了性能[7]。北航梁建宏團(tuán)隊(duì)通過(guò)水動(dòng)力學(xué)定性觀察和定量測(cè)量實(shí)驗(yàn)發(fā)現(xiàn)游動(dòng)能耗會(huì)隨著擺動(dòng)頻率和相對(duì)波長(zhǎng)的增大而增大[8]。國(guó)防科大王光明團(tuán)隊(duì)通過(guò)樣機(jī)試驗(yàn)研究了波動(dòng)鰭條結(jié)構(gòu)、鰭面材料、擺動(dòng)頻率和波形數(shù)目對(duì)波動(dòng)鰭推進(jìn)效果的影響，發(fā)現(xiàn)擺動(dòng)頻率和幅值對(duì)推進(jìn)性能影響最大[9]。

可以發(fā)現(xiàn)，目前仿生游動(dòng)性能的研究主要采用計(jì)算流體力學(xué)和樣機(jī)試驗(yàn)方法，通過(guò)人為控制各運(yùn)動(dòng)參數(shù)來(lái)探究游動(dòng)性能的影響因素，獲得的往往是一套固化的游動(dòng)參數(shù)。然而，真實(shí)魚(yú)類(lèi)的游動(dòng)規(guī)律會(huì)隨著水下環(huán)境的變化而變化，若采用固化的游動(dòng)規(guī)律，仿生航行器的表現(xiàn)顯然是差強(qiáng)人意的。為了解決這一問(wèn)題，本文將采用深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning，DRL）方法，在初始游動(dòng)規(guī)律的基礎(chǔ)上進(jìn)一步挖掘仿生航行器游動(dòng)性能的提升空間，通過(guò)仿生航行器的自我試錯(cuò)，在游動(dòng)參數(shù)空間中學(xué)習(xí)高效的游動(dòng)策略。

1 深度強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境

訓(xùn)練環(huán)境主要包括航行器運(yùn)動(dòng)特性的模擬，狀態(tài)空間、動(dòng)作空間與回報(bào)函數(shù)的設(shè)計(jì)，并承擔(dān)著數(shù)據(jù)歸一化、游動(dòng)性能評(píng)價(jià)、回報(bào)函數(shù)計(jì)算等作用。

1.1 仿蝠鲼運(yùn)動(dòng)模型

仿蝠鲼航行器通過(guò)柔性胸鰭擺動(dòng)提供矢量推力實(shí)現(xiàn)機(jī)動(dòng)航行。胸鰭運(yùn)動(dòng)可簡(jiǎn)化為沿展向的周期性擺動(dòng)運(yùn)動(dòng)和沿弦向的周期性扭轉(zhuǎn)運(yùn)動(dòng)，其數(shù)學(xué)描述如下：

式中：下標(biāo)flap代表擺動(dòng)；θf(wàn)lap(t)為t時(shí)刻的擺動(dòng)角；Aflap為胸鰭最大擺幅；fflap為胸鰭擺動(dòng)頻率；φ0flap為胸鰭擺動(dòng)初始時(shí)刻相位，Bflap為胸鰭擺動(dòng)角偏置；下標(biāo)twist代表扭轉(zhuǎn)；θtwist(t)為t時(shí)刻的扭轉(zhuǎn)角；Atwist為胸鰭最大扭幅；ftwist為胸鰭扭轉(zhuǎn)頻率；φ0twist為胸鰭扭轉(zhuǎn)初始時(shí)刻相位；Btwist為胸鰭扭轉(zhuǎn)角偏置；Δφ是胸鰭扭轉(zhuǎn)角初始相位與擺動(dòng)角初始相位的差值，簡(jiǎn)稱(chēng)扭擺相位差。

1.2 狀態(tài)量和動(dòng)作量設(shè)計(jì)

仿蝠鲼航行器的游動(dòng)過(guò)程可用馬爾科夫決策過(guò)程建模描述。考慮仿蝠鲼航行器智能體與環(huán)境的交互軌跡：

式中：st表示t時(shí)刻智能體的狀態(tài)；at表示t時(shí)刻智能體執(zhí)行的動(dòng)作。對(duì)于深度強(qiáng)化學(xué)習(xí)而言，選取何種狀態(tài)量作為智能體的觀測(cè)進(jìn)行訓(xùn)練直接影響算法的收斂能力，需要精心設(shè)計(jì)。為充分描述航行器前向游動(dòng)狀態(tài)，本文選取5維向量st=[dvx,vx,vy,?,wz]作為狀態(tài)量，包括期望前向速度與當(dāng)前前向速度的差dvx、前向速度vx、航行器y軸速度vy、俯仰角?和俯仰角速度wz。其中各參數(shù)的取值范圍及含義詳見(jiàn)表1所示。

表1 智能體觀測(cè)狀態(tài)量Tab.1 Observation variables of the agent

考慮到設(shè)計(jì)目標(biāo)是提升航行器直航過(guò)程中的游動(dòng)性能，為了降低問(wèn)題的維度，減少不必要的試錯(cuò)成本，本文選用左右胸鰭對(duì)稱(chēng)運(yùn)動(dòng)的方式。此外，為降低仿蝠鲼航行器往復(fù)的俯仰運(yùn)動(dòng)對(duì)游動(dòng)平穩(wěn)性的影響，設(shè)計(jì)PD控制器以期望俯仰角為零進(jìn)行俯仰控制。綜上，本文選取at=[Aflap,Atwist,Δφ]作為智能體的動(dòng)作量，包括胸鰭擺幅Aflap，胸鰭扭幅Atwist和扭擺相位差Δφ，各動(dòng)作量的取值范圍和含義如表2所示。

表2 環(huán)境模型動(dòng)作量Tab.2 Action variables of environment model

此外，胸鰭的運(yùn)動(dòng)頻率設(shè)置為fflap=ftwist=0.5 Hz，擺動(dòng)角偏置Bflap和扭轉(zhuǎn)角偏置Btwist設(shè)置為 0°。為降低數(shù)據(jù)的方差，提高深度神經(jīng)網(wǎng)絡(luò)收斂速度，狀態(tài)量和動(dòng)作量在送入深度神經(jīng)網(wǎng)絡(luò)前進(jìn)行歸一化處理，將其取值歸一化到[-1,1]范圍內(nèi)。

1.3 回報(bào)函數(shù)設(shè)計(jì)

回報(bào)函數(shù)設(shè)計(jì)是深度強(qiáng)化學(xué)習(xí)研究中的重要環(huán)節(jié)，需要根據(jù)任務(wù)進(jìn)行人工設(shè)計(jì)和調(diào)優(yōu)。本文選用如下的直航游動(dòng)性能評(píng)價(jià)方式：

基于上述評(píng)價(jià)方式，回報(bào)函數(shù)設(shè)計(jì)如下：

式中：W為航行器在一個(gè)周期內(nèi)航行所耗費(fèi)的功；reward0為回報(bào)函數(shù)基準(zhǔn)；0.35是期望速度，m/s。

2 基于DDPG的仿蝠鲼航行器游動(dòng)性能優(yōu)化控制

DDPG算法非常適合解決連續(xù)動(dòng)作空間問(wèn)題[10]，在此基礎(chǔ)上，本文利用經(jīng)驗(yàn)回放池（replay experience buffer）和預(yù)熱輪（warm up）方式提高樣本利用率，改善DDPG的學(xué)習(xí)能力。

2.1 算法結(jié)構(gòu)

DDPG由4個(gè)網(wǎng)絡(luò)組成，分別是：Actor當(dāng)前網(wǎng)絡(luò)、Actor目標(biāo)網(wǎng)絡(luò)、Critic當(dāng)前網(wǎng)絡(luò)、Critic目標(biāo)網(wǎng)絡(luò)。為了穩(wěn)定學(xué)習(xí)過(guò)程，采用軟更新機(jī)制更新網(wǎng)絡(luò)參數(shù)，即

為了增加算法的探索性，DDPG的動(dòng)作A會(huì)增加噪聲N：

Critic當(dāng)前網(wǎng)絡(luò)的損失函數(shù)是：

Actor當(dāng)前網(wǎng)絡(luò)的損失函數(shù)是：

2.2 訓(xùn)練樣本

經(jīng)驗(yàn)回放池replay buffer的總存儲(chǔ)量1 000 000，在warm up至其中有256個(gè)樣本后開(kāi)始訓(xùn)練。每批次在 replay buffer中隨機(jī)選取 128個(gè)樣本進(jìn)行學(xué)習(xí)，取訓(xùn)練總步數(shù)為500 000。

2.3 控制模型設(shè)計(jì)

控制算法模型為多層感知機(jī)。Actor網(wǎng)絡(luò)采用節(jié)點(diǎn)數(shù)分別為64和32的兩層全連接隱層，激活函數(shù)使用Relu。輸出層選用全連接層，維度為3，激活函數(shù)選用 tanh，保證 Actor網(wǎng)絡(luò)的輸出在-1～1之間。Actor網(wǎng)絡(luò)使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化，學(xué)習(xí)率0.001。

Critic網(wǎng)絡(luò)采用節(jié)點(diǎn)數(shù)分別為64和32的兩層全連接隱層，激活函數(shù)使用Relu。輸出層為狀態(tài)-動(dòng)作值Q，維度為1。Critic網(wǎng)絡(luò)使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化，學(xué)習(xí)率0.001。

同經(jīng)典 DDPG算法一致，本文使用目標(biāo)網(wǎng)絡(luò)增強(qiáng)神經(jīng)網(wǎng)絡(luò)收斂的穩(wěn)定性，取更新系數(shù)τ= 0.001。在控制策略探索方面，為保證算法具有一定的探索性，在歸一化的動(dòng)作量上添加期望為 0，方差為ε= 0.1的高斯噪聲。

2.4 訓(xùn)練周期

仿蝠鲼航行器選取 0.5 Hz的胸鰭運(yùn)動(dòng)頻率，胸鰭控制信號(hào) 1 s更新一次，尾鰭控制信號(hào) 0.1 s更新一次。為了更加準(zhǔn)確地評(píng)估胸鰭運(yùn)動(dòng)方式對(duì)游動(dòng)性能的影響，強(qiáng)化學(xué)習(xí)的步長(zhǎng)與胸鰭運(yùn)動(dòng)周期保持一致。航行器運(yùn)動(dòng)5個(gè)周期構(gòu)成一次訓(xùn)練輪次。

2.5 終止條件設(shè)計(jì)

每輪訓(xùn)練的終止條件是完成全程航行或失穩(wěn)。

完成全程航行主要根據(jù)該輪次的終止時(shí)間判斷，若終止時(shí)間等于該輪次的設(shè)計(jì)航行總時(shí)間則判定航行器成功完成全程航行。

失穩(wěn)判定主要依據(jù)姿態(tài)角和速度，標(biāo)準(zhǔn)為

當(dāng)一輪訓(xùn)練終止而當(dāng)前訓(xùn)練總步數(shù)未達(dá)設(shè)計(jì)訓(xùn)練總步數(shù)時(shí)，重置環(huán)境，開(kāi)始新一輪訓(xùn)練。

3 訓(xùn)練及仿真試驗(yàn)結(jié)果

3.1 訓(xùn)練結(jié)果分析

訓(xùn)練持續(xù)2 000步左右時(shí)模型收斂，繼續(xù)訓(xùn)練到45 000步提前終止訓(xùn)練，圖1為訓(xùn)練過(guò)程中回報(bào)函數(shù)值隨訓(xùn)練步數(shù)變化曲線。

圖1 訓(xùn)練過(guò)程中回報(bào)函數(shù)值變化情況Fig.1 Variation of train reward during training

圖2為訓(xùn)練過(guò)程中每隔100步進(jìn)行測(cè)試的回報(bào)函數(shù)曲線，可以看出神經(jīng)網(wǎng)絡(luò)模型的收斂較為穩(wěn)定，即使因?yàn)殡S機(jī)樣本導(dǎo)致學(xué)習(xí)偶爾進(jìn)入局部最優(yōu)也能很快恢復(fù)到較好的水平。

圖2 訓(xùn)練過(guò)程中測(cè)試時(shí)的回報(bào)函數(shù)值變化情況Fig.2 Variation of evaluate reward during training

3.2 控制結(jié)果分析

為評(píng)估神經(jīng)網(wǎng)絡(luò)控制模型的控制效果，首先考察基準(zhǔn)控制策略的控制效果。以擺幅30°，扭幅30°，相位差90°這一固化游動(dòng)控制策略作為基準(zhǔn)進(jìn)行控制仿真。仿真中取初速度0.35 m/s，仿真40 s，過(guò)程中狀態(tài)量變化情況如圖3所示。從圖中可以看出，航行器平均速度約為0.32 m/s，俯仰角在±30°以內(nèi)。

圖3 基準(zhǔn)控制策略下系統(tǒng)狀態(tài)變化情況Fig.3 System state variation during baseline swimming strategy

圖4展示了胸鰭擺動(dòng)和扭轉(zhuǎn)運(yùn)動(dòng)的實(shí)際變化情況，其中上方為實(shí)時(shí)控制指令，下方為經(jīng)過(guò)舵機(jī)模型后的實(shí)際執(zhí)行指令，相比實(shí)時(shí)控制指令存在一個(gè)較小的延遲?？梢钥闯觯叫衅餍伥挃[動(dòng)和扭轉(zhuǎn)均以正弦形式運(yùn)動(dòng)，運(yùn)動(dòng)曲線平滑連續(xù)。

圖4 基準(zhǔn)控制策略控制擺幅和扭幅實(shí)際值Fig.4 Variation of the amplitude of flap and the amplitude of twist during baseline swimming strategy

經(jīng)統(tǒng)計(jì)，在基準(zhǔn)游動(dòng)控制策略下，航行器平均速度0.325 7 m/s，游動(dòng)能效為0.052 7 m/J。

接下來(lái)驗(yàn)證基于DRL的控制模型。令航行器以初速度0.35 m/s開(kāi)始航行40 s，完成任務(wù)后查看航行狀態(tài)，統(tǒng)計(jì)平均游速和游動(dòng)能效值。

圖5展示了收斂后的神經(jīng)網(wǎng)絡(luò)模型控制狀態(tài)變化。從圖中可以看出，航行器平均速度在0.4 m/s附近，俯仰角保持在±40°以內(nèi)。3個(gè)執(zhí)行機(jī)構(gòu)的可控維度均參與了控制，擺幅在12°～30°之間變化，扭幅變化不大，基本維持在 30°附近，相位差在125°～180°之間變化。

圖5 神經(jīng)網(wǎng)絡(luò)模型系統(tǒng)狀態(tài)變化情況及動(dòng)作量）Fig.5 The variation of system state and action during NN-based swimming strategy

圖6展示了胸鰭擺動(dòng)和扭轉(zhuǎn)運(yùn)動(dòng)的實(shí)際變化情況，其中上方為實(shí)時(shí)控制指令，下方為經(jīng)過(guò)舵機(jī)模型后的實(shí)際執(zhí)行指令?？梢钥闯?，航行器胸鰭擺動(dòng)和扭轉(zhuǎn)均以正弦形式運(yùn)動(dòng)，運(yùn)動(dòng)曲線在指令切換時(shí)存在較小的抖動(dòng)但仍處于可用狀態(tài)。

圖6 神經(jīng)網(wǎng)絡(luò)模型控制擺幅和扭幅實(shí)際值Fig.6 The variation of flap amplitude（left）and twist amplitude（right）during NN-based swimming strategy

經(jīng)統(tǒng)計(jì)，在基于DDPG的游動(dòng)控制策略下，航行器平均速度0.372 8 m/s，游動(dòng)能效為0.065 6 m/J。相比基準(zhǔn)游動(dòng)控制策略，航行速度提升0.047 1 m/s（14.46%），游動(dòng)能效提升0.012 9 m/J（24.48%）。

4 結(jié)束語(yǔ)

本文從控制策略優(yōu)化的角度出發(fā)，以仿蝠鲼航行器為研究對(duì)象，使用基于DDPG的DRL方法對(duì)直航游動(dòng)規(guī)律進(jìn)行優(yōu)化。訓(xùn)練完成后與固化的游動(dòng)策略進(jìn)行了比較，在 40 s的游動(dòng)時(shí)間內(nèi)，優(yōu)化后的游動(dòng)策略在航行速度上相比基準(zhǔn)游動(dòng)控制策略提升了14.46%，在游動(dòng)能效上降低了24.48%，在降低能量消耗的同時(shí)獲取了更快的前向游速，從而實(shí)現(xiàn)了游動(dòng)性能的提升。該方法同樣適用于其他仿生推進(jìn)方式的水下航行器游動(dòng)規(guī)律優(yōu)化設(shè)計(jì)。