999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度確定性策略梯度算法用于無人飛行器控制

2021-11-30 13:34:06黃旭柳嘉潤賈晨輝王昭磊張雋
航空學報 2021年11期
關鍵詞:智能策略

黃旭,柳嘉潤,*,賈晨輝,王昭磊,張雋

1. 北京航天自動控制研究所,北京 100854

2. 宇航智能控制技術國家級重點實驗室,北京 100854

智能無人飛行器是由無人機、導彈等無人平臺及其有關設備組成的有機整體,具有感知、學習、決策等智能特征[1]。小型無人飛行器由于其經濟性、可重復使用等特點,常以原型機的形式來進行相關智能技術的測試和驗證,如美國國防部高級研究計劃局(DARPA)變外形飛行器項目中用來驗證變形翼的MFX-1飛行器[2]。

對于小型無人飛行器,其飛行控制系統主要由制導控制外環以及姿態控制內環組成,起到保持飛行器飛行穩定和快速精確地到達飛行目標等關鍵性作用。此類飛行器一般建模存在偏差并且是典型的復雜非線性系統,這些無疑都給其飛行控制系統的設計增加了難度。除此之外,飛行器在飛行過程中也會受到如切變風的外部不確定性干擾。為了有效解決此類問題,各國研究人員在基于模型的控制方法上進行了大量的研究工作:從經典的PID控制,到自適應控制[3]、滑模變結構控制[4]、魯棒容錯控制[5]、動態逆控制[6]和模型預測控制[7]等。然而隨著被控對象復雜程度的增加、控制精度要求的提高、對對象和環境知識的減少,迫切需要提高控制系統的自適應學習能力以及魯棒性等[8]。

隨著人工智能技術的發展,近20年一類數據驅動的即基于強化學習的飛行控制方法進入了控制科學領域研究學者的視野。強化學習可以使智能體不斷與環境進行交互,從數據中學習相應的飛行控制策略,而無需對模型進行如約束簡化等處理。20世紀末期華裔科學家吳恩達就在其智能直升機實驗室進行了很多強化學習相關的應用研究:文獻[9]利用策略梯度算法對無人直升機懸停進行了控制;文獻[10]對前者的方法進行了拓展優化,加入了偏差動態規劃和線性二次校正器,使無人直升機可以完成高機動動作。且近幾年興起的深度強化學習則通過引入深度學習的表征能力以及對傳統強化學習算法的改進優化使其性能進一步提升,其中有代表性的算法之一就是確定性策略梯度(Deterministic Policy Gradient,DPG)算法[11],本文所用的算法是其優化版本即深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[12]。除此之外與之相對的還有基于隨機策略的置信域策略優化(Trust Region Policy Optimization,TRPO)算法[13]和近端策略優化(Proximal Policy Optimization,PPO)算法[14]等。文獻[15]提出了一種新型的策略梯度學習方法實現了四旋翼以任意姿勢手拋起飛后的姿態回正;文獻[16]在仿真環境中用強化學習訓練四旋翼角速率內環控制器,通過仿真驗證其部分控制性能優于PID控制器;文獻[17]提出了一種基于策略梯度算法的輔助控制器,將強化學習訓練的控制器與設計的非線性控制器相結合,增強了智能體訓練的速度和實際飛行器飛行中的穩定性;文獻[18]將添加約束的誤差積分信息引入到智能體能觀察到的環境狀態中,改善了訓練過程以及最終的控制穩定性。以上文獻均以四旋翼為研究對象,通過改進強化學習算法和優化環境信息等方式來實現智能體對飛行器的有效控制。本文參考了以上文獻的部分思想并進行改進優化,針對實驗室自研的“麻雀-1”小型無人飛行器(簡稱“麻雀”飛行器)模型進行基于深度確定性策略梯度算法的飛行控制研究。從相關文獻以及工程經驗中總結可得出,使用未預訓練的智能體在實際飛行過程中學習無法滿足飛行器實時性和工程化要求,所以此類方法一般需要建立離線訓練模擬器,讓智能體在模擬器中學習飛行控制策略后再進行實際飛行控制,該類飛行控制方法目前處于研究探索階段。

不同于無人直升機和四旋翼,“麻雀”飛行器為非傳統構型的小型無人飛行器,縱平面中主要研究其高度速度控制。首先設計馬爾科夫決策過程(Markov Decision Process,MDP)時,以多數據幀代替誤差積分將歷史信息引入到環境狀態中;并且為了提高樣本的多樣性在飛行器達到目標狀態時還會給予智能體一定的稀疏獎勵。接著設計基于比例微分(Proportion Differential,PD)控制的高度速度輔助控制器,該控制器性能較差僅能在一定程度上維持飛行穩定,將智能體與該控制器的綜合信號作為飛行器控制信號以優化智能體訓練過程并且在在線飛行控制時兩者能有效互補。訓練后的智能體擁有良好的飛行控制性能,并有很強的泛化能力和魯棒性。本文主要進行了此智能飛行控制方法的研究探索工作,該方法具有一定的研究價值和工程參考價值。

1 飛行器簡介及數學模型

1.1 飛行器簡介

“麻雀”飛行器為實驗室自研的低成本重復使用飛行器,圖1為其設計外形圖。該飛行器由圓頭錐形頭部、柱形機身、腹部矩形進氣道、1對梯形機翼、1片背鰭、3片“┴”形配置的尾舵、微型涵道風扇發動機組成。適用于低空低速飛行,主要用于相關飛行控制算法驗證。該飛行器長度約為0.4 m,直徑約為0.06 m,質量約為0.7 kg。圖1中δ1、δ2以及δ3為3片尾舵的實際偏轉角,箭頭為定義的正方向,實際偏轉角由姿態控制器輸出的三通道等效舵偏角經過舵分解得到。

圖1 “麻雀”飛行器外形

1.2 飛行器數學模型

考慮“麻雀”飛行器縱平面運動模型。飛行器的體坐標系按北天東定義,假設場景為平面大地且無風,并不考慮飛行器橫側向運動。

飛行器縱向運動方程為

H=y

(1)

(2)

(3)

α=φ-θ

(4)

(5)

式中:H為高度,即對應飛行器在發射坐標系Y方向上的位置y;Vx和Vy分別為X和Y方向上的速度;V為總速度;θ為速度傾角;φ為俯仰角;α為攻角。

飛行器受到推力P、重力mg和空氣動力的作用,縱向動力學方程為

(6)

(7)

(8)

(9)

(10)

(11)

式中:m為飛行器質量;A為軸向氣動力;N為法向氣動力;ωz為飛行器繞體軸z1的轉動角速度;Mz為俯仰氣動力矩;Jz為俯仰轉動慣量。其中,氣動力和氣動力矩計算方法為

A=CAqSref

(12)

N=CNqSref

(13)

(14)

(15)

式中:CA為軸向力系數;CN為法向力系數;CMz為俯仰力矩系數;Cmq和Cαq分別為俯仰力矩系數關于俯仰角速度和攻角變化量的偏導數;Sref為氣動參考面積;Lref為氣動參考長度;q為動壓。由于飛行高度較低,大氣密度ρ默認不變,其他相關氣動系數由高度H、速度V、攻角α和等效俯仰舵偏角δφ插值得出:

C*=C*(H,V,α,δφ)

(16)

從整個縱平面高度和速度控制模型可以看出,“麻雀”飛行器在縱平面的控制輸入為發動機推力和其升降舵的等效俯仰舵偏角。該模型的狀態變量為X=[x,y,Vx,Vy,φ,ωz]T,即飛行器的位置、速度、姿態角和姿態角速度。由于飛行過程中高度、速度、攻角和等效俯仰舵偏角均在變化,從而相關的氣動力系數和氣動力矩系數也在變化,模型呈現非線性特性。本文的目標就是在不對該模型進行線性化等處理的情況下,利用深度強化學習通過飛行數據訓練智能體自主學習飛行控制策略。

舵機特性和發動機特性在仿真中用一階慣性環節串聯限幅環節表征。其中δφ=[-10°,+10°]且P=[0, 5] N,系統當前時間步t的輸入為ut=[δφ t,Pt]T。

(17)

(18)

2 具體方案

2.1 深度確定性策略梯度算法

強化學習這類算法根本上是以試錯的機制與環境進行交互,通過最大化累積回報的方式來訓練智能體學習最優策略,它要解決的是序貫決策問題,它不關心輸入長什么樣,只關心當前輸入下應該采取什么動作才能實現最終的目標,即使得整個任務序列達到最優的策略[19]。強化學習中問題常被描述為一個馬爾科夫決策過程,且MDP也是當前強化學習理論推導的基石。標準的MDP由一個五元組(S,A,P,R,γ)構成。

DDPG是離策略(Off-policy)的基于Actor-Critic[20]架構的深度強化學習算法,一般以神經網絡的形式來實現Actor函數和Critic函數。在該算法中,確定性策略μ(s|θμ)由Actor網絡表征,θμ為網絡參數。而狀態行為值函數Q(s,a|θQ)由Critic網絡表征,θQ為網絡參數。Actor網絡參數根據目標函數J(μ)的梯度進行更新[11]:

(19)

式中:E表示期望;ρμ為確定性策略的狀態分布;Qμ(s,a)為真實的狀態行為值函數。

Critic網絡參數則根據基于值函數的強化學習算法(如Q學習[21]算法)中最小化時間差分誤差[22](Time Difference error,TD-error)的形式進行迭代更新:

(20)

(21)

式中:αQ為Critic網絡的學習率。

最終,Actor網絡參數就可按以下形式更新:

(22)

式中:αμ為Actor網絡的學習率。

除此之外,DDPG還充分借鑒了深度Q網絡算法[23](Deep Q Network,DQN)中的經驗回放和固定目標網絡的思想。經驗回放需要在記憶回放單元中以(si,ai,ri+1,si+1)的形式存儲樣本,后進行采樣學習以模擬人類大腦的回憶學習過程。固定目標網絡的思想是需再增加一個目標Actor網絡μ′(s|θμ′)和目標Critic網絡Q′(s,a|θQ′)來減小樣本的相關性以優化策略和狀態行為值更新結果。對式(19)~式(22)的網絡更新進行以下改進:

yi=ri+1+γQ′(si+1,μ′(si+1|θμ′)|θQ′)

(23)

(24)

(25)

(26)

(27)

(28)

式中:N為每次批量學習時采樣的樣本量。

不同于DQN算法直接將策略網絡的參數賦值給目標網絡,DDPG采用的是更加平滑的類似慣性更新的思想進行目標網絡參數更新:

(29)

式中:τ為慣性更新率。

2.2 問題描述及智能體訓練流程

要訓練智能體對飛行器進行飛行控制,則首先需要明確智能體能觀察到的環境狀態、可執行的動作以及與環境交互過程中獲得的回報形式,即MDP的設計。

如果以單幀的高度速度誤差以及姿態角等信息作為智能體單次觀察到的狀態,該狀態缺少環境的歷史信息并且外加學習過程中算法本身狀態行為值估計等原因,訓練出的智能體在實際飛行控制時易產生明顯的穩態誤差以及穩定性較差等問題。文獻[18]通過在狀態中引入帶限制的誤差積分有效改善了上述問題并使訓練結果得到優化,但誤差積分本身不為飛行狀態,傳感器不能直接測得,本文聯系深度強化學習應用于游戲時常采用的多幀圖像同時輸入卷積神經網絡的思路[24],選擇控制周期為步長的5幀數據幀作為當前時刻的環境狀態,狀態空間為30維,單幀數據由高度偏差、高度變化量、速度偏差、速度變化量、俯仰角以及俯仰角速度張成:

(30)

等效俯仰舵偏信號和發動機推力信號作為智能體動作。相對于四旋翼這類多通道控制輸入均為電機轉速的飛行器,“麻雀”飛行器縱平面的控制量性質不一致,即智能體的動作輸出為等效俯仰舵偏角指令以及發動機推力指令,這也給智能體的訓練和回報函數的設計增加了難度:

at=[δφ t,Pt]T

(31)

立即回報與智能體執行動作后的狀態偏差值、動作幅度以及達到目標區間時獲得的稀疏獎勵等相關:

rt=-(w1|ΔHt|+w2|ΔVt|+w3|δφ t-1|+

(32)

立即回報中將所有的偏差均作為懲罰項(高度偏差|ΔHt|和速度偏差|ΔVt|),當控制效果不佳時懲罰值將會很大,當智能體控制飛行器在穩態點附近時懲罰值接近于0,以此形式設置立即回報體現了智能體策略目標是在整個飛行任務中控制飛行器在穩態點處穩定飛行。且飛行過程中還需要注意能量消耗(控制量項|δφ t-1|和|Pt-1|),能量消耗越大則立即回報越小。以上各懲罰因子分別取w1=0.5,w2=0.05,w3=0.005以及w4=0.001,即當前時刻高度和速度偏差值越大,立即回報越小。w1大于w2表明智能體的控制目標主要以高度控制為主,速度控制重要性弱于高度控制。w3和w4遠小于w1和w2表明對偏差的控制重要程度要強于能量消耗。

本文所用的神經網絡結構如圖2所示,均為多隱層反向傳播(Back Propagation,BP)前饋神經網絡,后文中簡稱為BP神經網絡,由于輸入維數較低則無需使用多層卷積神經網絡。對于Actor網絡,其輸入層擁有30個神經元對應30維的環境狀態;中間3個全連接形式的隱含層均擁有64個神經元,激活函數為ReLU;輸出層擁有2個神經元對應2維的智能體動作,激活函數為tanh,這樣添加偏置后就能讓智能體的輸出限定在一定的范圍內。

圖2 神經網絡結構

對于Critic網絡,其輸入層擁有32個輸入神經元對應30維的環境狀態以及2維的智能體動作;狀態輸入經過2個64神經元的全連接層后與動作輸入經過1個64神經元的全連接層的輸出進行同維求和,最后再經過一個64神經元的全連接層后輸出,輸出為1維對應輸入狀態和動作下的狀態行為值,激活函數均為ReLU。策略網絡和目標網絡的網絡結構對應一致。

PD高度速度輔助控制器的結構如圖3所示。圖4(圖中Hc為參考高度)表明該控制器在定控制參數的條件下僅能一定程度上維持飛行穩定,而無法單獨控制飛行器完成實際的飛行任務。

圖3 PD 輔助控制器結構

圖4 PD 輔助控制器獨立控制結果

智能體離線訓練時,將策略Actor網絡的輸出信號和PD輔助控制器的信號綜合后作為控制信號進行飛行控制。由于確定性策略中動作選擇的固定性,需要在訓練時對策略Actor網絡的輸出添加噪聲,以增強強化學習中的探索過程。

訓練開始時首先對策略Actor網絡以及策略Critic網絡的參數進行隨機初始化,再將參數賦值給對應的目標網絡。接著開始進行實驗(Episode),本文每次實驗設定固定的飛行任務及飛行時間,初始狀態會在一定范圍內隨機變化,將智能體的控制周期作為時間步(Time step),注意MDP中的st和at一類的下標t代表時間步而不是指實際飛行時間。在每個時間步中,當前狀態st輸入策略Actor網絡從而輸出當前動作at,at與輔助控制器的信號綜合作為控制系統輸入ut,這樣通過四階龍格庫塔積分便可得到飛行器下一時間步的飛行狀態,從而得到下一時間步狀態st+1,并可根據設計好的回報函數形式計算立即回報rt+1,將(st,at,rt+1,st+1)作為一個飛行樣本存儲在記憶回放單元中就可以通過DDPG算法進行飛行策略的學習即更新4個網絡對應的網絡參數。

綜上,本文離線訓練算法如算法1所示。

算法1 基于DDPG的飛行器控制離線訓練算法1.隨機初始化策略Actor網絡和策略Critic網絡參數θμ,θQ;將策略網絡參數初始化對應目標網絡θQ'←θQ,θμ'←θμ;初始化存儲量為M的記憶回放單元D;在飛行模擬器中加載飛行器模型以及輔助控制器2. for Episode=1 to MaxEpisode do3. 初始化本次實驗探索噪聲分布N(0,σ2)4. 設定范圍內隨機初始化飛行器初始狀態,得到s15. fort=1 to MaxStep do6. 通過st選擇動作at=μ(st|θμ)+nt, nt為探索噪聲7. at和輔助控制器信號綜合得到控制信號ut8. 積分得到下一時間步飛行器狀態,得st+19. 通過式(32)計算立即回報rt+110.將樣本(st,at,rt+1,st+1)存儲在記憶回放單元D中11.∥網絡更新12.在記憶回放單元D中進行隨機采樣,取N個樣本13.按式(23)、式(25)~式(26)更新策略Critic網絡參數θQ14.按式(27)~式(28)更新策略Actor網絡參數θμ15.按式(29)更新2個目標網絡參數θQ',θμ'16.if下一時刻飛行狀態超出飛行邊界時then17. break18.endif19.end for20.end for

2.3 在線控制流程

在線控制與訓練過程不同,深度強化學習的功能是訓練智能體,在不考慮在線學習的前提下訓練算法在實際飛行控制中不再生效,最終被用作飛行控制器的智能體為深度強化學習的一部分,對于DDPG而言,即其目標Actor網絡。故最終進行在線控制時的系統結構如圖5所示,將5個數據幀的環境狀態輸入訓練好的目標Actor網絡,網絡輸出的智能體動作與PD輔助控制器的信號綜合以進行飛行器的在線控制??梢栽谠诰€控制仿真時注入與訓練時不同的不確定性以衡量智能體的控制能力。圖5中xt為PD控制需要的狀態變量,包括高度偏差、速度偏差以及它們的變化量。

圖5 智能體在線控制流程

3 訓練及仿真分析

3.1 智能體訓練

綜合第2節內容,智能體的訓練過程中系統分為控制子系統和學習子系統??刂谱酉到y實際上就是由在線控制的幾個環節構成,在訓練過程中控制過程是一個連續過程,智能體接收環境狀態后根據當前的控制策略輸出控制量,被控對象即飛行器接收控制量改變運動狀態從而在搭建的環境中飛行,這就形成了一個閉環過程。相比于控制子系統,學習子系統則是離散的,DDPG是離策略的深度強化學習算法,這就意味著智能體的學習過程不是同智能體的探索過程同時進行的,而是借助記憶回放單元中的數據以更新各網絡參數。本節進行智能體訓練過程分析。

訓練中每次實驗飛行器初始狀態取值區間見表1,訓練的相關參數見表2。訓練中的飛行任務與2.2節PD輔助控制器獨立控制時的任務一致,控制周期為0.01 s,積分周期為0.002 s,單次實驗最大飛行時間為100 s。初始姿態角在高度為50 m、速度為30 m/s的定速平飛狀態配平值附近。

表1 訓練中初始飛行狀態

表2 訓練參數

累積回報曲線可以一定程度上反映智能體在訓練過程中的性能變化。訓練過程中每10次實驗的平均累積回報Rave隨實驗次數變化情況如圖6 中紅色曲線所示。訓練開始時,部分實驗中飛行器會在大偏差狀態下飛行從而使累積回報達到很大的負值情況;同時也會存在沒有達到100 s的單次實驗時間就發生墜機和其他超界的情況(累積回報在-1 000左右的情況);智能體在140次實驗后其飛行控制能力開始有顯著提升并達到飛行控制要求,且時間差分誤差逐漸達到收斂要求。

圖6 累積回報及時間差分誤差曲線

由于智能體要同時履行制導和姿控兩項任務,狀態空間和動作空間維度較大,這些都提高了智能體的訓練難度。前期實驗中在沒有PD輔助控制器的條件下進行智能體訓練時,對于定高定速的簡單飛行任務智能體在2 000次實驗前均達不到穩定控制的要求,可見此類輔助控制器可以在一定程度上改善智能體的訓練過程。

針對訓練時的飛行任務,智能體在線控制結果如圖7所示,控制量及姿態角曲線如圖8所示。智能體有效學習了飛行器的控制策略,相比于PD輔助控制器單獨控制結果,其控制性能在快速性和準確性上都有很大提升。

圖7 智能體在線控制結果

圖8 控制量及姿態角曲線

智能體能同時適應爬升和下降兩大類的飛行任務。應對爬升任務時,其快速性明顯優于PD輔助控制器,達到目標高度后可以穩定在定速平飛狀態,穩態誤差在0.1 m以內。對于下降任務,存在極少量的超調,穩態誤差在0.06 m以內,具體控制結果見表3。為了進一步測試智能體的魯棒性和泛化能力,本文還進行了變任務、參數拉偏以及注入干擾等相關內容的仿真。

表3 智能體控制結果

3.2 變任務控制

在智能體訓練中,飛行器的初始狀態被限制在45~55 m之間的平飛模式周圍。現將初始狀態拓展到10~100 m的高度,且跟蹤高度均為50 m,仿真結果如圖9所示,智能體能適應所有設置的初始狀態。

圖9 變初始高度的控制結果

將飛行任務改變為智能體在訓練時未學習過的地面發射任務:發射高度為2 m,發射角為30°,彈射速度為25 m/s,目標為跟蹤20 m高度和速度Vc=32 m/s的定速平飛狀態。仿真結果如圖10所示,飛行器在彈出后3 s左右達到目標高度,高度穩態誤差為0.04 m,速度穩態誤差為0.08 m/s。綜上,智能體能一定程度上適應訓練時未學習過的飛行任務。

圖10 地面發射任務控制結果

3.3 參數拉偏

飛行器建模時存在模型不確定性,現將飛行器的自身參數即質量和轉動慣量拉偏5%,與此同時拉偏5%的大氣密度,并分別將氣動參數拉偏10%~50%,測試智能體的魯棒性。仿真結果如圖11所示,未考慮模型不確定性訓練出的智能體能有效完成30%以內氣動參數拉偏的飛行任務,且在控制中能依舊保持一定的快速性以及準確性。

圖11 智能體在模型不確定條件下的控制結果

3.4 注入擾動和故障

在飛行器高度50 m、速度30 m/s的定速平飛過程中,分別在10~11 s時注入+5°的風攻角擾動,在20~30 s時在俯仰角速度測量處注入最大值為1.0×10-4rad/s的隨機白噪聲,在30~40 s 時注入發動力推力下降20%的故障,控制結果見圖12。

圖12 注入擾動和故障條件下的控制結果

對于攻角擾動,飛行器在干擾結束后經歷了1.5 s左右較劇烈的狀態調節后恢復到了定速平飛狀態。對于姿態角速度測量誤差,智能體能有效維持飛行器的飛行穩定,高度穩態誤差為0.06 m,速度穩態誤差為0.02 m/s。對于發動機推力下降故障,推力控制信號從2.73 N增加至3.48 N,飛行器高度降為49.55 m,速度降為29.27 m/s,影響很小。

4 結 論

本文研究了一種基于深度確定性策略梯度算法的飛行控制方法:以多數據幀為環境狀態,設計了含稀疏獎勵的獎勵函數,并增加了PD輔助控制器,進行了智能體訓練以及其飛行控制性能測試。該方法有別于傳統分回路設計方法,有利于降低設計復雜度,是一種端到端的解決方案。智能體訓練以及仿真結果表明:

1) 含稀疏獎勵的獎勵函數形式會增加對優秀飛行數據的獎勵即能有效提高樣本多樣性,PD輔助控制器能在訓練初期穩定飛行過程,以上2條關鍵技術點均能提高訓練中智能體的學習效率。

2) 多數據幀作為環境狀態時可代替誤差積分將歷史信息作為知識供智能體學習,能有效改善智能體的控制性能,減小穩態誤差。

3) 智能體除了能完成訓練時的飛行控制任務外,還能一定程度上適應變任務控制、參數拉偏和擾動故障等訓練時未學習的情況,體現了其泛化能力和魯棒性。

當然,此類方法用于飛行控制也存在一些技術上的問題,需要繼續深入研究,本文最后給出問題及研究設想:

1) 本文研究的DDPG算法包括目前大多數強化學習用于飛行控制的研究,其強化學習方法不基于模型(Model-free)。而實際上對于工程師而言飛行器的數學模型是明確的且建立比較準確以及含很多經驗知識,未來可能以基于模型(Model-based)和基于半模型的形式將以上知識引入智能體的知識學習中。

2) 雖然可以從理論上嚴格證明DDPG等算法的穩定性和收斂性,從而保證系統的整體穩定。但由于不基于模型,目前此類控制方法的控制性能主要通過大量的時域仿真進行分析,穩定性證明難以給出。且神經網絡的可解釋性也是世界性難題,需要繼續深入研究。

3) 本文給出的縱平面非線性模型經過了一定簡化,理論上通過具有掉高補償的PID控制等方式也能較理想解決此問題。后續會基于更復雜的模型,通過在訓練階段注入模型不確定性和嚴重故障等手段,研究其容錯等相關性能。

4) 實際在線控制時,一部分不確定性可以基于智能體的泛化能力和魯棒性得到有效適應。但一旦出現無法控制的情況,可能還需依賴遷移學習和小樣本在線學習等手段進行適應。

猜你喜歡
智能策略
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
主站蜘蛛池模板: 色135综合网| 综合色亚洲| 国产美女无遮挡免费视频网站| www精品久久| 91福利在线观看视频| 3D动漫精品啪啪一区二区下载| aⅴ免费在线观看| 色老二精品视频在线观看| 视频在线观看一区二区| 2021国产精品自产拍在线观看| 亚洲国产成熟视频在线多多 | 国产毛片基地| 亚洲欧洲美色一区二区三区| 国产探花在线视频| 亚洲人成网站18禁动漫无码| 无码专区在线观看| 夜夜操国产| 日本中文字幕久久网站| 国产一区免费在线观看| 亚洲天堂精品在线观看| 在线观看无码a∨| 波多野结衣一二三| 最新国产精品第1页| 欧美视频免费一区二区三区| 精品乱码久久久久久久| a级免费视频| 玖玖免费视频在线观看| 久久亚洲精少妇毛片午夜无码| 2020亚洲精品无码| 精品久久久久久成人AV| 国产特级毛片| 免费国产高清精品一区在线| 91麻豆精品视频| 色噜噜中文网| 中字无码精油按摩中出视频| 播五月综合| 九九免费观看全部免费视频| 成人另类稀缺在线观看| 日韩国产亚洲一区二区在线观看| 福利国产微拍广场一区视频在线| 精品伊人久久久香线蕉| 国产精品污视频| 天堂网国产| av色爱 天堂网| 午夜毛片免费观看视频 | 欧美一级在线| 精品国产香蕉在线播出| 亚洲AⅤ综合在线欧美一区| 国产视频久久久久| 精品久久777| 青草国产在线视频| 免费三A级毛片视频| 亚洲成AV人手机在线观看网站| 国产嫩草在线观看| 日韩小视频在线观看| 五月六月伊人狠狠丁香网| 日韩不卡高清视频| 亚洲av无码牛牛影视在线二区| 亚洲国模精品一区| 国产色爱av资源综合区| 99国产精品一区二区| 国产99视频精品免费视频7| 老熟妇喷水一区二区三区| 在线视频97| 亚洲天堂啪啪| 国内精品九九久久久精品 | 国产一级在线观看www色| 成人福利在线视频免费观看| 夜夜操天天摸| 亚洲第一成年人网站| 免费 国产 无码久久久| 污网站免费在线观看| 亚洲天堂高清| 亚洲精品色AV无码看| 亚洲人成亚洲精品| аⅴ资源中文在线天堂| 亚洲人成成无码网WWW| 日本久久网站| 99视频在线精品免费观看6| 免费国产在线精品一区| 五月婷婷伊人网| 精品久久综合1区2区3区激情|