999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強化學習及其在軍事領域中的應用綜述

2024-03-27 12:58:10張夢鈺豆亞杰陳子夷楊克巍葛冰峰
系統工程與電子技術 2024年4期
關鍵詞:智能策略方法

張夢鈺, 豆亞杰, 陳子夷, 姜 江, 楊克巍, 葛冰峰

(國防科技大學系統工程學院, 湖南 長沙 410003)

0 引 言

近年來,隨著大數據、云計算、物聯網等一系列新興技術的大量涌現,人工智能技術不斷取得突破性進展。作為21世紀的頂尖技術之一,人工智能給各個領域的發展都帶來了前所未有的機遇和挑戰,在軍事領域也不例外。文獻[1]對大數據時代的軍事信息體系與發展戰略進行了重點研究[1],軍事智能化已不再是一個陌生的概念,其正在全面影響著軍隊建設和未來戰爭形態[2]。從應用角度來看,軍事智能化主要體現在以下5個層次[3]:以無人機、無人車等仿生智能為主的單裝智能;以人機融合、集群、協同等概念為核心的協同智能;以智能感知、決策、打擊、防御等多要素作戰力量綜合運用的體系智能;以通信、網絡、電子、輿情等專業領域管控的專項智能;以作戰體系基于數據、模型、算法獲取涌現效應為目標的進化智能。人工智能技術為這些應用的落地提供了堅實的基礎。

深度學習(deep learning, DL)和強化學習(reinforcement learning, RL)作為實現人工智能的先進技術,分別在信息感知和認知決策領域有著出色的表現[4-5]。深度RL(deep RL, DRL)[6]則是近幾年提出的新興概念,其結合了DL與RL的優勢,是人工智能的最新成果之一,在機器人控制、計算機視覺、自然語言處理、博弈論等領域中都取得了重要研究進展。在軍事領域中,針對作戰任務規劃、智能軍事決策與智能博弈對抗等問題的解決,DRL也有著巨大的應用潛力,引起了研究人員的廣泛關注。

目前,關于DRL的研究已經取得了較大進展,有一些關于DRL的綜述性文獻陸續發表[6-7],但其更加偏向于對DRL算法的總結。除此之外,也有一些關于DRL在領域應用中的綜述,如無人機[8]、通信與網絡[9]、智能制造[10]等領域,然而關于DRL在軍事領域中的應用,并沒有專門的綜述性文獻對其進行深入梳理和總結。基于此,本文首先回顧了DRL的理論發展歷程;然后對DRL的基本算法及改進算法進行了歸納總結;最后對前人研究中DRL在軍事領域武器裝備、網絡安全、無人機編隊、智能決策與博弈等問題的應用現狀進行了系統性的梳理和總結,并展望了其發展方向和前景。

1 DRL的基本原理

1.1 DL

DL是機器學習(machine learning, ML)領域中的一個研究方向,致力于自動學習樣本數據的內在特征與規律,完成數據信息的提取工作,使機器能夠像人類一樣具有分類和識別等能力。大多數DL的模型都以人工神經網絡(artificial neural network,ANN)為基礎[11-12],其結構如圖1所示。人工神經元支撐著整個神經網絡的工作,組成相互連接的輸入層、隱藏層和輸出層。其中,信息通過輸入層進行獲取,在隱藏層進行特征提取后,再通過輸出層輸出結果。兩個神經元間的連接稱之為權重θ,每個神經元接受來自其他幾個相連接的神經元的輸入,這些輸入被乘以分配的權重θ后相加,接著將總和傳遞給一個或多個神經元。一些神經元可能在將輸出傳遞給下一個變量之前將激活函數應用于輸出。需要注意的是,這里的輸入值和輸出值是相對的,較低層的輸出將作為更高一層的輸入。通過這種多層非線性運算,最終實現DL從訓練數據中提取特征的目的。

圖1 ANN的結構Fig.1 ANN’s structure

深度神經網絡(deep neural networks, DNN)被定義為具有多個隱藏層的ANN。前饋神經網絡和反饋神經網絡是兩種DNN模型。前饋神經網絡中各個神經元分層排列,每個神經元的輸出僅由當前的輸入和權重θ決定,各層之間無反饋。而反饋神經網絡中神經元的輸出不僅與當前的輸入和權重θ有關,而且與之前的網絡輸入也密切相關。與此同時,每個神經元還將自己的輸出作為輸入反饋給其他神經元,因此反饋神經網絡需要經歷一段時間的工作后才能實現穩定。卷積神經網絡(convolutional neural networks, CNN)和循環神經網絡(recurrent neural network, RNN)分別是前饋神經網絡模型和反饋神經網絡模型的典型代表。在DRL中,將CNN和RNN與RL相結合的算法較多。

CNN是一種多層的監督學習神經網絡,在隱藏層中通過卷積、激活和池化的操作實現圖像特征提取的功能,近年來在數字圖像處理領域應用廣泛。目前,常用的CNN包括AlexNet[13]、視覺幾何組(visual geometry group,VGG)-Net[14]、NIN[15]、深度殘差學習[16]等。

RNN的神經元之間的連接形成有向循環,隱藏層的值既受當前時刻輸入值的影響,也受上一時刻隱藏層值的影響,這使得RNN非常適合處理具有時間組件的應用問題,例如時間序列數據和自然語言處理。然而,隨著網絡層數的加深,RNN常常會出現梯度消失或梯度爆炸的問題[17],因此有學者提出使用長短期記憶(long short-term memory, LSTM)[18-19]來解決這個問題。LSTM通過合并內存單元,能夠使網絡學習在某時刻“遺忘”先前的隱藏狀態,以及在某時刻給定新信息的情況下更新隱藏狀態,所以LSTM能夠學習RNN無法完成的長期復雜時間動態。

1.2 RL

1.2.1 RL基本過程

RL又稱為增強學習[20],其核心思想是試錯機制,即讓智能體在與環境的交互過程中不斷學習和反饋,以獲得最大的累計獎勵。通常可以使用馬爾可夫決策過程(Markov decision process,MDP)對RL問題進行建模,表示為一個五元組(S,A,P,R,γ),其中S代表一個有限的狀態集合,A代表一個動作集合,P代表一個狀態轉移概率矩陣,R代表一個回報函數,γ代表一個折扣因子,具體的學習過程如圖2所示。

圖2 RL基本過程Fig.2 Basic process of RL

智能體根據環境的即時狀態st,為了獲得環境反饋給智能體的最大獎勵,選擇并執行其所認為的最優動作at。環境接受動作at后,以一定概率轉移到下一狀態st+1,并把一個獎勵rt反饋給智能體,智能體根據獎勵rt和當前狀態st+1選擇下一個動作。而t時刻的累計獎勵Rt就是即時獎勵rt與后續所有可能采取的動作和導致的環境狀態的價值之和。由于距離當前狀態越遠,不確定性越高,需要乘以一個折扣因子γ,來調整未來的每個即時獎勵對于累計獎勵的影響。累計獎勵Rt的公式可表示如下:

(1)

RL算法根據環境模型是否已知可以分為兩大類,分別是基于模型的方法和無模型的方法。基于模型的RL指創立環境模型,讓智能體在虛擬環境中進行學習和訓練。當建立的環境模型可以精準描述真實世界,那么就可以直接基于模型進行預測,而不需要與真實的環境進行交互,可以大大提高問題求解速度。基于模型的RL方法可以分為學習模型和給定模型兩類。學習模型中比較典型的方法是World Models[21]和I2A[22]。給定模型中比較典型的方法是AlphaGo[23]、AlphaZero[24]和Expert Iteration[8]。由于學習模型的方法對模型的精確性要求較高,在實際應用中很難達到,因而有學者提出將無模型的方法與基于模型的方法相結合[7]。但是,很多實際問題的環境都是復雜未知的,這導致建模困難,因此無模型的方法在實際中應用更加廣泛。對于無模型的方法,又可以分為基于價值的RL、基于策略的RL,以及兩者的結合。

1.2.2 基于價值的RL

基于價值函數的RL通過構建具有適當參數的函數,來近似計算狀態或行為的價值,而不必存儲每一個狀態和行為的價值,大大提高了算法效率。基于價值函數的RL方法可以分為在線策略和離線策略兩類。兩者的區別在于在線策略一般直接使用學習獲得的當前最優策略(目標策略)作為行為策略,即只有一個策略進行價值迭代。因此,在線策略可以對策略進行實時評估,在應用場景中邊訓練邊使用。而離線策略一般有兩個策略,目標策略與行為策略不同,可以進行更充分的探索,在產生豐富樣本的同時并不會影響目標策略。

文獻[25]的算法基于在線策略的典型算法,迭代公式如下:

Q(st,at)←Q(st,at)+
α[rt+1+γQ(st+1,at+1)-Q(st,at)]

(2)

Q-Learning算法[26]是基于離線策略的典型算法,并且被大量應用于軍事決策過程中[27-28]。Q-Learning算法通過Q值表對“狀態-動作對”的值進行記錄,并且通過公式迭代對Q值表進行更新,迭代公式如下:

(3)

式中:Q(st,at)表示t時刻的狀態動作價值,α為學習率;r為獎勵,γ為折扣因子。兩個公式的區別在于:式(2)用t+1時刻的狀態和動作共同決定的Q值來更新Q(st,at),而式(3)用Q值最大的動作來更新價值函數Q(st,at)。

1.2.3 基于策略的RL

基于策略函數的RL和基于價值函數的RL在處理具有連續行為和龐大空間的問題時能力不足,難以求解隨機策略的問題。通過將策略看作是關于狀態和行為的帶參數的策略函數π(a|s,θ),不同于對價值函數進行迭代計算,而是通過迭代的方式直接更新參數值θ。當累積回報期望最大時,θ對應的策略就是最優策略。通常使用基于策略梯度的算法[29]求解,首先通過逼近器函數π(a|s,θ)逼近策略,然后對策略參數進行梯度下降求解,當梯度收斂時得到最優策略。基于策略函數的RL省去了對狀態價值的學習過程,而是直接輸出具體的行為值,策略梯度可以在連續分布上選取行為,因而可以處理具有連續行為的問題,但是在一些復雜問題的求解中,基于策略函數的RL計算難度較大,迭代時間過長。

1.2.4 基于價值策略結合的RL

Sutton等[30]綜合基于價值函數的RL和基于策略函數的RL,提出了一種新的RL算法——行動者-評論家(actor-critic, AC)算法。其中,行動者表示基于策略函數的網絡,在與環境交互過程中根據狀態選擇策略,而評論家表示基于價值函數的網絡,對行動者選擇的策略進行評價,并指導行動者進行策略的改進。AC算法可以綜合多種價值函數方法和策略函數方法,汲取二者優點,收斂速度更快。

2 DRL主要算法

DRL是近幾年提出的新興概念,其將DL與RL的優勢結合,是人工智能的最新成果之一。DRL主要有兩種類型:基于值函數的DRL和基于策略梯度的DRL。

2.1 基于值函數的DRL

在基于價值函數的RL方法中,針對狀態和動作空間較小的問題,Q-Learning算法較容易獲得最優策略。但是,當狀態空間或者動作空間變得龐大時,繼續使用Q值表對狀態-動作對進行存儲給內存和時間都帶來極大壓力,使算法很難達到預期的效果。因此,引出了深度Q網絡[31](deep Q-networks, DQN)算法來克服這一缺點。DQN將DNN與Q-Learning相結合,本質上是利用DNN逼近值函數,通過擬合一個函數,代替Q值表對Q值進行更新。除此之外,DQN還對傳統的Q-Learning算法進行了如下兩處改進。

(1) 經驗回放:算法首先初始化一個回放內存池,收集樣本并存儲。每次從回放內存池中隨機采集小批量樣本訓練DNN,使用梯度下降法更新參數θ后得到新的值函數,再獲取新的樣本并存入池中。由于每次訓練的樣本通常來自于多次交互序列,大大降低了樣本之間的關聯性,進一步提升了算法的穩定性。

(2)目標網絡:在Q-Learning算法訓練過程中,Q值是通過當前時刻的獎勵和下一時刻的價值估計進行更新的。由于每一輪迭代都會產生價值偏移,偏移影響會繼續傳遞給下一輪的迭代計算,很容易造成算法的不穩定。為了解決這個問題,DQN另外設置了目標網絡來產生目標Q值,通過行為網絡和與環境交互獲取估計Q值,將估計Q值與目標Q值進行比較后得出目標值并更新行為網絡。每經過一定輪數的迭代,把行為網絡的參數復制給目標網絡,再進行下一階段的學習。通過這種方式,減輕了模型的波動。

在DQN的基礎之上,人們又做了許多研究工作,先后提出了Narure DQN[32]、Double DQN[33]、Dueling DQN[34]、Double Dueling DQN(D3QN)[35]、Rainbow DQN[36]等一系列改進算法。基于值函數的DRL主要算法如表1所示,本文對其提出時間、改進和優勢做了簡單闡述。

表1 基于值函數的DRL主要算法Table 1 Main algorithms of DRL based on value function

2.2 基于策略梯度的DRL

盡管DQN及其改進算法在許多領域都取得了不錯的應用效果,但是對于連續動作空間的問題還是無計可施。Lillicrap等[37]提出了深度確定性策略梯度(deep determi-nistic policy gradient,DDPG)算法。DDPG算法集成了DL、DQN以及AC算法,采用DNN建立AC的近似價值函數,行動者網絡生成確定的行為,評論家網絡評估策略的優劣,同時采取經驗回放機制以避免振蕩。可以說,DDPG算法是目前應用于復雜、連續控制的重要算法,在機器人控制和無人機編隊等領域都有廣泛應用。為解決DDPG算法Critic對行為Q值過估計的問題,Haarnoja等[38]提出雙延遲DDPG(twin delayed DDPG,TD3)算法。針對策略梯度方法中存在的無法保證步長而影響訓練效果的問題,Schulman等[39]提出一種信任域策略優化(trust region policy optimization, TRPO)方法。TRPO以優勢函數為核心,通過計算舊策略與更新后策略之間的差值,保證策略始終朝著好的方向持續更新。由于TRPO算法計算復雜,近端策略優化(proximal policy optimization, PPO)[40]和分布式DPPO(distributed PPO)[41]等改進算法被先后提出,用以改進訓練效率。

此外,基于AC算法、優勢函數和異步算法,Mnih等[42]又提出一種異步優勢的AC(asynchronous advantage AC, A3C)算法,在AC算法基礎上,采用優勢函數判斷行為的優劣,讓多個智能體同時對環境進行探索,單個智能體獨立工作并在線更新整體的策略參數。通過這樣的方式縮短學習訓練的時間,提升訓練效果。優勢AC(advantage AC, A2C)算法[43]去除了A3C算法的異步,中間過程采用同步控制,解決了A3C中不同智能體使用策略的累計更新效果可能不是最優的問題。基于策略梯度的DRL主要算法及部分改進算法如表2所示。

表2 基于策略梯度的DRL主要算法Table 2 Main algorithms of DRL based on policy gradient

3 DRL在軍事領域的應用現狀

隨著現代科技的飛速發展,越來越多的人工智能技術被引入軍事領域以解決復雜問題,DRL作為人工智能的最新成果之一,與軍事領域的聯系也日益緊密。為了進一步明確DRL技術對軍隊建設和未來作戰模式的影響,以及在軍事領域中的應用點,本文在知網和web of science上選取了近15年來相關的參考文獻,并使用citespace進行處理。由于直接以“DRL”和“軍事”為關鍵詞對文獻進行檢索獲取的文獻數量較少,難以進行深入分析,本文擴大了搜索范圍,以“人工智能”和“軍事”為關鍵詞進行了檢索和分析,最終檢索和分析結果如圖3所示。另外,由于分析得出的英文關鍵詞圖譜基本與中文關鍵詞圖譜一致,本文不再重復展示。

圖3 人工智能技術與軍事領域結合應用圖譜Fig.3 Application map of artificial intelligence technology combined with military field

從圖3中可以明顯看出,智能的概念已經深入到軍事領域的各個方面,尤其是武器裝備、無人機編隊、網絡安全、指揮控制、智能博弈與決策等與人工智能結合得最為緊密。除此之外,當前對于軍事訓練、情報偵察、自主無人系統等問題的研究也與智能化不可分割。從圖3中還可以觀察到,“機器學習、DL、RL、大數據、云計算、虛擬現實”等關鍵詞語所代表的新興技術為軍事智能化的應用落地提供了強有力的技術支撐。

DRL是DL和RL相結合的產物,集成了DL的感知能力和RL的決策能力,對于解決復雜問題具有巨大潛力。基于此,本文對上述提及的軍事領域中與人工智能結合最為緊密的幾大問題進行了討論,分別就DRL在這幾大問題中的應用研究現狀進行了梳理和總結。

3.1 DRL在武器裝備組合選擇問題中的應用

武器裝備組合選擇問題是軍事領域中的一個研究熱點。組合選擇與運用是武器裝備發揮體系效能的核心,也是武器裝備體系頂層發展規劃中的關鍵問題[44]。不同學者對此進行了大量的探索和嘗試,分別提出了異質網絡模型[45]、差分進化算法[46]、遺傳算法[47]、代理模型[48]等理論方法對武器裝備組合選擇問題進行優化。科技進步促使武器裝備持續更新發展,由于武器裝備組合選擇涉及到多個階段和多個周期,并且受到不同的作戰意圖和作戰環境的影響,具有不同屬性武器裝備的組合維度爆炸,大大增加了武器裝備組合選擇問題求解的復雜性。張驍雄等[49]將Q-Learning方法用于求解多階段的裝備組合選擇與規劃問題,雖然相比傳統的多目標決策方法在方案選擇中效果更優,但是對回報函數的設置僅考慮了裝備組合效能和成本,而實際武器裝備組合選擇問題還涉及到目標狀態、戰場環境等多方面因素,數據維度不斷提升,采用Q值表存儲運動狀態值無法解決維度爆炸的問題。除此之外,軍事領域具有特殊性,很多數據無法獲取,戰場態勢瞬息萬變,大量信息無法被完全觀測也給武器裝備的組合選擇帶來困難,如何在環境復雜和數據信息不完備條件下快速生成武器裝備組合選擇方案成為未來研究的重點。DRL是在傳統的RL算法中加入DNN形成的,對于解決高維輸入問題具有良好效果。同時,DRL具有無需數據樣本、無需環境模型、無需提取特征等優勢,解決了數據信息依賴問題。因此,越來越多的學者考慮結合DRL的方法對武器裝備組合選擇問題進行求解。文東日等[50]將裝備組合運用問題視為在離散動作空間的RL問題,提出了基于PPO的裝備組合運用方法的模型及仿真框架。在武器裝備的動態目標分配問題中,黃亭飛等[51]考慮到完成目標摧毀任務之后不具有下一狀態,使用當前狀態的Q值替換公式中下一狀態的Q值對DQN算法進行了改進,同時結合不同類型攔截裝備的屬性特征,提出了基于DQN的多類型攔截裝備復合式反無人機任務分配方法。

總體而言,目前,將DRL技術用于解決武器裝備組合選擇問題的研究才剛剛起步,許多問題都是在想定的作戰環境和作戰意圖之下進行討論研究,而現代戰場態勢會隨時變化,無法完全框定在給定的模型之中。因此,在動態條件下實時進行武器裝備的組合選擇是未來進一步研究的重點。

3.2 DRL在軍事網絡安全問題中的應用

新時代下戰爭觀念發生轉變,傳統的以武器為核心的作戰方式漸漸向以網絡為中心的信息化作戰方式發生轉變。當前的網絡化戰爭已經將情報偵察、指揮決策、武器控制、通信聯絡等信息系統通過計算機連接成通信網絡,向著體系作戰的方向發展[52]。隨著復雜網絡理論的發展和成熟,許多學者選擇將軍事通信網絡系統抽象為復雜網絡進行研究,即將各系統以及各系統中的實體視為節點,將關系視為邊,建立軍事通信網絡的網絡結構模型[53-55],并基于模型進行網絡安全性、可生存性和可恢復性的研究。基于抽象的網絡識別出關鍵節點,對其進行保護(或破壞)將最大限度地增強(或降低)網絡的功能。近期蓬勃發展的圖網絡是一個將網絡科學與DL相結合的領域,正被大量應用于復雜系統建模工作。目前,已有學者使用DRL和圖神經網絡結合的方法對網絡安全問題進行處理,并取得了良好的效果。Fan等[56]使用歸納式圖表示學習技術從鄰域迭代聚合節點嵌入向量,這些向量被初始化為節點特征,用以描述狀態與動作,使用連通性度量代替獎勵,并利用DQN自動學習優化目標,綜合上述方法提出了一個DRL框架FINDER。FINDER的提出也為復雜網絡問題的解決開辟了新的研究方向。Xu等[57]在使用FINDER框架識別出軍用通信網絡中的關鍵節點后,通過改進遺傳算法的編碼規則和交叉變異算子,對軍用通信網絡拓撲結構進行了優化。在網絡威脅檢測問題中,Praveena等[58]首先利用黑寡婦優化(black widow optimization, BWO)算法對深度信念網絡的參數進行優化,在此基礎上將深度強化學習-BWO(deep reinforcement learning-BWO, DRL-BWO)算法用于無人機網絡入侵檢測。

總體而言,當前使用DRL的方法對軍事網絡系統進行優化,大多是與復雜網絡理論相結合。除此之外,在計算機網絡領域中,還有許多文獻對使用DRL算法解決資源調度的問題進行了研究[59],如路由選擇、任務調度和傳輸控制協議擁塞控制等,未來可以考慮通過遷移學習的方式將上述研究提出的解決方法遷移到軍事網絡中,對相關問題進行優化改進。

3.3 DRL在無人機編隊問題中的應用

隨著智能化控制技術和空中武器裝備的迅速發展,空中力量在對抗程度和對抗節奏上都實現了升級,編隊智能空戰模式將成為奪取制空權的關鍵手段。當前,常用的編隊控制方法主要有領導者-跟隨者方法、虛擬結構方法和基于行為的方法3種[60]。但是,由于編隊控制問題涉及的作戰環境復雜多變,影響因素眾多,使得狀態空間龐大,這些方法或多或少出現了應用上的短板。DRL算法可以將作戰過程中的態勢信息直接映射到機動動作中,而無需構建模型,無需考慮眾多影響因素之間錯綜復雜的關系,針對狀態空間龐大的問題也可以有效解決[61],因此被逐漸應用于解決編隊智能體機動控制和協同決策問題。針對無人機協同控制,Zhao等[62]基于PPO算法提出多智能體聯合PPO(multi-agent joint PPO, MAJPPO)算法,對不同智能體的狀態價值函數進行滑動窗口平均,計算出集中的狀態價值函數并分配給每個智能體,解決了由智能體策略變化導致的非平穩環境問題。Hu等[63]提出一種雙無人機協同自主機動控制方法,針對狀態空間維度爆炸問題,首先對連續空戰狀態空間進行降維和量化描述,接著基于態勢評估結果設計獎勵函數,并提出了一種優先采樣策略,以解決傳統DQN算法訓練時收斂速度慢的問題。實驗表明,該方法顯著提高了無人機的避障、編隊和對抗能力。張耀中等[64]通過引入基于滑動平均值的軟更新策略,降低了DDPG算法的參數震蕩,提高了無人機集群協同執行追擊任務的成功率。

總體而言,當前研究主要從多智能體DRL算法優化的角度對無人機編隊控制問題進行改進,但是,大多數研究都弱化了多智能體間的交流協作,更加注重任務的完成速度。實際作戰過程往往涉及多個主體,各主體之間的有效溝通對于提高任務的成功率有重要影響,這也是未來需要進一步著重研究的問題之一。

3.4 DRL在智能決策與博弈問題中的應用

2016年,AlphaGo[65]擊敗李世石成為DRL領域中一項里程碑式的研究成果,表明DRL方法能夠有效解決完全信息博弈問題。2017年,AlphaGo Zero[66]的問世再一次刷新了人們對DRL方法的認知,AlphaGo Zero不再需要人類的經驗作為先驗知識,將原先獨立的策略網絡與價值網絡合并后大大降低了神經網絡的復雜性,實驗表明AlphaGo Zero的能力完勝AlphaGo,展現出DRL方法在智能決策與博弈領域中應用的強大潛力。在軍事領域中,基于DRL的的智能決策與博弈是通過數據信息、專家知識和一定規則,建立博弈對抗過程中各類行動實體的模型,針對復雜戰場環境下動態不確定性的智能決策問題,利用模型進行決策分析,為指揮控制方案的確定提供了數據支撐[67]。Wang等[68]考慮到對手機動策略同樣具有不確定性,使用DQN訓練了用于雙方飛機引導的機動策略智能體,同時通過獎勵塑造的方法對算法進行優化,提高了訓練收斂速度。智能體和對手通過交替凍結策略的方式進行訓練,具備了更好的對抗能力。Zhang等[69]針對源自無人機作戰場景的多智能體作戰問題提出了3種訓練技術,并分別將其與多智能體深度Q學習和多智能體深度確定性策略梯度相結合,提高了兩種算法的收斂速度和性能。除了博弈對抗,DRL在智能決策問題中也有很大的應用價值,有學者利用DRL訓練模型或改進算法,實現了作戰過程中智能體的自主決策。Bai等[70]利用TD3算法對無人機自主機動模型進行訓練,使無人機能夠根據位置、速度、相對方位角等態勢信息自主做出機動決策。Kong等[71]對DDPG算法做出了兩個改進,一方面考慮到飛機傳感器的誤差可能會影響智能體的決策,在策略梯度中引入正則化器來加強策略網絡的魯棒性;另一方面利用最大熵逆RL算法對獎勵函數進行規劃,以加速算法的收斂。況立群等[72]分別采用優先級經驗重放機制提升價值經驗的學習率、采取奧恩斯坦-烏倫貝克噪聲和高斯噪聲相結合的探索策略加速算法收斂、采用多智能體單訓練模式提升算法收斂速度和穩定性對DDPG算法進行改進,在解決復雜連續的軍事決策控制問題中表現突出。

總體而言,雖然DRL在解決智能決策與博弈問題時具有很大潛力,但是目前針對軍事領域博弈問題的研究仍然存在一些不可避免的問題。一方面,真實戰場環境中大量信息是復雜未知的,屬于不完備信息博弈,這是其與棋盤博弈最大的差別所在,給DRL解決戰場博弈問題帶來極大挑戰;另一方面,不同智能體協同合作時可能會出現目標沖突的問題,如何權衡決策也是一大難題。針對這一問題,在2021年“決策智能與計算前沿”論壇上,有學者指出未來可以采用全局DRL、局部博弈論的方式進行優化處理,該設想有待進一步加強研究。

3.5 DRL在其他軍事領域問題中的應用

除了上述問題,DRL在軍事領域的其他問題上也有大量應用。情報偵察是軍事博弈中關鍵的一環,掌握更多的情報信息是取得戰爭勝利的籌碼,Ghadermazi等[73]站在攻擊者的立場,通過建立對抗性的DRL模型使智能體做出重要的順序決策,實現具有破壞性的目標任務,并基于訓練的模型構建威脅檢測器,通過分析具有不完整軌跡信息的對手的可疑活動來識別威脅信號。人是生成戰斗力最具決定性的能動要素,軍事訓練有助于提高軍人素質,Kallstrom等[74]使用多智能體DRL方法設計了具有高質量行為模型的合成對手,幫助人類飛行員進行訓練,可以應用于復雜場景下的訓練任務。在智能調度問題中,Feng[75]用圖像表示資源利用狀態,基于A2C算法為艦載機保障作戰過程中的多種資源有效協調和調度問題提供了一種解決方案。除此之外,在路徑規劃問題中,文獻[76-78]分別基于DQN、Double DQN和D3QN算法對機器人或無人機路徑規劃問題進行了求解。

雖然DRL算法在其他領域中已經取得了不錯的應用成效,但是針對軍事領域,許多問題的研究才剛剛起步。就上述提及的軍事領域中的幾大關鍵問題,結合DRL的研究程度也存在較大差異,有的問題才剛剛開始探索,有的問題已經有了較為成熟的算法,既無法一概而論,又很難針對軍事領域下的每個子問題都展開方法的演化分析。

因此,本文從軍事領域整體的角度出發,對目前重點關注的幾大類問題進行方法關系和演化過程的梳理。為了更加清晰明了地呈現出問題與方法以及方法與方法之間的關系,本文一方面從問題視角切入,采用表格的形式分類介紹了不同問題使用的DRL方法,如表3所示;另一方面從方法視角切入,以演化圖的形式介紹了各類DRL方法的發展過程以及相互之間的關系,同時對該方法目前可以解決的具體問題進行了標注,如圖4所示。

表3 DRL在軍事領域中的應用Table 3 Application of DRL in military field

圖4 DRL方法演化圖Fig.4 Method evolution diagram of DRL

3.6 DRL算法適應性分析

DRL發展至今,已經提出了許多算法,其中最基本的就是DQN。由于DQN提出時間最早,同時也最簡單,大量算法都在DQN的基礎之上進行改進。目前,應用比較廣泛的算法都是以DQN、DDPG、PPO為基礎的改進算法。其中,DQN主要應用于離散動作空間,DDPG主要應用于連續動作空間,而PPO既可以應用于離散動作空間,又可以應用于連續動作空間。

在這些算法的實際應用過程中,受到重點關注的問題之一就是模型的訓練時長。現有的DRL模型通常需要消耗大量的時間進行訓練,才能夠實現自主決策。時間復雜度決定了模型的訓練時間,若以一個episode表示智能體從開始執行任務到任務結束,以nm表示episode的數量,以nt表示一個episode中的時間步數量,當episode和nt的值非常大時,算法的時間復雜度取決于episode的數量和每個episode中的時間步數量,表示為O(ntnm)。

如果要將算法落地于實際工作,必須根據任務的特點選擇合適的算法,并不是每種算法都適用于解決某一類問題。對于前文提及的軍事領域中的不同問題,在依據動作空間的類型對問題進行分析后,再進行選擇。對于武器裝備組合選擇問題,動作空間主要由單元、目標、離散化后的時間、任務和條令構成,屬于離散動作空間,因此DQN系列算法和PPO算法在此類問題中較為適于應用。對于軍事網絡結構優化問題,動作空間主要由網絡中的節點組成,同樣屬于離散動作空間,目前大多采用DQN系列算法識別關鍵節點后進行網絡結構的優化。對于無人機編隊控制和無人機機動決策這類問題,無人機的運動過程是連續的,目前主要有兩種處理方式,一種是采用任務環境網格化的離散處理方式,采用DQN系列算法進行處理。這種處理方式雖然在一定程度上可以獲得相應的解決方案,但是DQN系列算法只能處理小規模的問題,在大規模問題上適應性并不好,而且采用網格化處理之后,問題過于簡單,不能完全模擬實際環境;另一種處理方式是采用連續的任務環境,用連續的空間位置坐標表示無人機的位置,采用DDPG算法進行處理。由于DDPG算法對于狀態空間和行為空間的大小沒有限制,因此算法的適應性更好,研究前景更加光明。除此之外,在調度、訓練、路徑規劃這類離散動作空間問題中,DQN系列算法的適應性更好。

但是,無論是DQN系列算法還是DDPG算法,都存在一個共性的問題,即模型訓練時間過長,特別是當問題由單智能體轉向多智能體,動作空間和狀態空間更加龐大,訓練耗時大幅上升。針對這一問題,現有研究主要通過改進DRL算法進行改善,例如TD3和PPO等,但是也不能完全解決訓練時長的問題。因此,未來需要就這一問題繼續改進,這也是提高各類DRL算法適應性的關鍵所在。

4 結束語

DRL技術為解決軍事領域的問題開辟了一條嶄新的道路。本文在回顧了DRL基本原理和主要算法的基礎上,對當前DRL方法在武器裝備、網絡安全、無人機編隊、智能決策與博弈、情報、訓練、調度和路徑規劃等問題中的應用現狀進行了梳理與總結。

可以發現,雖然DRL技術在軍事領域的應用日益廣泛,但仍然處于剛剛起步和不斷完善的階段。需要注意的是,理論研究可行并不意味著實踐一定會成功,考慮到人力、物力、財力與安全等因素,軍事領域中的許多問題都難以在現實中進行方法的效果驗證。除此之外,由于現實戰場態勢瞬息萬變,實驗中建立的問題模型可能無法與實際情況完全一致,進而影響問題的求解和方法的應用效果。因此,在實際推進DRL技術在軍事領域的應用落地與具體實現中仍然面臨著諸多挑戰。

除了應用方面,在DRL的理論研究中也可以發現,當前仍然存在許多局限:軍事領域部分問題的獎勵函數設計困難,不合理的獎勵函數難以實現預期的學習目標,例如軍事領域中的無人機編隊機動控制問題。每一架飛機的動作都受偏航、俯仰、滾動和推力等因素的影響,但是由于無人機在執行任務的過程中很難設定中間每步的獎勵,只能使用全局獎勵,引發獎勵稀疏且滯后的問題,致使訓練困難;基于DRL的端到端方法可以對具有相同分布特性的所有問題實例進行求解,但是現有的DRL模型通常需要消耗大量的時間進行訓練,當面對需要即時決策而戰場態勢信息變化超出訓練模型的預期設定等問題時,很難在短時間內完成模型的訓練,嚴重時可能貽誤戰機;目前在軍事領域中基于DRL算法所設計的多智能體協同模型很少考慮多智能體間的溝通協作,而真實的戰場環境往往要求具有不同屬性特征的作戰主體協同配合,僅僅依靠單個主體很難完成目標任務等等。這些問題是否能夠得到有效解決,是目前影響DRL技術在軍事領域是否能被廣泛應用的關鍵問題。

總之,在軍事領域中,當前DRL技術應用的難點主要來自于方法的實際實現,以及軍事領域特殊性導致的方法的應用缺陷,下面提出一些可以進行改進的思路和方向。

(1) 為了在軍事復雜環境中建立更加真實的模型,可以借助一系列新興的仿真技術來構建高逼真度、細粒度的仿真平臺,如數字孿生和虛擬現實等技術,進一步開展DRL方法的效果驗證。

(2) 考慮到真實作戰要求不同能力的主體相互配合,為了加強基于DRL的多智能體間的協同合作,一方面可以加強對多智能體之間的通信算法的研究力度,另一方面可以充分利用多智能體協同研究的現有成果,與DRL進行充分結合。

(3) 對軍事領域部分問題難以設置獎勵函數的問題,除了繼續對DL和RL的方法進行探索,還可以結合博弈論、統計學、復雜網絡、信息論等理論進行獎勵機制的設計和改進。此外,既然人為設置獎勵函數十分困難,那么讓系統通過學習和訓練自行設置獎勵函數也許是一個可行的辦法。

(4) 最后,針對軍事領域中的即時決策問題,基于DRL的端到端方法前期訓練耗費時間長,很難立刻被用于解決現時問題,如果暫時無法通過算法的改進來縮短訓練時長,可以嘗試從硬件的角度出發進行技術的突破。

猜你喜歡
智能策略方法
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 成人亚洲国产| 亚洲无码高清视频在线观看| 中文纯内无码H| 在线免费a视频| 国产在线观看一区精品| 国产精品九九视频| 国产成人永久免费视频| 一级毛片在线播放| 久久久精品无码一区二区三区| 91久久精品国产| 久久特级毛片| 欧美亚洲综合免费精品高清在线观看| 国产精品成人免费视频99| 粉嫩国产白浆在线观看| 99人体免费视频| 亚洲AV无码精品无码久久蜜桃| 99色亚洲国产精品11p| 99re精彩视频| 国产成人综合久久精品尤物| 国产一区二区三区在线观看视频| 国产96在线 | 日日拍夜夜嗷嗷叫国产| 第一页亚洲| 亚洲AV色香蕉一区二区| 毛片免费在线视频| 国产福利大秀91| 伊人无码视屏| 999国产精品永久免费视频精品久久| 国模粉嫩小泬视频在线观看| 波多野结衣在线一区二区| 欧美日韩va| 91色综合综合热五月激情| 国产综合亚洲欧洲区精品无码| 999国内精品久久免费视频| 国产一在线| 国产特级毛片| 中文国产成人精品久久| 日韩精品成人网页视频在线| 播五月综合| 麻豆精品在线播放| 一级一毛片a级毛片| 色播五月婷婷| 深夜福利视频一区二区| 亚洲一本大道在线| 国产欧美在线观看视频| 国产精品私拍99pans大尺度| 天天摸天天操免费播放小视频| 精品亚洲麻豆1区2区3区| 日韩在线成年视频人网站观看| av色爱 天堂网| 麻豆国产在线观看一区二区| 亚洲天堂网站在线| 一本色道久久88综合日韩精品| 欧美三级视频网站| 亚洲最黄视频| 欧美在线国产| 日本在线国产| 久久人人97超碰人人澡爱香蕉 | 国产精品伦视频观看免费| 国产精品va| 毛片在线看网站| 天堂av综合网| 亚洲成人高清在线观看| 色妞永久免费视频| 精品在线免费播放| 99久久免费精品特色大片| 国产成人一区免费观看 | 一本大道香蕉久中文在线播放| 国产91高跟丝袜| 亚洲人成影院在线观看| 综合亚洲色图| 婷婷色狠狠干| 激情网址在线观看| 在线观看免费人成视频色快速| 国产香蕉在线| 日韩激情成人| 色综合天天视频在线观看| 热九九精品| 老熟妇喷水一区二区三区| 在线免费a视频| 四虎永久在线精品影院| 欧美第二区|