吳兆香 歐陽權 王志勝 馬瑞 叢玉華
摘要:區域偵察是無人機研究領域的一個重要分支。由于實際任務和環境十分復雜,區域偵察控制方法必須具備較快的計算速度、較強的自主性和智能性。人工智能因具有學習能力強、效率高、融合度高等特性被應用于區域偵察任務中。本文系統介紹了區域偵察問題的背景并綜述了基于人工智能解決該問題的方法,主要分為構造并優化目標函數的啟發式算法和求解最優價值或策略的深度強化學習方法這兩類。通過對上述方法的全方位比較,發現深度強化學習因具有自學習和在線學習的性能,能很好地適應復雜、未知環境進而能快速、準確解決區域偵察問題。此外,本文還探討了無人機區域偵察技術的發展趨勢及深度強化學習面臨的挑戰。
關鍵詞:人工智能;區域偵察;深度強化學習;啟發式算法;自主智能
中圖分類號:TP18文獻標識碼:ADOI:10.19452/j.issn1007-5453.2020.10.010
基金項目:江蘇省高校自然科學研究面上項目(18KJB520023);南京理工大學紫金學院??蒲许椖浚?019ZRKX0401006)
無人機因具有機動性高、隱蔽性好、生存能力強、成本低等特點,被廣泛應用于救災搶險、環境監測、監控搜尋、航空記錄等領域,無人機區域偵察是其中一項重要的任務。隨著環境和任務的日漸復雜,單個無人機因完成任務載荷低、計算能力弱、感知范圍小已不能滿足人們的需求。因而,無人機“集群”概念隨即產生,越來越智能化和體系化,無人機群協同偵察也成為當下的一個研究熱點[1-2]。
無人機區域偵察的核心任務是獲取一個或多個目標位置信息,可分為目標位置信息已知和目標位置信息未知兩種情形。早期的研究[3-5]多是針對目標信息已知的情況,此時無人機需要規劃航路抵達目標所在位置,從而獲取更詳細的信息或者監視跟蹤它。V. K. Shetty等[3]基于優先級將目標分配給無人機,用禁忌搜索啟發式算法協調分解問題,用歐幾里得(Euclid)公式計算距離代價函數,從而完成多無人機的路徑規劃。但隨著任務環境日趨復雜化,無人機無法獲得目標的具體信息[6-8]。因此,需要研究無人機在目標位置信息未知的情況下執行區域偵察任務,即通過算法規劃出無人機航路使其偵察覆蓋率最大,從而能大范圍、快速搜索到目標以獲取信息。J. Tisdale等[6]設計了一個基于視覺的傳感系統,該系統允許在同一個框架中進行目標搜索和定位,無人機之間傳遞似然函數,協同搜索目標。
值得注意的是,現實場景和任務會遇到通信存在干擾甚至通信拒止的情況。這種情況下,無人機無法實時接收到系統發出的控制指令,需要無人機具備自主控制的能力從而獨立或者協同完成目標搜索任務。沈延航等[9]基于搜索域上的“回報率”狀態圖,研究了多無人機協同搜索規劃方法并將其與隨機搜索進行比較,協同搜索方法明顯更優。楊少環等[10]根據無人機和目標的行為建立了博弈模型,以掃描方式規范路徑,實現待搜索區域的完全覆蓋。
目前,用來求解目標搜索問題的方法種類繁多,如何判斷這些算法的優劣也成為一個問題。一般而言,評價指標有完成區域偵察所需時間、區域覆蓋率、無人機數量、航路長短、能量損耗等。參考文獻[11]采用多無人機斜線編隊的方式對任務區域進行偵察,以覆蓋率為指標函數,避免無人機并行造成的面積重疊問題并提高了搜索效率。參考文獻[12]將區域遍歷搜索問題轉化為最優問題,即使最后完成任務的無人機花費的時間最小化,并結合一些約束條件,最終達成無人機數量最少、路徑最短、時間最短的搜索目的。實質上,這些評價指標都是基于算法的偵察代價函數而言的,函數考慮的因素越多,約束越復雜,實現后的效果越優越。
總之,在無人機區域偵察領域,主要研究有單/多無人機、靜態/動態目標[13]、無人機自主/協同控制、性能指標優化、航跡規劃等,研究寬泛而復雜,對方法要求越來越高。近年來,由于人工智能[14-17]能夠模仿人的思維進行思考,甚至是做出決策,在某些方面超過人的智能,所以學者們對其展開大量理論研究和實際應用,使其發展迅速并逐漸深入人們的生活,在現代科技領域有著廣泛的應用和廣闊的前景。用人工智能方法求解無人機區域偵察問題確實能使無人機自主協同、高效率、低成本地完成任務,具有極高的研究意義。
本文分類整理了人工智能在無人機區域偵察上的應用,比較了各方法的性能優劣,以便研究者們能夠快速掌握無人機區域偵察的研究現狀,從而進一步展開深層次的研究。
1問題概述
無人機被任意部署在特定任務區域周圍,并對這個區域進行偵察,在滿足無人機控制的基礎上實現短時間內區域覆蓋最大、目標確認最多的目的,并計算完成任務區域完全覆蓋、目標全部確認的總時間。無人機區域偵察任務環境示意圖如圖1所示。
任務區域可能是布滿高樓大廈的陸地,或者是廣闊遼遠的海面;區域內沒有障礙物或者障礙物是隱性的等,這都是由現實情況所定的?,F實環境隨機變化的復雜性要求算法有一定的智能性、自主性,能夠識別環境特征、躲避障礙物,實現區域偵察、快速覆蓋。
此外,無人機進行區域偵察的終極目的是找到任務區域內的目標,并將其位置、動態信息反饋給控制中心以便分配下一任務。而目標在區域內的位置也是任意的,包括已知或未知、靜止或動態、普通或高級等情況。這就導致算法需要具備更高的性能才能快速、高效、準確地搜索到目標。
人工智能因具有搜索技術、知識庫技術、歸納技術等基本技術在求解區域偵察問題上具有一定的優越性。所以,本文致力于研究人工智能求解無人機區域偵察問題,具體框架圖如圖2所示。將基于人工智能處理區域偵察問題的方法分成兩類:一類是構造目標函數并進行優化的啟發式算法;另一類是求解最優價值或策略并實施在線獎懲的深度強化學習方法。

2傳統方法
在人工智能方法還未普及之前,學者們把區域當作研究突破點,即將區域劃分成小塊分配給每個無人機。那么問題就轉化為單無人機規劃問題:每架無人機在各自領域內進行航跡規劃,搜索所在區域的目標,降低了問題的復雜性。
為了追求均衡,一般是將任務區域等面積劃分。每個無人機分得相同面積的區域,然后規劃如何在該區域內快速找到目標。高春慶等[18]先將任務區域劃分為小網格,每4個小網格匯聚成一個方格,基于方格劃分區域進而優化每個無人機的偵察路徑。但是方格數量不一定會使每個無人機分配到的搜索面積完全相等,存在近似情況。基于面積均衡原則,戴健等[19]研究了凸多邊形和非凸多邊形的區域劃分。依據無人機來向,將凸多邊形區域劃分為n等份(n為無人機數量);利用區域分割線平行于某一邊界的原則[20]在區域凹口處進行凸分解,再進行凸等分。
上述文獻區域內沒有禁飛區或者障礙且沒有考慮到無人機的初始位置;將無人機任務區域固定沒有充分考慮區域形狀對無人機轉彎的影響,導致無人機執行時會有難度。參考文獻[21]依據無人機初始位置進行Voronoi圖[22](V圖)劃分,每走完一步就進行V圖更新。每個無人機在各自的V圖區域內進行偵察搜索。隨著搜索的進行,任務區域的不確定度就會不斷降低。
上述方法雖然各有優點,但也存在相應問題:未考慮無人機轉彎數從而增加執行難度;最優解難以求得,計算復雜,而且還存在區域重復偵察的情況。最主要的問題是無人機只負責各自分得的區域獨立完成任務,相互之間沒有信息交流、協同合作。然而,每個區域內的目標數量是不一樣的、復雜度也不統一,易出現無人機先完成目標搜索然后在此區域內重復搜索的情況,導致資源利用不合理、不充分而大量浪費,經濟效益不高。所以,需要研究更智能的算法:不需要區域劃分,無人機直接偵察區域;無人機能夠根據具體情況實時、自主采取措施;無人機之間相互配合協同工作,更合理、更智能、更快速地實現區域偵察任務。
3人工智能方法
人工智能作為計算機科學的一部分,研究如何表示、獲得、運用知識,通過模擬人的思維方式并將其應用到機器中,使機器具有智能性。無人機在執行區域偵察任務時,由于環境復雜多變很可能發生無人機無法做出及時、準確的判斷而導致任務失敗的情況。因此,需要深入研究如何讓無人機具備一定的自主性。這與人工智能方法的特點是相呼應的,所以將人工智能應用在無人機區域偵察問題上具有極高的現實、實用意義。
3.1目標函數優化——啟發式算法
20世紀80年代,啟發式算法一出現就成為一個新興領域,成為人工智能以及經濟、社會、生物等交叉學科的研究熱點。在沒有集中控制和全局模型的前提下,自然界中簡單的個體通過組織和相互協作做出群體智能行為,具有天然的自組織特征,為解決復雜問題提供新的求解思路。啟
發式算法主要有蟻群算法[23-24](ACO)、粒子群算法[25-26](PSO)、遺傳算法[27-28](GA)等,通過構造無人機區域偵察問題的目標函數,用啟發式算法的智能性來求解,有一定的研究意義。
3.1.1基于蟻群算法求解區域偵察
螞蟻是自然界中的一種微小、弱勢的群體,單獨的螞蟻沒有太多智能行為,但當多個螞蟻一起工作時,它們可以沿著最優的路徑尋找、搬運食物,具有良好的協同性、智能性。具體蟻群尋找最優路徑的過程如圖3所示。圖3(a)表示蟻群遇到一個分叉路口,需要做出選擇;圖3(b)表示上下兩條路徑長度是不等的,螞蟻隨機選擇一條;圖3(c)表示選擇下面這條路的螞蟻先到達目的地,沿原路返回并釋放更多的信息素;圖3(d)表示下面路徑積累的信息素比上面路徑更多,螞蟻傾向于選擇下面這條路,也就是信息素多的路徑(圖3中的虛線表示信息素)。
同樣,將蟻群尋找最優路徑的想法應用到無人機區域偵察上面,能優化各個無人機的路徑,減少能量損失。
參考文獻[29]將任務區域分為8個子區域,采用蟻群算法使得每個區域的飛行路線最優,從而求得最佳偵察方案;參考文獻[30]提出多群體蟻群算法來優化多無人機協同目標搜索算法。不再局限于一個蟻群群體,而是拓展至多個蟻群群體,與多無人機的編隊相呼應,比較適用于多無人機編隊執行區域偵察任務。
多群體蟻群算法求解多無人機區域偵察問題的思路如下:增加蟻群群體,多群體蟻群共同解決更復雜的多無人機區域偵察問題;處于不同群體具有相同編號的螞蟻之間信息素相互排斥,增加負反饋機制;螞蟻之間的組合方式多樣,增加系統的穩定性;確定下一步動作時使用輪盤賭選擇法;每次迭代結束后只更新全局最優的路徑,加快算法的收斂速度;根據代價函數及時計算已搜索目標的收益,減少重復率。
此外,該算法還考慮了無人機的禁飛區:通過探測是否到達禁飛區并判斷哪個方向是不會進入禁飛區的。因此,在含有禁飛區的任務區域內,該算法使無人機能夠自主避開所有禁飛區,最終得到無人機數量少、時間短、路線優的區域偵察方案。
蟻群算法因其多元性、整體性、相關性、分布式計算、自組織、正反饋等特征而被廣泛應用于組合優化問題上,可以用來求解區域偵察無人機航跡規劃問題。
3.1.2基于粒子群算法求解區域偵察
PSO算法流程如下:(1)粒子群初始化:包括種群規模、權重系數、速度位置信息等;(2)計算每個粒子的適應度值,找出個體最優值和全局最優值;(3)判斷是否是最優解:若是最優解或者達到迭代次數,則輸出該解。否則根據式(2)更新粒子的速度和位置信息;(4)更新速度和位置并返回第(2)步,進行新一輪的迭代。
上述流程可以看出,PSO算法簡單易實現,并且不需要調整太多的參數,計算量小,收斂速度快,特別適合求解優化問題。
許友平[31]用粒子群算法求解目標搜索階段的航路規劃問題,使無人機在較短的時間內遍歷任務區域,從而偵察到更多的目標,降低區域信息的不確定度。參考文獻[32]用粒子群算法為每架無人機規劃航路,在求解過程中,將其他無人機考慮進目標函數,從而實現多無人機的協同搜索,如圖4所示。
3.1.3基于遺傳算法求解區域偵察
遺傳算法[33]是一種模擬自然界生物進化的迭代進化算法,依據“優勝劣汰,適者生存”的原則對種群進行篩選,經過選擇、交叉、變異操作,不斷接近最優解直至求得最優解[34]。圖5解釋了遺傳算法的主要過程。主要思想是:將可能解看作種群中的個體,并對其編碼;基于適應度函數對個體進行評價;接著選擇、復制優良個體(適應度函數值較高的個體);交叉、變異產生新的個體,更新種群。重復以上操作,直至滿足終止條件,從而求得最優解,具有良好的全局搜索能力。
參考文獻[35]采用經典的遺傳算法求解多無人機進行區域監視的航路規劃問題,具體步驟如下:
(1)基因編碼[36]:對無人機的轉彎角進行編碼而不是直接對無人機的位置進行編碼,一方面是更新后的位置可能違背無人機的飛行約束條件;另一方面在計算量上有明顯的優勢。
(2)初始化種群:種群用矩陣表示,矩陣大小是s×N,種群個體為s,即無人機群的協同飛行方式;N是無人機數量。
(3)適應度函數[37]:無人機群在下一時刻的區域面積覆蓋率,用無人機的偵察面積除以任務區域的總面積。
(4)選擇:采用輪盤賭選擇法[38],適應度值越大的個體被選擇的概率就大。
(5)交叉與變異[39-40]:基于交叉概率兩兩配對進行轉彎角互換;基于變異概率隨機對某個轉彎角變異。
(6)判斷是否滿足最大迭代次數,若滿足則輸出整個過程中適應度值最大的個體;若不滿足則轉到(4)繼續。
經過以上遺傳操作,依次得到無人機接下來每一步的轉彎角,再將其轉換為無人機的位置和航向信息,一個個節點連接起來便形成各架無人機的航跡。從而實現滿足任務區域覆蓋最大的航跡規劃。
參考文獻[41]針對傳統遺傳算法耗時長、易陷入局部最優解的缺點,在傳統的遺傳算法上做了改進,加入了反向思想[42],提高種群的多樣性并提高解的質量。
除了以上三種啟發式算法,還有很多算法被用來求解區域偵察問題,如參考文獻[43]采用離散布谷鳥搜索算法[44-45]來求解如何使得遍歷全部偵察區域的航程最短、時間最少、偵察收益最大,并通過仿真驗證其有效性和可行性。
上述啟發式算法求解無人機區域偵察問題的出發點是建立無人機偵察過程中的目標函數,將問題轉化為優化問題,然后用這些算法來求解目標函數,即求得最優解,再實現無人機的航跡規劃。但如果這些目標函數考慮的全面而復雜、無人機數量較多時,維數增加,計算量會很龐大;約束條件增多,求解困難甚至可能求不出解。所以,還需研究更智能、更強大的算法來解決這些問題。
3.2策略優化——深度強化學習
強化學習[46-47]是機器學習的一種,其本質是描述智能體不斷與環境交互進行策略學習,解決如何使環境回報值最大或實現特定目標的問題。具體的模型如圖6所示。
智能體在當前狀態執行動作a,環境接受該動作后賦予智能體新的狀態s并反饋一個回報r給智能體,智能體根據回報r調整策略并重復學習,不斷得到狀態-動作值關系對,直至任務完成并產生一個最優的策略。
強化學習由于其試錯搜索、延遲獎賞的特點,被用來訓練無人機的自主性,能使無人機完成一些復雜決策的任務。但在面對復雜高維環境時,狀態矩陣的維度會非常大,無法找到最佳的狀態-動作關系,導致智能體不能做出正確的動作。而深度學習[48-49]模仿人腦對數據進行處理,給出解釋,自主性更強。用函數擬合問題替代強化學習中的狀態-動作值函數矩陣更新問題,狀態相近輸出也相近,進而解決復雜環境下的決策問題。
因此,將深度神經網絡與強化學習融合起來構成深度強化學習[50],汲取兩者的優勢、補足相應的不足,在計算機視覺、游戲、機器人等領域取得較大的突破,正逐步成為機器學習、人工智能領域最火熱的應用方向,具有極高的研究價值。當然,深度強化學習在無人機方面的技術也越來越成熟,關于區域偵察任務也有所涉及。
3.2.1基于深度Q網絡求解區域偵察
深度Q網絡[51](deep Q-network,DQN)將深度學習中的卷積神經網絡(convolutional neural network,CNN)與強化學習中的Q-Learning結合在一起。利用CNN處理大規模輸入數據,輸出提取到的特征,并發現數據的內在規律;然后用Q-Learning通過馬爾可夫決策建立模型,不斷更新神經網絡的參數,從而實現對Q表的擬合。具體算法原理如圖7所示。
DQN強大的兩個因素是經驗回放和兩個神經網絡。從經驗池里隨機抽取數據進行估計網絡,減少數據間的關聯性[52];估計值網絡訓練出值函數的估計值,目標值網絡訓練出值函數的期望值,計算兩者的差值再利用隨機梯度下降更新估計值網絡的參數,進行新一輪的訓練。估計值網絡和目標值網絡是兩個完全一樣的網絡,只是網絡參數更新步調不一致,相差一個步長。這種延遲更新參數的方式也減少了相關性。
李艷慶[35]用DQN解決多無人機協同區域監視的航路規劃問題,在一定程度上解決多無人機對任務區域的覆蓋問題,主要關鍵點如下。
(1)確定無人機狀態和動作
每架無人機的狀態包括三個元素:位置橫坐標、位置縱坐標、速度方向;在小于最大轉彎角的前提下對可到達位置圓弧進行均分,確定可選擇的動作。
(2)確定獎賞函數
針對多無人機區域偵察問題,將無人機群的監視面積覆蓋率作為獎勵函數。
(3)訓練網絡

通過以上步驟對估計值網絡和目標值網絡進行訓練,采用梯度下降方法不斷逼近目標值、更新網絡參數,使得各個無人機執行訓練得到的動作,進而形成航路來進行區域偵察任務。
3.2.2基于近端策略優化算法求解區域偵察
近端策略優化算法[53](proximal policy optimization,PPO)也是深度強化學習的一種,是基于策略梯度的異策略學習算法。它不同于DQN,因為DQN是通過估計最優價值函數來求得最優策略;而PPO試圖用含參函數近似最優策略,通過迭代更新參數值。簡言之,DQN是一種最優價值算法,PPO是一種策略梯度算法。
PPO算法本質上是Actor-Critic算法,Actor網絡輸入是智能體的狀態,輸出是智能體采取行為的概率分布;Critic網絡輸入是Actor網絡選擇動作后的下一狀態,輸出是狀態的價值。Critic計算下一狀態的價值加上環境給的回報與當前狀態的價值的差值,即時間差分(temporal-difference error,TD-error),如果下一狀態值大于當前狀態值,則critic會告訴actor當前狀態下的動作選擇的概率應該增加,否則減小,并且概率變化的幅度由TD-error決定。具體原理圖如圖8所示。
參考文獻[54]用PPO算法來解決室內無人機隨機搜索目標問題,提出一種基于位置標注的好奇心驅動的PPO算法,提高了算法的搜索效率和準確度,縮小訓練周期。

無人機的動作有前進、后退、左移、右移、左轉、右轉、上升、下降和無動作共9種。獎勵規則[54]見表1。

將PPO算法和基于空間位置標注好奇心探索的算法結合起來,展示一個無人機如何在室內以較快速度進行目標搜索的過程,并獲得了在陌生區域隨機搜索目標、躲避障礙物和實時調整高度的技能,很好地解決了無人機在搜索過程中陷入局部區域出不來的問題,具有高準確性、短訓練周期、高智能水平等特點。
將深度學習的擬合函數、神經網絡與強化學習的試錯搜索、延遲獎賞結合起來形成深度強化學習,并將其應用在無人機區域偵察問題上有助于訓練無人機的自主性,使其自主決策完成復雜任務[55]。然而,現有的深度強化學習算法大多數采用無模型的結構,雖然簡化了算法的復雜度,但需要大量的樣本數據和較長的訓練時間。此外,獎勵函數設計比較困難,稀疏的獎勵使得學習經驗難以穩固,訓練困難,難以收斂而積極地獎勵,智能體容易鉆空子,產生預期外的結果。目前深度強化學習還很不穩定,超參數的設置直接影響訓練結果,調參困難,延展性不好,適用性不強。通過研究基于模型的深度強化學習方法[56]不僅能夠解決訓練時間長的問題,還能提高數據利用效率、增強網絡的泛化性,使其有效應用在現實任務場景中。
4比較和展望
4.1比較
對上面介紹的主要技術進行了各方面的比較,結果見表2。算法的差異主要體現在離線/在線、評價指標、經濟性和自主性上面。
傳統方法和啟發式算法都是離線規劃無人機的航路的,而深度強化學習方法能夠實現在線規劃、實時調整無人機航路,具有較優的性能。隨著研究的深入,無人機執行任務過程中考慮的因素越來越多,約束條件和目標函數越來越復雜,算法性能也就越來越好。相較于傳統方法,人工智能方法的經濟性更高、評價指標更豐富、更全面。啟發式算法在面對解空間變大問題時只能擴大算法的搜索空間再將其離散化尋找最優解,因而導致算法計算時間變長甚至是找不到全局最優解,陷入局部最優解。而基于策略梯度的深度強化學習能適應連續的動作空間,可選擇的動作數不勝數但能輸出最優的那個動作值,在這方面是優于啟發式算法。此外,在無人機自主性這方面,目前只有深度強化學習方法涉及,其他方法還不能實現無人機自主完成任務的目的。
綜上,人工智能算法在無人機區域偵察問題上的研究越來越深入,尤其是深度強化學習方法。不僅在已有方法的基礎上從單/多無人機、區域內有/無障礙物、離線/在線規劃航路、評價指標約束多少、經濟性等方面不斷提高算法性能,還開始研究無人機的自主性,促使研究更全面、性能更優、效率更高、更智能。
4.2展望
隨著無人機的應用需求不斷擴大,人工智能技術不斷革新,人工智能在無人機各領域的應用將日趨增加。而無人機在區域偵察方面的技術由于無人機自身飛行約束條件頗多、任務環境越來越復雜等因素還需進一步發展,未來發展趨勢[57]如圖9所示,主要包括以下4個方面:
(1)高效率是未來區域偵察技術發展的重要方向:快速、高效的計算能力使得無人機在執行區域偵察任務時能更精準地找到區域內的目標,從而反饋信息給控制中心,方便控制中心及時做出判斷,發布下一任務。
(2)多智能體是未來區域偵察技術發展的必要方向:隨著任務區域的擴大化,單架無人機已不能滿足偵察需求,需要多架無人機一起協同搜索區域。
(3)動態實時性是未來區域偵察技術發展的生存保證:由于任務區域內的目標信息越來越不可預知,目標具有一定的反抗攻擊能力也是有可能的。這時就需要無人機在飛行過程中能夠實時改變航向,躲避障礙物。此外,在線規劃比離線規劃更符合未來發展需求。
(4)自主性、智能性是未來區域偵察技術發展的最終目標:在通信不暢甚至阻斷的環境中,無人機接收不到控制中心發出的指令,需要無人機針對現場環境自主控制,做出如何飛行的判斷從而自主完成偵察任務。
目前,學者們針對無人機偵察效率、多無人機協同完成任務已經做了大量研究,研究成果較多;但是無人機動態實時規劃航路和自主完成任務這兩個方面的研究還是淺層次的。因為基于啟發式算法的人工智能技術已趨于飽和而基于深度強化學習的人工智能技術才剛剛開始,不夠深入,具體的研究難點有:(1)將深度強化學習對應到人腦機理的生理學基礎;(2)將知識遷移技術運用到深度強化學習中;(3)將更多的深度學習模型運用到深度強化學習中。
由此可見,無人機區域偵察和深度強化學習相結合是未來研究趨勢,著重攻破上述深度強化學習存在的難點并將其應用在區域偵察上,實現實時規劃、調整無人機的航路及無人機智能控制、自主完成任務的最終目標。
5結束語
本文針對無人機區域偵察任務進行了相關研究,介紹了求解該問題的主要方法包括傳統算法和人工智能算法并詳細闡述各種算法是如何應用在區域偵察問題上的。此外,還概括以上算法的特性和優缺點,對比算法的優劣性。結果表明人工智能方法相比于傳統方法更智能,無人機不再是獨立完成各自的任務而是產生信息交互,能夠協同完成任務;深度強化學習算法比啟發式算法更自主,深度強化學習訓練得到的策略具有在線規劃特性,能夠根據現實場景實時改變航向,更符合現實任務要求。最后,對未來區域偵察技術發展做了幾點延伸并闡明深度強化學習存在的應用難點,可供研究者們開展更為深入的研究。
參考文獻
[1]Sonia T. UAV cooperative decision and control:challenges and practical approaches[J]. IEEE Control Systems Magazine,2010,30(2):104-107.
[2]Ren W,Beard R W. Distributed consensus in multi-vehicle cooperative[M]. London:Springer,2008.
[3]Shetty V K,Sudit M,Nagi R,et al. Priority-based assignment and routing of a fleet of unmanned combat aerial vehicle[J]. Computers & Operations Research,2008,35(6):1813-1828.
[4]Koopman B O. The theory of search,II. target dection[J]. Operations Research,1956,4(5):503-531.
[5]Koopman B O. The theory of search:optimum distribution of searching effort[J]. Operations Research,1957,5(5):613-626.
[6]Tisdale J,Kim Z,Hedrick J,et al. Autonomous UAV path planning and estimation[J]. IEEE Robotics & Automation Magazine,2009,16(2):35-42.
[7]Bertuccelli L F,How J P. Search for dynamic targets with uncertain probability maps[C]//In proceeding of the American Control Conference,2006.
[8]Bourgault F,Furukawa T,Durrant-Whyte H F. Decentralized bayesian negotiation for cooperative search[C]//Proceeding of the International Conferenc on Intelligent Robots and Systems,2004.
[9]沈延航,周洲,祝小平.基于搜索理論的多無人機協同控制方法研究[J].西北工業大學學報, 2006(3): 367-370. Shen Yanhang, Zhou Zhou, Zhu Xiaoping. Research on cooperative control method of multiple UAVs based on search theory[J]. Journal of Northwestern Polytechnical University, 2006(3):367-370.(in Chinese)
[10]楊少環,高曉光,符小衛.基于博弈論的無人機搜索路徑規劃[J].系統工程與電子技術,2011,33(10):2254-2257. Yang Shaohuan, Gao Xiaoguang, Fu Xiaowei. UAV search path planning based on game theory[J]. Systems Engineering and Electronics, 2011,33(10): 2254-2257.(in Chinese)
[11]王勛,姚佩陽,梅權.多無人機協同運動目標搜索問題研究[J].電光與控制, 2016, 23(8): 18-22. Wang Xun, Yao Peiyang, Mei Quan. Research on multi-UAV cooperative moving target search[J]. Electronics Optics and Control, 2016, 23(8): 18-22.(in Chinese)
[12]Brown S S. Optimal search for a moving target in discrete time and space[J]. Operations Research,1980,28(6):1275-1289.
[13]Washburn A R. Search for a moving target:the FAB algorithm[J]. Operations Research,1983,31(4):739-751.
[14]王文杰.人工智能原理與應用[M].北京:人民郵電出版社, 2004. Wang Wenjie. Principles and applications of artificial intelligence[M]. Beijing: Posts and Telecom Press, 2004.(in Chinese)
[15]王萬良.人工智能及其應用[M].北京:高等教育出版社, 2005. Wang Wanliang. Artificial intelligence and its applications[M]. Beijing: Higher Education Press, 2005.(in Chinese)
[16]馬騁乾,謝偉,孫偉杰.強化學習研究綜述[J].指揮控制與仿真, 2018(6): 68-72. Ma Pinqian, Xie Wei, Sun Weijie. A review on reinforcement learning[J]. Command Control and Simulation, 2018(6): 68-72.(in Chinese)
[17]王宇樓.人工智能的現狀及今后的發展趨勢展望[J].科技展望, 2016, 26(22): 299. Wang Yulou. The current situation of artificial intelligence and its development trend in the future[J]. Technology Outlook, 2016,26(22): 299.(in Chinese)
[18]高春慶,寇英信,李戰武,等.小型無人機協同覆蓋偵察路徑規劃[J].系統工程與電子技術, 2019,41(6): 1294-1299. Gao Chunqing, Kou Yingxin, Li Zhanwu, et al. Cooperative coverage reconnaissance path planning for small UAVs[J]. Systems Engineering and Electronics, 2019, 41(6): 1294-1299.(in Chinese)
[19]戴健,許菲,陳琪鋒.多無人機協同搜索區域劃分與路徑規劃研究[J].航空學報, 2020, 41(S1):723770. Dai Jian, Xu Fei, Chen Qifeng. Study on multi-UAV cooperative search on region division and path planning [J]. ActaAeronautica et Astronautica Sinica, 2020, 41(S1): 723770.(in Chinese)
[20]Yan Li,Hai Chen,Meng J E,et al. Coverage path planning for UAVs based on enhanced exact cellular decomposition method[J]. Mechatronics,2011(21):876-885.
[21]朱利,符小衛.基于Voronoi圖質心的多無人機協同區域搜索算法[J].無人系統技術,2019(2):39-51. Zhu Li, Fu Xiaowei. Multi-UAV cooperative area search algorithm based on Voronoi diagram center of mass[J]. Unmanned System Technology, 2019(2): 39-51.(in Chinese)
[22]Breitenmoser A,Schwager M,Metzger J C,et al. Voronoi coverage of non-convex environments with a group of network robots[C]//2010 IEEE International Conference on Robotics andAutomation,2010:4982-4989.
[23]Dorigo M,Gambardella L M. Ant colony system:a cooperative learning approach to the traveling salesman problem[J]. IEEE Transactions on Evolutionary Computation,1997(1):53-66.
[24]Wu H,Li H,Xiao R,et al. Modeling and simulation of dynamic ant colonys labor division for task allocation of UAV swarm[J]. Physica A:Statistical Mechanics and its Applications,2018,491:127-141.
[25]Kennedy J,Everhart R. A new optimizer using particle swarm theory[C]//Proceedings of the sixth International Symposium on Micro Machine and Human Science,1995:39-43.
[26]James K,Russell E. Particle swarm optimization[C]//1995 IEEE International Conference on Neural Networks,1995:1942-1948.
[27]雷德明,嚴新平.多目標智能優化算法及其應用[M].北京:科學出版社,2009. LeiDeming,YanXinping.Multi-objectiveintelligent optimization algorithm and its application[M]. Beijing: Science Press, 2009.(in Chinese)
[28]張瑩瑩,周德云,夏歡.不確定環境下多無人機協同搜索算法研究[J].電光與控制, 2012, 19(2): 5-8. Zhang Yingying, Zhou Deyun, Xia Huan. Research on multiUAV cooperative search algorithm in uncertain environment[J]. Electronics Optics and Control, 2012, 19(2): 5-8. (in Chinese)
[29]孫純嶺,李影,任磊磊,等.無人機災情巡查區域搜索的建模與求解[J].數學的實踐與認識,2018,48(15):83-93. Sun Chunling, Li Ying, Ren Leilei, et al. Modeling and solving of UAV disaster patrol area search[J]. Mathematics in Practice and Theory, 2018, 48(15): 83-93.(in Chinese)
[30]薛政鋼.基于多群體蟻群算法的多無人機協同搜索方法研究[D].開封:河南大學,2018. Xue Zhengang. Research on multi-UAV cooperative search method based on multi-colony ant colony algorithm[D]. Kaifeng: Henan University, 2018.(in Chinese)
[31]許友平.無人機對地偵察/攻擊航路規劃軟件系統的研制與開發[D].南京:南京航空航天大學,2013. Xu Youping. The research and development of the software system of UAV reconnaissance/attack route planning[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2013.(in Chinese)
[32]鄭宏捷.無人機區域偵察航路規劃研究[D].長沙:國防科學技術大學,2011. Zheng Hongjie. Research on regional reconnaissance route planning of UAV[D]. Changsha: National University of Defense Technology, 2011.(in Chinese)
[33]Taylor C E. Adaptation in natural and artificial systems:an introductory analysis with applications to biology,control,and artificial intelligence. complex adaptive systems[J]. The Quarterly Review of Biology,1994,69(1):88-89.
[34]李敏強,寇紀淞,林丹,等.遺傳算法的基本理論與應用[M].北京:科學出版社, 2002. Li Minqiang, Kou Jisong, Lin Dan, et al. The basic theory and application of genetic algorithm[M]. Beijing:Science Press,2002.(in Chinese)
[35]李艷慶.基于遺傳算法和深度強化學習的多無人機協同區域監視的航路規劃[D].西安:西安電子科技大學,2018. Li Yanqing. Route planning of multi-UAV cooperative regional surveillancebasedongeneticalgorithmanddeep reinforcement learning[D]. Xian: Xidian University, 2018.(in Chinese)
[36]朱春媚,莫鴻強.一類適應度函數的遺傳算法編碼[J].計算機應用, 2017(7): 1972-1976. Zhu Chunmei, Mo Hongqiang. Genetic algorithm coding of fitness function[J]. Journal of Computer Applications, 2017(7): 1972-1976.(in Chinese)
[37]常佳佳,郭百巍,王星德.基于遺傳算法的模型辨識[J].計算機仿真, 2015(2): 102-105. Chang Jiajia, Guo Baiwei, Wang Xingde. Model identification based on genetic algorithm[J]. Computer Simulation, 2015(2): 102-105. (in Chinese)
[38]Goldberg D. Genetic algorithms in search,optimization and learning[M].Addison-Weseley,1989.
[39]李翠翠.混合自進化遺傳算法的矢量場校正研究[D].哈爾濱:哈爾濱工程大學, 2016. Li Cuicui. Vector field correction based on hybrid selfevolutionary genetic algorithm[D]. Harbin: Harbin Engineering University, 2016.(in Chinese)
[40]Larra A P,Kuijpers C M H,Murga R H,et al. Genetic algorithms for the travelling salesman problem:a review of representations and operators[J]. Artificial Intelligence Review,1999,13(2):129-170.
[41]溫永祿.不同信息條件下的多無人機協同區域搜索航跡規劃研究[D].北京:北京理工大學, 2016. Wen Yonglu. Research on cooperative regional search track planningofmultipleUAVunderdifferentinformation conditions[D]. Beijing: Beijing Institute of Technology, 2016.(in Chinese)
[42]Rahnamayan S,Tizhoosh H R,Salama M M A. Oppositionbaseddifferentialevolution[J].IEEETransactionson Evolutionary Computation,2008,12(1):64-79.
[43]張耀中,陳嵐,張蕾,等.一種改進CSA算法的UAV多任務區偵察決策問題研究[J].電光與控制, 2018, 25(5): 1-6. Zhang Yaozhong, Chen Lan, Zhang Lei, et al. An improved CSA algorithm for UAV reconnaissance decision in multiple mission area[J]. Electronics Optics and Control, 2018, 25(5): 1-6.(in Chinese)
[44]Yang X S,Deb S. Engineering optimization by cuckoo search[J]. International Journal of Mathematical Modelling and Numerical Optimization,2010,1(4):330-343.
[45]Yang X S,Deb S. Cuckoo search:recent advances and applications[J]. Neural Computing and Applications,2014,24(1):169-174.
[46]譚民,王碩,曹志強.多機器人系統[M].北京:清華大學出版社, 2005. Tan Min, Wang Shuo, Cao Zhiqiang. Multiple robotic systems[M]. Beijing: Tsinghua University Press, 2005.(in Chinese)
[47]David S. Smooth UCT search incomputer poker[C]// Proceedings of International Joint Conference on Artificial Intelligence,2015:554-560.
[48]Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-12.
[49]Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.
[50]Mnih V,Kavukcuoglu K,Silver D,et al. Playing Atari with deep reinforcement learning[C]//Proceedings of fine NIPS Workshop on Deep Learning,2013.
[51]褚偉,茹琦,任明侖.結合先驗知識的深度Q神經網絡算法研究[J].合肥工業大學學報(自然科學版), 2019, 42(7): 901-905. Chu Wei, Ru Qi, Ren Minglun. Research on deep Q network algorithm based on prior knowledge[J]. Journal of Hefei university of technology (Natural Science), 2019, 42(7): 901-905.(in Chinese)
[52]Lin L J. Reinforcement learning for robots using neural works[D]. Pittsburgh:Carnegie Mellon University,1993.
[53]Schulman J,Wolski F,Dhariwal P,et al. Proximal policy optimization algorithms[D]. New York:Cornell University,2017.
[54]賴俊,饒瑞.深度強化學習在室內無人機目標搜索中的應用[EB/OL]. (2020-05-25).Http://kns. cnki. net/kcms/detail/11. 2127.TP.20191113.1528.014.html. Lai Jun, Rao Rui. Application of deep reinforcement learning in indoor UAV target search[EB/OL]. (2020-05-25). Http://kns. cnki. net/kcms/detail/11.2127. TP. 20191113.1528.014. html. (in Chinese)
[55]李文正.無人機發展芻議[J].航空科學技術, 2012(4):11-13. Li Wenzheng. Discussion on UAV development[J]. Aeronautical Science & Technology, 2012(4): 11-13.( in Chinese)
[56]Doll B B,Simon D A,Daw N D. The ubiquity of model-based reinforcement learning[J]. Current Opinion in Neurobiology,2012,22(6):1075-1081.
[57]蔣浩,高鑫.人因工程在無人機中的應用及展望[J].航空科學技術,2019,30(5):9-13. Jiang Hao, Gao Xing. Application and prospect of human cause engineering in UAV[J]. Aeronautical Science & Technology, 2019, 30(5): 9-13.( in Chinese)(責任編輯王為)
作者簡介
吳兆香(1995-)女,碩士研究生。主要研究方向:無人機集群控制。
Tel:18851172812E-mail:wuzhaoxiang@nuaa.edu.cn
歐陽權(1991-)男,博士,講師。主要研究方向:無人機飛行控制、電池管理等。
Tel:15968118392E-mail:ouyangquan@nuaa.edu.cn
王志勝(1970-)男,博士,教授。主要研究方向:信息融合,無人機蜂群控制、計算機視覺等。
Tel:13813019305E-mail:wangzhisheng@nuaa.edu.cn馬瑞(1997-)男,碩士研究生。主要研究方向:深度強化學習。
Tel:17806258833
E-mail:maruinuaa@nuaa.edu.cn
叢玉華(1981-)女,博士研究生,講師。主要研究方向:跨域協同、無人機飛行控制等。
Tel:13913981289
E-mail:28989116@qq.com
Status and Development of Regional Reconnaissance Methods of UAV Based on Artificial Intelligence
Wu Zhaoxiang1,Ouyang Quan1,*,Wang Zhisheng1,Ma Rui1,Cong Yuhua1,2
1. Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China
2. Nanjing University of Science and Technology,Nanjing 210023,China
Abstract: Regional reconnaissance is an important branch of unmanned aerial vehicle(UAV) research. Due to the complexity of the actual mission and environment, the control method of regional reconnaissance must be provided with fast calculation speed, strong autonomy and intelligence. Artificial intelligence has been used in regional reconnaissance because of its strong learning ability, high efficiency, and high degree of integration. This paper systematically introduces the background of the regional reconnaissance problem and summarizes the methods based on artificial intelligence to solve this problem, which are mainly divided into two categories: heuristic algorithms for constructing and optimizing the objective function and deep reinforcement learning methods for solving the optimal value or strategy. Given by a comprehensive comparison of the above methods, it is found that deep reinforcement learning performs self-learning and online learning well, which can adapt to complex and unknown environments,and further it can quickly and accurately solve regional reconnaissance problems. In addition, this paper also discusses the development trend of regional reconnaissance technology and the challenges faced by deep reinforcement learning.
Key Words:artificial intelligence; regional reconnaissance; deep reinforcement learning; heuristic algorithm; autonomous intelligence