王從寶,張安思,2,楊 磊,梁國強,張 保
(1.貴州大學 機械工程學院,貴州 貴陽 550025;2.貴州大學 公共大數據國家重點實驗室,貴州 貴陽 550025)
四旋翼因其結構簡單、機動性高、成本低、故障低以及多功能性等特點,在公共安全、民航拍攝、消防急救、農業植保以及軍事等[1-5]領域顯示出其廣泛的應用前景。同時,隨著計算機科學、人工智能、圖像處理以及大數據等相關技術的迅速發展,推動著無人機技術朝著完全自主傳統無人機自主飛行控制和更加安全高效的方向發展。在無人機自主飛行研究中,感知和避障是難點所在,常因感知不準確或者避障不及時導致無人機墜毀,因而受到眾多研究者的關注。
方法通常基于同步定位映射(SLAM)或狀態估計和控制指令計算兩步交叉過程,從而實現無人機自主能力[6-7]。盡管目前常用的SLAM算法可在大多數情況下進行有效定位,但在視覺重疊、動態場景以及外觀顯著變化等復雜環境中會導致感知系統出現無法修復的錯誤。此外,感知與控制的模塊化還會引起模塊間誤差累積和漂移等問題。
為克服上述問題,近年來,隨著深度學習(Deep Learning,DL)在無人機自主飛行感知和避障領域的優勢逐漸凸顯,特別是基于數據驅動的DL無人機自主飛行控制在許多任務中取得了顯著成效[8]。其能夠將無人機的感知與控制有效結合起來,消除傳統控制中漂移等問題[9]或者能夠進行端到端直接數據驅動控制[10]等優勢。因此,為全面了解目前基于DL方法且以視覺輸入的四旋翼自主飛行感知和避障的研究進展。
本文首先簡要闡述了無人機自治水平等級和相關DL技術方法;其次,對四旋翼仿真平臺及數據集對相關基礎性研究進行介紹;再次,圍繞基于DL且以視覺輸入的四旋翼自主飛行感知和避障兩方面進行了較為全面的分析和總結;最后,針對基于DL且以視覺輸入的四旋翼自主飛行感知和避障的研究現狀,對其面臨的挑戰和未來的發展趨勢進行總結和展望,旨在為后續研究人員提供參考。
本節將對相關工作進行簡要闡述,從無人機的自治等級和相關DL技術進行介紹,為后續的綜述開展奠定思路基礎。
無人機自主性可定義為自身集成傳感、感知、分析、通信、規劃、決策以及行動的能力,通過人機界面(HRI)或無人機系統與其通信,以實現人類操作員指定的目標[11]。澳大利亞航空航天自動化研究中心的Kendoul[11]根據無人機執行任務的復雜程度、環境的復雜度以及外部系統獨立性,將無人機的自主水平可劃分為11個等級,如圖1所示。從0級到10級,劃分的自主水平等級是一個漸進遞增的過程。其中,最基本的自主水平級別為0級,其要求無人機由遙控器進行控制,由遠程外部系統發出控制命令,引導無人機執行特定的功能,而傳感由無人機執行,所有數據也是由外部系統進行處理和分析。最高級自主水平級別為10級,要求無人機在沒有外部干預的情形下執行人類設定的復雜任務,即無人機能夠完全自治[11]。對于較高的無人機自治水平等級,目前的研究尚未涉足,大多數研究主要集中在中間自治級別,即4級無人機水平自治等級。而4級自治要求無人機能夠感知障礙物存在(即檢測無人機與障礙物的距離),并自主決策避開障礙物。

圖1 無人機自主等級劃分Fig.1 UAV autonomy level classification
無人機自治等級劃分為本文對基于DL視覺的四旋翼自主飛行感知和避障綜述提供了有效的分析路線,本文將圍繞無人機4級自治級別展開基于深度視覺的四旋翼自主飛行感知和避障研究進展進行全方面的綜述。
DL在過去的十幾年里已經被證明是人工智能領域一項優越的技術,可以解決很多種類的問題,在某些案例中甚至超越了人類[12],并且在數據挖掘[13]、計算機視覺[14]、自然語言助理[15]、生物特征識別[16]以及醫學診斷[17]等多個領域取得了良好的效果。其作為機器學習的一個分支,一種從數據中學習表示的新方法,具有神經網絡的特征,通過增加神經網絡深度對輸入進行特征提取,因深層網絡結構具有很強的表示能力,所以可以學習到輸入數據的高維特征。深層網絡結構的各個網絡層含有可更新的權值參數,可通過對參數的更新來逼近表達復雜的非線性函數。常見DL結構有卷積神經網絡(CNN)[18]、循環神經網絡(RNN)[19]等。
基于DL視覺的四旋翼自主飛行感知和避障的多數研究中,更加傾向于CNN,該網絡是一種能夠自動檢測輸入數據(視覺圖像或時間序列)并能夠從圖像中提取圖像特征的DL模型,這也正是基于DL的無人機自主飛行感知和避障研究常以視覺圖像作為輸入數據的原因。常見CNN通常由多層網絡結構組成,一般包含輸入層、卷積層(Convolutional Layer)、最大池化層(Max Pooling Layer)、全連接層(Fully-connected Layer)以及輸出層。網絡結構中的卷積層常對輸入二維圖像與二維內核進行卷積運算的典型卷積操作,通過非線性激活函數(ReLU或Sigmoid)對卷積操作輸出,并通過池化函數對輸入數據進行采樣,以最大池化函數最為常見。可重復上述過程,從而學習到高級的抽象表示,最后由輸出層進行輸出。典型的CNN結構如圖2所示[20],在其基礎上還衍生出多種變體網絡結構。其中,衍生出的DL網絡變體在四旋翼的自主飛行感知和避障上應用研究如表1所示。

圖2 典型CNN結構Fig.2 Typical CNN structure

表1 常用于四旋翼無人機自主飛行感知和避障的DL網絡結構Tab.1 DL network structures commonly used for quadrotor UAV autonomous flight perception and obstacle avoidance
近年來,得益于諸多無人機仿真平臺和用于無人機自主飛行感知和避障研究的相關公開數據集,進一步推動了無人機自主飛行感知和避障的研究進展。為此,本節將從無人機仿真平臺與數據集兩方面,進行較為全面的介紹和總結。
無人機仿真平臺通常由仿真內核與控制軟件兩部分構成,仿真內核主要涵蓋無人機的飛行控制模塊、接口模塊以及無人機數學模型等,控制軟件包含主控模塊、飛行記錄與回放模塊以及可視化模塊等。仿真的目的是將仿真環境中無人機的運動策略遷移到真實環境中,實現2個環境之間的無差別轉化,是基于學習的無人機自主飛行的最終目標。仿真環境中的訓練是真實環境中應用部署的根基,同時也是無人機自主學習和運行試驗的首要步驟。相比于實體無人機在真實工況環境中進行飛行試驗學習的危險性和不確定性,仿真訓練為基于DL的無人機自主飛行感知和避障研究提供了一種成本低廉、效率高且能可視化的學習路線。
為此,本小節將分別對Gazebo[27]、Flightmare[28]以及AirSim[29]三種常用于四旋翼無人機DL方法研究的仿真平臺進行簡要的介紹,其對應的特點如表2所示。

表2 常用的四旋翼無人機仿真平臺對比Tab.2 Comparison of commonly used quadrotor UAV simulation platforms
① Gazebo。Gazebo是由南加州大學機器人研究實驗室Howard等開發的一個免費且開源的高性能仿真平臺,其集成了機器人操作系統(ROS)和PR2機器人平臺,可應用于無人機的開發、仿真和測試。與其他2個仿真平臺相比,Gazebo與ROS有很好的兼容性,經常與ROS配套使用,但其視覺渲染效果不是很好。
Gazebo具有清晰的圖型界面和便捷的編碼窗口,支持ODE、Bullet、Simbody等多種物理引擎,并應用ORGE渲染引擎為研究者提供各種情形下高仿真的室內外環境。能夠對無人機在不同工況環境中飛行高仿真度模擬,很適用于感知、避障以及路徑規劃等無人機導航的研究。Gazebo內含各種機器人仿真模型,并提供多類傳感器來模擬環境的反饋,讓使用者能夠搭建不同類型的無人機飛行模擬環境。除此之外,Gazebo還為使用者提供云端服務,使得控制算法在仿真無人機上進行快速測試和驗證成為了可能。
② Flightmare。Flightmare是由Song等[28]提出的一個模塊化且靈活的四旋翼模擬器,通過使用Unity編輯器構建逼真的渲染引擎和四旋翼動力學模擬。Flightmare將四旋翼無人機動態建模和渲染引擎進行解耦,便于通過使用并行編程實現快速準確的動態仿真,還為使用者提供方便靈活的可視化界面,可以在各種復雜且接近現實的3D環境中模擬不同的傳感器。渲染引擎和四旋翼動力學之間的接口使用高性能的異步消息傳遞庫,實現多種協議消息傳輸以及異步消息處理等任務。
Flightmare具有幾個鮮明的功能:首先,支持3D點云場景提取界面的多模式傳感器套件;其次,可用于強化學習API,并集成用于模擬環境交互的VR眼鏡;此外,還可應用于視覺里程、DL以及人機交互等各種應用。
③ AirSim[29]。AirSim是微軟公司于2017年為機器學習研發而開發的一款開源無人車/無人機仿真平臺,其仿真環境是基于虛幻引擎(Ureal Engine)而開發的,支持跨平臺的軟硬件在線仿真,具有極高的物理與視覺渲染度,適合自動駕駛相關的計算機視覺、DL以及強化學習等算法研究。
AirSim具有便捷而強大場景搭建模塊,包含城市、小鎮、森林、胡泊等豐富場景,用戶可在城市中心、郊野、工業區等多種環境中對飛行器進行算法測試和驗證。AirSim提供Mavlink接口并支持使用Pixhawk固件(如Ardupilot與PX4)運行SITL和HITL,可對仿真環境中的飛行器進行直接控制。同時,AirSim還提供多種語言的API接口,具有完備的底層控制架構,可以對中上層控制進行設計。此外,AirSim還具有單目相機、深度相機、IMU、激光雷達、GPS等多種傳感器,具備很好的擴展性。
DL技術為無人機自主飛行感知和避障研究提供了可行的解決方案,其核心思想是通過訓練階段從大量數據中提取高層抽象表示,進而做出分析決策。但目前大多研究的數據來源是公開數據集,包含從真實或虛擬環境中獲取的無人機標注數據集,下面介紹幾種常用于無人機研究的公開數據集。
① KITTI數據集[30]。KITTI數據集是在德國卡爾斯魯厄(Karlsruhe)的周圍環境中通過移動平臺(大眾Passat旅行車配備的4個攝像機、1個旋轉3D激光掃描儀和1個組合GPS/IMU慣性導航系統)收集的數據集。該數據包含攝像頭圖像、3D激光雷達、慣性與GPS導航數據等,是為了推進以自動駕駛為目標的計算機視覺和機器人算法的發展。該數據集涵蓋多種多樣的交通場景,捕捉了從農村地區的高速公路到市中心的許多靜態和動態對象的場景。在合適場合無人機研究中可應用該數據集。
② IDSIA森林足跡數據集[31]。該數據集通過 1名徒步旅行者配備3個GoPro Hero3頭戴式攝像頭(1個向左30°,1個指向正前方,1個指向右側30°)覆蓋大約7 km徒步旅行路線所采集而來,最后圖像數據由3個相機圖像組成。該數據集通過避免相同軌跡重合被拆分為不相交的訓練集(含17 119幀)和測試集(含7 355幀)。該數據可用于預測各種路徑的視圖方向(左、中、右3個方向)。
③ 無人機碰撞數據集。該數據集出自于Gandhi等[32]提出的一篇無人機研究文獻中,通過2個步驟對數據進行收集;首先,對導致不同類型碰撞原始軌跡進行采樣,在此基礎上學習導航策略;其次,在第一步導航策略下收集更多更好的軌跡。該數據包含了20多種不同室內環境中的11 500條碰撞軌跡,通過使用加速度計數據將所收集的軌跡數據自動分割,進而將軌跡劃分為遠離碰撞物體和靠近碰撞物體的正負數據。
④ Udacity數據集[33]。Udacity數據集起初是為一個線上挑戰所提供的,該數據集包含7 000張汽車駕駛圖像,分布于6個視頻剪輯中,5個用于訓練,1個用于測試。這些圖像數據包括了來自3個攝像頭(左、中、右)的時間戳圖像以及不同傳感器(如IMU、GPS、轉向角、速度)的數據。
⑤ SYNTHIA合成數據集[34]。SYNTHIA數據集是一個自動駕駛場景下合成的數據集,該數據集由基于Unity開發平臺創建的虛擬城市渲染的一組圖像幀構成,包含了各種靜態場景(建筑、道路、人行道和交通標志等)和動態對象(如汽車、自行車和行人)以及不同照明條件和天氣。數據集包含了213 400張虛擬城市中隨機快照和視頻序列2組互補的合成圖像,涉及8個RGB攝像頭傳感器(2個多目攝像頭和4個單目攝像頭)。
在四旋翼自主飛行研究中,DL無人機的感知和避障是目前研究的重心所在,感知任務允許無人機了解自身狀態和環境情況,而避障則是對感知到的障礙物進行避讓,避免發生碰撞,感知與避障相互區別,又呈現出交集且遞進的關系。感知任務一方面是對無人機自身狀態和所處環境進行估計;另一方面為避障輸入相應指令,以完成相應避障任務(其關系如圖3所示)。下面將從無人機自主飛行感知和避障兩方面分別進行論述。

圖3 無人機自主飛行的感知和避障關系Fig.3 Relationship between perception and obstacle avoidance for autonomous UAV flight
在無人機自主飛行研究中,無人機感知是指無人機在飛行過程中能夠對自身狀態和周圍環境的理解,如可以考慮周圍環境的空間限制以及對障礙物邊界進行有效檢測。在DL的背景下,無人機的感知大多數情況下依賴于視覺技術。正因DL在圖像上表現出的強大性能,因此被廣泛應用于無人機自主飛行的感知中。近期的大多數研究基于視覺上對環境進行感知,一方面是檢測無人機需執行的任務目標或自身所處環境情況;另一方面則是根據對環境的感知輸出有關特征表示,為后續無人機生成高級控制飛行指令。
Wang等[10]提出基于深度循環神經網絡來實現單目視覺里程的端到端的新框架,并用該架構以端到端方式進行訓練和部署,從原始RGB圖像中推斷出無人機的姿態。通過深度網絡架構與經典的幾何方法結合,進一步提高視覺里程(VIO)的準確性。而Smolyanskiy等[35]提出一個自動跟蹤微型飛行器系統,并引入深度神經網絡(DNN)用于估計無人機相對軌跡中心的視圖方向和橫向偏移,以實現無振蕩的穩定飛行。
而一些研究者通過基于學習的深度估計來感知周圍3D環境,這種3D環境感知可以用于反應式[36]或者計劃式[37]控制策略,從而使得無人機安全地導航。Mancini等[38]提出一種用于場景深度估計的神經網絡,并在網絡中添加長-短記憶層,以低開銷計算方式緩解單目視覺的一些固有限制,在KITTI數據上進行驗證,與當前最新技術有著相當的性能,且該網絡能夠在不進行任何微調的情況下推廣到不同實際環境中。此外,文獻[39]提出聯合障礙物檢測和深度估計的網絡架構,應用VGG-19網絡對輸入的RGB圖像進行特征提取,然后將特征反饋給深度預測分支網絡和障礙物檢測分支網絡。深度預測網絡模型被告知檢測對象結構,從而產生更加穩健的估計,而障礙物檢測利用深度信息更加精確地預測障礙物距離和包圍框。該方法在未知的場景中表現出顯著的映射質量,降低無人機導航的失敗率。為了促進無人機在植物保護領域的應用,Wang等[40]將DL與深度相機結合,提出一種RGB-D信息融合方法。該方法使無人機能夠感知到障礙物存在,而且還能夠感知障礙物的位置和內容。根據感知到障礙物的具體特征,生成最優避障策略和規劃最小飛行路徑。類似地,She等[41]通過使用YOLOv3網絡檢測可疑障礙區域,并引入SURF算法對輸入圖像進行匹配和提取特征點。然后在輸入圖像之間匹配可疑障礙區域。最后進行特征點提取和視覺擴展處理從而確定障礙物。
此外,在國際比賽方面,自2016年首屆無人機競技大賽以來[42],其他無人機國際競賽紛紛舉行,極大促進了無人機領域的發展,同時也推動了DL技術在無人機系統上的應用。總體來看,DL技術在無人機競賽中主要作為感知系統并結合相關技術實現無人機在特定環境中自主飛行,以實現相應飛行任務。通過神經網絡對特定環境(如閘門、顏色等)進行感知,并反饋相關信息使無人機調整其姿態,便于執行相應任務(如飛越閘門)。關于DL網絡在四旋翼競賽中的應用如表3所示。

表3 DL網絡在四旋翼無人機競賽中的應用Tab.3 Application of DL network in quadrotor UAV competition
避障是四旋翼無人機自主飛行中不可或缺的任務。傳統避障技術利用同步定位和映射(SLAM)和運動結構(SfM)等技術來生成表示環境視覺的幾何地圖,從而預測障礙物和能穿越的空間。這些技術由立體相機、光探測距離傳感器或超聲波傳感器等多種傳感數據進行融合,但這些傳感器價格高昂、體積、質量大或是工作范圍和環境有限,不適用于小型的旋翼無人機系統。
目前,四旋翼無人機避障研究主要集中在自主避障上。對于無人機自主避障的研究應用場景,一種是側重于非結構化的戶外場景,例如森林,這使無人機在荒野檢測、野外搜尋救援、目標跟蹤以及環境檢測等應用成為可能;另一種則側重于室內場景,涵蓋監視、貨物交付、任務或者制造環境檢查等各種任務。根據室內外場景列舉了相關DL在四旋翼避障技術上的應用,在這些DL避障方案中,一些人使用端到端的方法將無人機系統捕捉到的原始傳感器數據直接映射到一組可能的飛行動作中[32,52-53],這些方法不需要明確的映射和運動規劃[23,54-55]。一些方法通過模仿人類[23,54],從模擬環境訓練[55]中收集經驗,或者是直接部署與現實世界[32]中進行訓練。這些避障任務中,DL方法能夠通過標記輸入數據集進行恰當的概括,從原始輸入數據(視覺圖像)中推斷出一種模式,即在未知情況下引導適當的行為動作(相關應用如表4所示)。

表4 相關DL四旋翼無人機避障技術Tab.4 Related DL quadrotor UAV obstacle avoidance techniques
與上述不同的是,一些研究者基于DL提出不一樣的方法。通過估計輸入圖像的深度判斷無人機與障礙物的距離或者檢測無障礙區域,然后使無人機遠離障礙物或向無障礙區域飛行,從而避免發生碰撞。例如,Chakravarty等[57]通過使用CNN來預測RGB圖像的深度,用數千個訓練圖像對神經網絡進行訓練,并設計一種基于行為仲裁的控制算法,接收來自神經網絡估計深度圖作為輸入,并輸出偏航和俯仰軸上的角速度,以引導四旋翼無人機遠離障礙物并朝向目標位置飛行。該方法可在以前看不到的室內環境中推廣,并有較好的泛化能力。同樣,Carrio等[58]通過使用AirSim生成3種不同無人機模型來合成豐富的深度圖數據集,并基于深度圖檢測方法成功用于無人機避障。Zhang等[59]也應用CNN從RGB圖像中估計深度,然后將深度圖像輸入避障系統中,避障算法將擴展深度、目標位置、當前位置以及當前方向作為輸入,然后輸出用于避障的旋轉角,使無人機遠離障礙物,向目標方向飛行。并以四旋翼鸚鵡Bebop2在現實世界驗證該方法的有效性。
而一些DL技術需要執行幾個階段,這些階段涉及中間表示,用于預測無人機與障礙物的距離、無人機的姿態或者里程計,以便重新計算到達目標位置的路徑。這種DL方法通常會有2個模塊;一個是感知模塊,該模塊會生成一組與無人機系統及周圍環境狀態相關的特征圖;另一個則是決策模塊,根據感知模塊狀態估計進行決策預測。這些模塊組合構成一種復雜的網絡。如Dai等[60]基于CNN方法設計一種兩級端到端避障框架使得四旋翼無人機能夠在未知和非結構化環境中自主避障。該方法可以減少決策延遲并提高無人機的魯棒性,其第一階段基于CNN模型作為預測機制來預測轉向角和碰撞概率;在第二階段,控制機制將轉向角映射到改變無人機偏航角的指令,使得無人機遇到障礙物時,可以通過自動轉向避免碰撞。類似地,在Yang等[61]的研究工作中,提出具有中間感知的兩階段CNN方法,從圖像中進行軌跡預測。該方法第一階段從圖像中預測深度和表面法線估計[62],第二階段則是從深度和法線圖中預測路徑,從而使得無人機能夠感知3D障礙物的位置以及場景分布,從而更加精確地預測路徑。
綜上所述,DL技術依賴自身在原始傳感數據(圖像)中的卓越學習表征性能而受到研究者的廣泛關注。從目前研究情況來看,四旋翼獲取圖像數據是當下基于DL利用關鍵信息類型,這是因為獲取圖像的傳感器價格便宜、質量小且能量功耗低等特性。鑒于DL技術在圖像信息提取中表現出強大的性能,因其在無人機自主飛行研究應用中的算法優勢引起研究人員極力投入,從結果來看已是初顯成效,但其作為機器學習一個蓬勃發展的新領域,正處于一個發展階段中,在解決實際問題時,多復雜工況下的四旋翼自主飛行感知和避障研究中仍然面臨著諸多挑戰。
① 訓練數據成本高
在DL技術中以大多采用監督學習方法,實際復雜工況環境中生成泛化能力魯棒的模型需要大量數據,對于四旋翼而言,針對性的數據采集成本比較高,且容易出現無人機碰撞、偏離路徑以及墜落等情況。對于大量數據還需進行數據標記工作,這一任務極為耗時。
② 推理認知能力不強和泛化能力弱
目前,基于DL方法的自主四旋翼研究還依賴大量的數據進行訓練,雖然無人機在既定環境中表現出較好的性能,也解決了無人機在傳統控制中漂移、偏差、不可預測噪聲序列等問題,但其智能水平還停留在計算智能上,且網絡模型的泛化性能和有效性還受到所用數據的數量及質量的制約,代表性場景和條件的多樣性數據集、傳感器多種類別之間的平衡成為了DL應用過程相互制約的因素。
③ 缺乏統一評判標準
大多數研究闡述了所用的網絡模型結構、訓練數據以及相應的測試方法,解釋所選地面真值、標簽并描述導航系統如何與CNN模型交互。但缺乏統一性的評判指標,一些文獻應用特定環境指標進行評估,例如成功飛行的圈數[58]或者飛行的距離[31]以及不同速度[9]下的性能。
④ 硬件及通信系統限制
四旋翼平臺自身存在續航能耗、有效載荷尺寸局限等問題,而這些限制主要源自電池技術和傳感器技術的發展,同時這也限制了無人機自主飛行所需的能力。此外,多數無人機自主操作都是機載處理,通信設備和處理器的性能會影響無人機的操作,特別是在傳輸大量數據或是帶寬限制時體現尤為明顯。現在,設計功能強大且能耗低的小型化設備是嵌入式開發人員要攻克的難題,特別是處理器GPU這一板塊。
針對上述問題,結合DL的發展趨勢,對基于DL的四旋翼自主飛行在感知和避障的未來發展及研究方向做出幾點總結。
① 多源的數據集
針對無人機自主飛行研究數據相對缺乏、采集成本高等問題,可通過在模擬環境中無人機采集模擬圖像樣本對網絡進行訓練,或者根據真實圖像與模擬圖像生成合成圖像,從而減少數收集過程成本昂貴的問題。這要求模擬器在功能上可生成真實照片的真實感環境,這樣有利于網絡感知算法與模擬到真實傳輸技術的發展。
② DL與強化學習(RL)結合
現階段神經網絡是DL方法中依靠數據驅動實現無人機控制的主體核心,這是基于深度網絡在學習表征能力上的體現,而網絡的決策能力表現并不突出。RL在策略搜索決策能力上表現出良好的性能,通過融合DL魯棒表征能力和強化學習的決策能力的深度RL將會是無人機自主飛行研究的一個熱點和發展前景。
③ 高效的網絡學習模型
當前,出現了較多表征精確度較高的DL模型,但這些模型并不都適用四旋翼無人機自主飛行上的應用研究,僅少數模型可直接應用,大多數模型需要對其結構和參數進行適當的調整,才能夠在無人機自主飛行研究中應用。設計適用于無人機自主飛行研究的高效網絡學習模型極為重要,高效的學習模型可減少訓練學習時間以及應用時對數據的處理時間,從而提高網絡模型在應用中的快速決策能力。
④ 硬件設施的突破
對于處理器、傳感器、通信系統等硬件上的限制,因DL技術都有著較高的計算資源要求。目前,需要減少網絡模型深度、降低數據的輸入幀率等措施來匹配硬件上的限制,并在硬件與其功耗之間做出良好的權衡。從長遠來看,需等待相關領域有質的突破。例如,出現更高性能且體積小的CPU,可提高無人機的機載計算處理能力,也可解決網絡通信系統在成本、覆蓋范圍、延遲以及可擴展方面的需求。而在DL-UAV的供電方式上受限于使用重型的鋰聚合物或鋰離子電池,若未來開發人員突破現行的能量收集機制,將會更好地擴展自主無人機的應用研究。
文中首先從無人機自治等級與相關DL技術方法進行簡要闡述,明確當前四旋翼自主飛行研究所處的自主水平,并對基于DL方法進行簡要介紹;其次,從無人機仿真平臺及數據集的相關基礎性研究進行介紹和;然后,對基于DL且以視覺輸入的四旋翼自主飛行感知和自主避障兩方面研究進展進行全面綜述;最后,結合DL和以視覺輸入的四旋翼自主飛行感知和避障在一些關鍵的開放性問題上的不足,對其未來挑戰和發展趨勢進行了總結和展望。希望可為基于DL方法且以視覺輸入的四旋翼無人機自主飛行感知和避障的研究者提供進一步的啟發。