陳超逸 魏沛杰 劉永峰 韋哲 薛松
摘 要 :深度學習在計算機目標檢測領域近幾年突飛猛進,取得了較大的成果。本文總結了迄今為止相關研究成果并分析了主要算法的利弊,從無人機航拍影響數據集和目標檢測算法的研究發展趨勢出發,分析了無人機航拍的成像特點、相關計算機目標檢測算法的存在問題和改進空間。目前,無人機影像目標檢測技術正處于快速發展階段,具有廣闊的應用前景和實用價值。
關鍵字:目標檢測;深度學習;計算機視覺;無人機影像
1研究背景及意義
目標檢測作為計算機視覺研究領域之一,是熱點課題也是重點課題,一直以來受到廣大學者的關注和研究。傳統的目標檢測方式首先從指定的圖形上確定幾個候選的地區,然后再以滑動的方法對這些地區提取特點,最后利用經過訓練的分級器,對所提取的特點加以分組運算。由于采用滑動窗口的區域選擇策略沒有針對性,且時間復雜性較高,因此窗口多余嚴重,而手工設計的特征針對多樣性的改變也不能很好的魯棒性,因此傳統目標檢測算法難以滿足發展需求,已經逐步淘汰。
深度學習是計算機學習研究中的全新重要領域,隨著學術界對關鍵技術的進一步深入研究與發展,基于深度學習的目標測試技術也獲得了突破性發展。基于學習的目標檢測算法利用深度卷積神經網絡獲取目標特征,在魯棒性、準確度和檢測速度方面均超過了傳統算法。深度研究的實質意義上,是指利用建立有很多隱層結構的機器學習模型和海量的訓練數據分析,來了解更全面的系統特性,以便于最終提高分析或預測結果的精確度,具有良好的泛化性,相比較傳統算法,在完成指定場景下的檢測任務具有更好的表現。
隨著無人機技術的發展以及安全方面的需求,經常需要利用無人機航拍來進行數據的采集。無人機能夠快速的獲取大量數據,在農業、軍事、建筑、地質等許多領域發揮了重要作用。目前為止,常規圖像目標檢測技術的發展已經趨向成熟,可無人機航拍時視野廣、視角高、天氣復雜,其成像不穩定、目標尺度小,難以直接提取影像中的信息特征,深度學習目標檢測算法在此領域依舊需要進一步的研究與改進。
2國內外研究現狀
2.1目標檢測研究現狀
目標檢測任務是尋找目標在給定圖像中的位置并判定目標的歸屬類別。目標檢測技術發展至今已有多年歷程,從2001年至2021年目標檢測技術發展的線路方案,大致上經過了兩個主要發展階段——基于經典特征信息提取的目標檢測時代、以及基于深度學習的目標檢測時代。
在深度學習時代以前,早期基于經典特征提取的傳統目標檢測方式的過程主要包括了三步:候選框生成、特征矢量獲取,以及區域劃分。候選框生成的主要功能是尋找目標在圖片中可能出現的地方,如"感興趣區域"ROI,并通過更多尺寸的滑動窗口掃描整幅圖片;第二階段需要設計能夠捕捉語義信息和魯棒性的視覺特征用來判別任務目標;第三階段使用區域分類器,將目標對象與其他類別區分。
近年來,計算機硬件技術的飛速發展為深度卷積神經網絡的實現提供了算力保障,基于深度學習的目標檢測算法逐步成為目標檢測算法的主流。基于深度學習,目標檢測分別向兩個主要研究方向發展——基于候選區域的算法和基于回歸的算法。基于候選區域的算法也叫雙階段目標檢測算法,第一階段是選取候選區域,第二階段是進行分類和邊框位置的回歸。雙階段目標檢測的代表算法主要有RCNN、Fast RCNN、Faster RCNN等。基于回歸的算法又叫單階段目標檢測算法,該算法可以跳過對候選框的選擇,直接從卷積網絡中預測類別的坐標值和置信度,單階段目標檢測的代表算法主要有YOLO、YOLOv2、YOLOv3、SSD等。基于深度學習的目標檢測方法,從結果分析來看,從速度和精度上都大大超越了傳統的目標檢測方式,并且降低了人為因素,從而擁有卓越的泛化能力,基于深度學習研究目標檢測,已逐漸成為主流。
2.2無人機航拍影像的目標檢測研究工作現狀
無人機因其航拍特殊性,其成像中任務目標廣泛較小、大范圍拍攝造成的尺度差異懸殊、背景多變,許多已在常規數據集上驗證有效的深度學習方法無法直接利用。因此,許多研究針對無人機影像特點改進深度學習模型,以優化小目標檢測的精度。現有的目標檢測算法在無人機影像上的檢測效果仍然不盡理想。對無人機視角下的影像進行檢測有以下幾方面的研究重點和研究難點:
(1)可用數據集缺乏。雖然無人機技術得到了飛速發展,無人機航拍影像的質量也逐漸提升、種類更加完全,但是還是缺少大范圍的無人機航拍公開數據集,無法確保模型的充分訓練。
(2)無人機成像目標尺度小。無人機在高空拍攝時,角度高,視野廣,而任務目標在成像里往往可能只有數百像素,與全景圖像尺寸比很小。
(3) 無人機航拍目標尺度變化大、背景復雜。無人機對地面物體拍攝時的范疇較廣并且角度各異,導致圖像中涉及的目標角度和尺度差異較大,尤其是隨著無人機與目的距離的靠近。
3無人機目標檢測研究進展
針對無人機圖像中的機場、飛機、汽車等目標識別,屬于一種“大范圍、小目標”的識別應用,受限于目標尺寸、目標形態改變、背景干擾等各種因素的影響,傳統的目標識別方法很難達到較高的準確性,近年來基于深度學習的目標檢測方法在無人機技術應用領域取得了一些重要的研究進展。面向無人機圖像的深度學習目標識別方法,可以解決在復雜場景下對“大范圍、小目標”應用的快速準確定位問題。通過深度學習方法,首先對機場、飛機等目標進行識別,之后再對目標類型進行精細識別。使用候選窗口獲取和分類器辨識的識別框架:先通過區域候選計算,獲取待辨識的目標區域;在候選范圍上使用已經訓練好的學習模塊,對范圍內所包含主要目標類型做出分類辨識。
3.1航空影像數據集現狀
無人機航拍影像有其獨特顯著的特點,在公開的自然情形圖像數據集MS COCO等上面做檢測任務時取得的效果令人差強人意。
出現用無人機當拍攝平臺來制作數據集的時間比較晚。深度學習的結果非常依賴數據集的質量,然而在無人機影像目標檢測上,我們缺少大量諸如ImageNet、MS COCO等成熟公開的數據集。目前,無人機航拍影像數據集的類別數量,以及目標標注過的公開數據集非常少,絕大多數現有的數據集收集的類別大概局限在車輛、建筑、飛機和船舶,比較下來,ImageNet里包括1000個類別共1281167張帶注釋(標簽)的訓練集圖片,所以現有的數據集難以表現現實世界的復雜程度;同時,目標的尺度變化和旋轉特性不夠豐富,相比于衛星和傳統航空遙感平臺,無人機有著較高的靈活性,目標較為豐富的變化才能逼近無人機的實際航拍場景。因此,在采集和制作無人機影像數據集時應作如下方向努力:
1)數據集應具有較大的規模。目標類別、目標標注在數量上要足以支撐基于深度學習的方法。類別的選擇除了滿足實際應用還要平衡正負樣本的比率,從而進一步提高無人機影像目標檢測的技術水平。
2)數據集應具有較好的泛化性,淡化數據集本身的特征。使用不同傳感器進行航拍,保證相同類別目標具有不同的分辨率;拍攝時段和天氣應多樣化,從而確保影像信息之間具有偏差更加貼合實際。
3)數據集應充分表征無人機影像的特點。背景信息足夠豐富,不能刻意排除模糊、有遮擋或難以辨別的目標;采集數據時應注意同類目標的多樣性和相似性,包括尺度和形狀的變化、旋轉特性等。
3.2無人機目標檢測研究現狀與重難點
計算機視覺領域中基于深度學習的目標檢測方法在自然場景領域取得了巨大的成功,這對于無人機目標檢測任務是值得借鑒和參考的,很多國內外研究提出了效果顯著的改進算法。本文從無人機影像的4個特點出發,分析比較了一些具有代表性的方法。
3.2.1無人機影像中的復雜背景問題
無人機影像中目標密集區域往往存在著大量近似物體,從而導致檢測中的漏檢或誤報增加。此外,無人機影像背景中大量噪聲信息,還會使目標被弱化或遮擋,難以被連續和完整地檢測。
在解決無人機影像中的復雜背景問題時,上下文信息可以幫助模型對目標與背景的理解,從而從提取更好的目標特征,但上下文信息需要進行挑選,通常只有部分信息是對模型有用的;空洞卷積在增加感受野的同時保留細節信息,為了適應無人機影像中的目標分布和遮擋情況,多尺度空洞券積中提取的特征大小和數量顯得尤為重要:注意力機制可以有效過濾背景中的無用信息,不過在無人機目標檢測這種特定的場景下需要合理地分配權重,避免小目標的漏檢或誤報。
3.2.2無人機影像中的小目標問題
無人機影像中目標的尺度范圍大,各類目標經常出現在同一圖片中。小目標在圖片中占比極小,提供的分辨率有限,從而造成檢測困難。
在解決無人機影像中的小目標問題時,特征融合的方法可以結合多層特征來進行預測,提高對多尺度目標尤其是小目標的檢測效果。根據不同場景下無人機目標檢測任務的需求,具有相應特性的CNN模型或模塊與FPN結合都取得了較好的檢測效果,但卻增加了時間成本。輕量化的網絡模型是一種解決方法,另一種思路則從訓練深度學習模型的角度出發,在已有數據集的情況下改進訓練質量,具有很高的實際工程適用性。
3.2.3無人機影像中的大視場問題
無人機的探測范圍較廣,且不受地理因素等限制因此得到的圖像視場往往很大。大視場下的目標檢測面臨著目標分布不均、目標稀疏等問題。
針對候選區域生成算法的缺點,一些研究將強化學習用于大視場圖片的目標搜索中。在解決無人機影像中的大視場問題時,首先要考慮的是減少目標搜索的成本,常見的方法為區域特征編碼方法的優化,如增加ROI輸出的數量或增加ROI生成模塊感受野;對子圖片進行檢測時,目標尺度的估計對檢測精度有著較大影響。減少搜索區域的方法本質上還是兩階段的目標檢測方法,需要遍歷整張圖片,效率較低。強化學習與CNN的結合實現了大視場影像中的自適應擔索,增加效率的同時保證了子圖片檢測的精度。
3.2.4無人機影像中的旋轉問題
無人機影像中的物體可能在任意位置和方向上出現,同一類物體的角度變化也不盡相同。無人機目標檢測任務因此變得困難,旋轉的物體使位置回歸變得困難,因而大量的目標被漏檢。常見的檢測方法按照候選區域和包圍盒的形式,可分為水平檢測和旋轉檢測。
在解決無人機影像中的旋轉問題時,較為直接而簡便的方法為保持水平的ROI不變,自定義包用盒的形狀來適應目標旋轉特性;使用旋轉的RROI生成的區域特征與目標旋轉特性較為匹配,可以有效避免大量的回歸錯位,但旋轉的錨定框的生成增加了計算量;通過默認的水平錨定框轉換得到RROI避免了計算量的增加,且仍有著較高的回歸精度。而無錨點的回歸擺脫了錨定框對包圍盒的限制,增強了模型的實時性和精度,不過回歸的穩定性需要進一步研究。
4總結與展望
目前,無人機目標檢測算法的受關注程度與日俱增,現有的算法也取得了不錯的檢測效果,但還有很大的改進空間。復雜背景給目標檢測任務帶來的干擾得到了有效抑制,但現有的算法仍存在虛警和漏檢問題,檢測效果不太理想;基于兩階段方法的目標檢測算法在分類和回歸的精度上有優勢,大部分小目標檢測方法都是基于此來進行改進,加之新模塊和網絡的引入,使得檢測速度仍然較慢;多數算法都是基于現有算法的改進,增加了檢測的局限性,需要有新的方法來提高定位精度。
針對上述問題和近幾年的研究趨勢,本文對無人機目標檢測未來研究的方向做出如下討論:
1)在增大感受野的同時,密集地生成不同尺度的特征。無人機影像的分辨率較高,ASPP 可以在保證特征分辨率的同時,增大感受野,但隨著擴張率的增長,空洞卷積會失效。
2)自適應地融合特征和生成ROI。無人機因應用場景的不同而獲取不同特性的影像,為了避免有用信息的丟失,在特征融合和生成ROI時可以給不同的特征層賦權,通過加權融合得到相應的上下文特征和高質量的ROI,進而提高目標檢測模型的泛化性。
3)深度學習方法與其他方法的結合。深度學習方法在目標檢測領域有著顯著的優勢,也取得了極大的成功,其他算法的加入將會彌補單一方法的局限性。
4)減少進行位置回歸時的限制。基于錨點的回歸中錨定框的設置需要與待檢測的目標形狀相符合,但在無人機影像中,目標的形狀和朝向多變,預設的錨定框限制了位置回歸。對于關鍵點重合而導致的檢測結果不穩定問題,可以對關鍵點進行二次預測和匹配來提高檢測的精確性。
參考文獻:
[1]石葉楠,鄭國磊,三種用于機加工特征識別的神經網絡方法綜述[J].航空學報,2019,40(9);182-198
[2] RAZAKARIVONY S, JURIE F. Vehicle detection in aerial imagery[J]. Journal of Visual Communication and Image Representation,2016, 34(C):187-203.
[3]Fahlstrom P,Gleason T.無人機系統導論[M].吳漢平,施自勝,丁亞非,等,譯.二版.北京:電子工業出版社,2003.
[4]朱華勇,牛軼峰,沈林成,等.無人機系統資助控制技術研究現狀與發展趨勢[J].國防科技大學學報,2010,32(3):115-120.
[5]江波,屈若錕,李彥冬,李誠龍,基于深度學習的無人機航拍目標檢測研究綜述[J].航空學報,2021,42(4)