王文慶,龐穎,劉洋,楊東方,張萌
(1.西安郵電大學 自動化學院,陜西 西安 710121;2.火箭軍工程大學 導彈工程學院,陜西 西安 710025)
空對地目標檢測的目的是實現空對地場景下對目標的識別和精確定位,也是在空基無人平臺遂行多種對地感知和認知任務的關鍵技術[1]。近年來,隨著空基平臺在遂行自主巡視、主動偵察監視打擊和自然災害預防等任務中發揮的作用越來越明顯,空基目標檢測技術得到了越來越多的關注。通過研究新的空對地目標檢測算法,提升空基平臺對地目標檢測的自主性、準確性和實時性,成為當前空基無人領域研究的熱點問題[2]。
近年來,目標檢測成為了計算機視覺和數字圖像處理的一個熱門方向,廣泛應用于機器人導航、智能視頻監控、工業檢測、航空航天等諸多領域,具有重要的現實意義。隨著深度卷積神經網絡[3]的提出和發展,基于深度學習的目標檢測[4]算法利用深度卷積網絡對圖像不同特征信息進行學習,根據該特征對圖像中的目標進行描述,然后采用目標分類和邊框回歸的方法對目標進行檢測。目前,基于深度學習的目標檢測大致可劃分為單級目標檢測算法[5-6]和兩級目標檢測算法[7-9],單級式是在網格上進行固定數量的預測;兩級式是先使用一個提議網絡尋找目標,然后再使用另一個網絡來微調這些提議并輸出最終預測結果。兩級目標檢測算法在特征提取網絡之后,采用RPN(region proposal network)策略篩選目標提案[10-11],再進行目標的分類和位置回歸。這類算法由于采用RPN策略對圖像中的目標提案進行預篩選,提高了目標提案的質量,所以具有較高的檢測精度,但此過程耗時較長,使得算法的實時性能較差。而單級目標檢測算法則省略RPN過程,在特征提取網絡的基礎上添加額外的卷積層,再通過位置、尺度和縱橫比的密集采樣對目標的類別和位置進行回歸,提高了檢測算法的實時性能,但檢測精度相比于兩級算法較差,特別是對小目標的檢測。實際中,由于空基平臺視距遠,復雜背景環境的的特點,導致空對地成像的場景范圍大,場景中目標的尺寸小,僅占圖像的小部分區域,且目標自身包含的特征信息較少,難以消除復雜背景特征的干擾,這些難點給現有目標檢測算法提出了挑戰。
通常,人眼在觀測目標時,并不是將全部視覺信息都盡收眼底,而是關注感興趣區域信息進行識別。因此,本文仿照人眼視覺[12]和大腦感知圖像的過程,在深度學習SSD(single shot multibox detector)算法[13]的基礎上,將雙重注意機制應用于空對地目標檢測中,不僅關注通道中的目標有效特征信息,同時也關注空間位置中的目標重點區域,雙重優勢更高效地對重要特征之處賦予新的權重,將之稱為基于雙重注意機制的空對地目標智能檢測算法,簡稱為DAM(dual attention mechanism)-SSD。
近幾年,注意力機制在圖像、自然語言處理等領域中都取得了重要的突破,本身也是符合人腦和人眼的感知機制,被證明有益于提高模型的性能。本文選擇經典的SSD算法作為基本框架,引入雙重注意機制,提出了一種新的空對地目標檢測算法。本部分將從空間注意機制、通道注意機制和雙重注意機制的原理,DAM-SSD算法的網絡化描述和網絡損失函數優化多個方面對算法進行詳細介紹。
當前許多目標檢測算法通過融合多尺度的特征信息,感知目標上下文信息,提高目標的檢測精度。然而,空對地視角下的目標尺寸比常規視角下的目標尺寸都要小,所以包含的特征信息少;而且,由于目標尺寸小,僅占場景的部分區域,大部分的復雜背景特征的干擾則會導致誤檢測和漏檢測等問題,給目標檢測增添了困難。
如圖1所示,圖像中并不是所有的區域對任務的貢獻都是同樣重要的,只有任務相關的目標區域才是需要關注的。傳統的目標檢測算法通過融合不同尺度特征的方法[14],雖然能夠豐富目標的特征信息,但難免會引入更多的背景干擾信息,阻礙檢測精度的提升。所以,空間注意機制就是尋找重點目標區域特征信息進行處理,抑制背景信息的干擾。由于在大部分情況下目標檢測感興趣的區域只是圖像中的一小部分,因此空間注意力的本質就是定位目標區域并進行一些變換或者獲取權重,從而減少背景信息干擾,提高檢測能力。

圖1 空間注意機制提取目標區域示意圖
空對地視角下,對于目標和場景的理解,與地面常規視角有著很大的不同。以汽車特征這一典型類型為例,在常規視角下,如圖2左半部分所示,觀察的汽車涵蓋了多角度的觀測結果,汽車的特征非常地完整豐富。然而在空對地視角下,如圖2右半部分所示,觀察的汽車都幾乎是一模一樣的空對地視覺下方形有效特征形狀,這時觀察到的目標特征才是目標檢測所需的目標“有效”特征信息。

圖2 常規視角成像(左)和空對地視角成像(右) 對比示意圖
因為空對地場景下視覺單一,視距遠的特點,此時空對地視覺下的目標形狀特征才是空對地目標檢測的重要有效特征信息。同理,如圖3所示,特征層中每層通道包含著不同復雜特征信息,并不是所有通道都對目標檢測有幫助,所以,通道注意機制通過目標檢測網絡學習到不同通道對空對地目標檢測的重要程度,重點關注重要通道。

圖3 通道注意學習重要通道示意圖
利用通道注意學習機制提升目標檢測網絡性能,就是通過學習的方式來自動獲取到每個特征通道對空對地目標檢測的重要程度,然后依照這個重要程度提取有用的特征,通道的權重越高,代表著該通道包含目標有效特征越重要。通道注意機制利用深度神經網絡,對特征信息復雜的空對地圖像特征通道進行學習,從而提高空對地目標檢測精度。
雙重注意機制結合了空間與通道注意機制雙重優勢,相比于單重注意機制(single attention mechanism,SAM)只關注空間的注意力機制效果更好。雙重注意機制不再平均考慮特征圖中全局的特征信息,而是重點關注場景中目標區域和目標有效特征信息[15]。
如圖4所示,首先,左側部分為通道注意結構,通過全局平均池化操作Fsq把卷積層Input的的每個二維的特征圖壓縮成一個實數ai,這個實數ai具有全局感受視野,然后利用可學習的參數W為每一個實數ai生成權重,通過可學習的方式建立與特征圖之間的相關性,最后用學習后包含全局不同重要程度通道特征B與原始特征圖Input進行元素相乘,使輸出重點通道特征信息[16]。右側部分為空間注意結構,Conv(.)表示卷積操作,得到的D表示特征空間中整合多個更新權重通道信息后得到的概括特征圖,將特征空間中位置xy(x∈W,y∈H)處特征向量的注意權重axy進行Softmax分類操作獲得位置概率權重pxy,通過可學習的方式建立與特征圖之間的相關性,最后用學習后包含全局空間不同重要程度位置區域特征D與特征圖進行元素相乘,使輸出重點區域特征的信息。
雙重注意機制結構通過篩選特征層中通道和空間上不同重要程度的有效特征信息和目標區域,利用深度網絡學習的方式提升有效特征的權重并抑制復雜背景特征權重,從而提升空對地下目標檢測精度。
本文選用以VGG16為特征提取網絡的SSD算法[17]作為目標檢測算法的基本框架。SSD算法基本框架由VGG16網絡的前conv4_3層、VGG16網絡全連接層轉為的卷積層conv7以及額外4個遞減的卷積層conv8_2,conv9_2,conv10_2,conv11_2組成。在此基礎上,SSD算法在不同尺寸的特征圖中通過不同大小,縱橫比的目標候選框對不同尺寸目標的類別和位置進行回歸。
本文提出的DAM-SSD算法,在SSD的基礎上,引入雙重注意機制,在增強特征圖中目標特征表達能力的同時,減小了復雜背景信息的干擾,提高了空對地目標檢測算法的性能,具體網絡結構如圖5所示,左側為輸入圖像,此處以300×300大小的圖像為例,首先經過VGG16網絡中的Conv4_3層將作為用于檢測的第1個特征圖,從后面新增的卷積層中提取Conv7,Conv8_2,Conv9_2,Conv10_2,Conv11_2作為檢測所用的特征圖,共提取了6個特征圖,其大小分別是(38×38),(19×19),(10×10),(5×5),(3×3),(1×1)。其次,為了有效利用特征圖中重點目標區域和有效特征信息,本文設計了雙重注意信息機制融合模塊MAD,如圖5右側虛線框內所示。利用DAM模塊學習得到特征中重點通道和目標區域信息,將SSD前5個不同尺度特征圖通過其轉換融合,最終學習得到“重點關注”后的特征圖,進行目標檢測。
本文在傳統的SSD算法基礎上引入了雙重注意機制,通過學習通道和空間中的特征權重,描述圖像中的目標區域信息。為此,在SSD算法損失函數[18]的基礎上,引入了雙重注意機制損失。因此,本文算法的損失函數可以描述為如下形式:
Lloss=Ldec+LDAM,
(1)

圖4 雙重注意機制結構
式中:Lloss表示本文算法的損失函數;Ldec表示目標檢測器部分的損失函數;LDAM表示本文引入的雙重注意機制損失函數。

Lconf(pDAM,[LDAM-label=1])],
(2)
式中:NDAM表示特征中匹配的注意力集中位置的數量;Lc_loc(·)表示smoothL1損失;Lconf(·)表示Softmax交叉熵損失。
在目標檢測器損失函數部分,本文采用SSD算法的損失函數,其形式描述如下:
(3)
式中:t表示目標檢測器預測的檢測框位置參數;Ndec表示檢測器匹配到的目標檢測框的數量;t*表示圖像中標注的目標框位置參數;pdec表示目標檢測器預測的類別置信度;lob-label≥1表示圖像中標注的目標類別(lob-label=0表示圖像中背景區域的類別);Lloc(·)表示smoothL1損失;Lconf(·)表示Softmax交叉熵損失。
近幾年,深度學習下的目標檢測常用的數據集包括PASCAL VOC[19],ImageNet,MS COCO等數據集,這些數據集大多以常規視角拍攝為主,用于研究者測試算法性能或者用于競賽。其雖然能夠為深度卷積神經網絡的特征提取提供豐富的訓練資源,但這些數據集對應的特征提取網絡也是建立在常規生活視角上,這與空基平臺的觀測視角有著很大的不同,對應得到的圖像也存在很大的差異,無法滿足空對地背景下目標檢測任務的需求。不僅如此,現有的空對地場景下的數據集數量相對較少,并且樣本的質量和規模差異較大,所以導致在研究空對地目標檢測算法中難度較大。為此,本文通過谷歌地球(Google Earth)、無人機拍攝和互聯網等途徑搜集了空對地場景中的飛機、汽車、卡車和船舶,制作了空對地目標檢測任務數據集。根據本文算法的特點和空對地場景下目標檢測的需求,在數據集標注之前,將數據集中的圖像大小統一處理為300×300,之后再進行標注工作,從而得到本文數據集。

圖5 雙重注意機制智能檢測算法網絡結構圖
最后,選用搜集制作的3 000張圖像及其標注作為本文基于雙重注意機制的空對地目標智能檢測算法的數據集,該數據集檢測的目標包括飛機、汽車、卡車和船舶4種類別,將數據集按照7∶3的比例劃分為訓練集和測試集參與訓練過程。
本部分主要對DAM-SSD算法、SSD算法和單重注意機制目標檢測算法(single attention mechanism-SSD,SAM-SSD)進行了分析對比;采用單類目標檢測精度(average precision,AP)和算法檢測精度(mean average precision,mAP)2種性能指標,用于評估模型的物體分類和定位性能。其中,單類目標檢測精度(AP)主要用于評價算法模型檢測每一個目標類型的性能好壞,具體計算過程如下:

(4)
式中:P表示檢測的精確率(Precesion),計算的是所有“正確被檢測”占所有“實際被檢測到的目標”的比例;R表示檢測的召回率(Recall),計算的是所有“正確被檢測”占所有“實際應該檢測到的目標”的比例。一般計算AP值,通常以R為橫軸,P為縱軸,就可以畫出一條P-R曲線,P-R曲線下的面積就定義為AP,如公式(4)。
算法檢測精度(mAP)主要用于評價算法模型檢測所有或多個類型總體平均的性能好壞,具體計算過程如下:
(5)
式中:N表示檢測的類別數量;APi表示類別i的檢測精度。
為了驗證DAM-SSD算法的性能,本部分將DAM-SSD算法與其他算法在結構有效性、測試效果和驗證訓練曲線3方面上進行對比實驗。
首先,從結構有效性對算法進行分析,在相同數據集規模和參數條件下,對本文算法模型和其他算法模型進行訓練和對比實驗,評價指標采用AP和mAP,結果如表1所示。

表1 不同算法在同一數據集下不同 類別目標檢測精度對比
由表1可以得出結論,相比于SSD算法,DAM-SSD算法目標檢測精度提高了4.35%,通過引入雙重注意機制,提取特征層中最值得關注的特征信息,提高目標檢測的準確性。
相比于SAM-SSD算法只關注空間位置的的重點特征,DAM-SSD算法通過關注特征層的通道與空間位置上的有效目標信息和區域,目標檢測精度提高了1.23%,同時不同類別的檢測精度均得到了提升。DAM-SSD算法利用本文雙重注意機制模塊的雙重優勢,提高了空對地目標檢測精度。
DAM-SSD算法與其他算法訓練曲線對比實驗如圖6所示,從藍色虛線框可以得到,在0~100 epoch內,當3種算法達到同一mAP值時,DAM-SSD算法所需訓練代數最少,說明其訓練速度最快;從黑色虛線框內可以得到,3種算法中DAM-SSD最終訓練驗證結果精度值最高。

圖6 雙重注意機制智能檢測算法與其他 算法訓練曲線對比實驗
綜上,DAM-SSD算法與SSD算法和SAM-SSD算法相比,具有相對更快的訓練速度,更高驗證精度。
本文算法與SSD算法結果可視化對比實驗如圖7所示,可以看出,本文算法比SSD算法檢測效果更準確,對空對地場景下較密集目標也有較好的檢測效果,可以證明,本文算法提升了空對地目標檢測效果。

圖7 雙重注意機制智能檢測算法和SSD 算法結果可視化對比
本文提出的DAM-SSD算法,改變了傳統算法上對全局特征直接檢測的方式,通過在SSD算法基礎上,引入本文的雙重注意機制,針對空對地視覺單一和目標有效特征少的問題,利用DAM模塊對通道和空間位置上重點關注的特征信息和區域進行提取,篩選有效信息,繼而與原特征圖進行融合轉換處理,有效避免復雜背景信息的干擾。從不同算法對比實驗結果發現,本文提出的DAM-SSD算法,相比于比SSD算法和SAM-SSD算法在空對地目標檢測性能上分別提高了4.35%和1.23%;同時,DAM-SSD算法與其他2種算法相比,網絡訓練結果達到更高精度且速度最快。以上結果表明,本文算法提升了空對地場景下目標檢測精度。