基于RHTC網絡的飛機目標檢測與精細識別

2021-11-29 03:47:30鄒煥新李潤林賀詩甜

系統工程與電子技術 2021年12期

曹旭, 鄒煥新, 成飛, 李潤林, 賀詩甜

(國防科技大學電子科學學院, 湖南長沙 410073)

0 引言

在戰場態勢瞬息萬變的情況下,快速精確識別目標是現代戰爭制勝的關鍵,因此開展光學遙感圖像上的飛機目標檢測與識別,對國防事業具有極其重要的意義。該技術在偵查監視對方機場軍力部署、有效打擊重點空戰目標、提高防空預警能力等方面有著廣泛的應用前景外[1]。此外,在民用領域中，如民航機場流量管控、航班識別等也具有重要作用。但是,因為機場背景復雜,利用光學衛星遙感圖像對地面上的飛機目標進行自動檢測與識別一直以來都是非常具有挑戰性的任務[2]。在光學遙感圖像中,飛機目標檢測識別具有以下兩個主要難點。

(1) 方向檢測困難:飛機目標尺度小、細節不清晰,在圖像中通常比較密集且方向多變,容易造成誤檢和漏檢;相比較于遙感圖像艦船方向檢測,飛機目標機長、翼展尺寸比較接近,難以有效利用飛機的長寬比信息準確估計其主軸方向。

(2) 精細識別困難:不同型號飛機目標之間尺寸接近、形狀類似,類間特征差別較小,難以精細識別;同型號飛機之間受可變掠翼張角不同、自身陰影等影響,容易產生錯誤分類。

傳統飛機目標檢測方法通常基于手工提取的特征而設計。Zhang等人[3]提出了一種通過提取閉合輪廓來識別飛機的方法。Liu等人[4]提出了一種通過拐角特征識別飛機的方法。Qiu等人[5]在拐角特征基礎上,進一步提出使用邊緣信息來檢測飛機。Zhang等人[6]提出將哈里斯-拉普拉斯拐角檢測器與仿射不變矩結合起來構建特征以檢測飛機目標。此外,還有很多傳統檢測方法[7-10]。然而,由于需要大量參數優化,使得這些傳統飛機檢測方法泛化性能較差，在利用這些傳統方法處理新的數據集時,需要人工經驗對參數進行大量調整。

得益于深度學習和區域卷積神經網絡(region convolutional neural network，RCNN)的發展，許多方法將目標檢測視為根據深度特征提取的感興趣區域(region of interest，ROI)的分類問題，并在多個領域都表現出優異的檢測性能[11-16]。上述方法都是為檢測自然場景或艦船目標而設計的，針對遙感圖像中飛機多方向密集排布問題，通常無法獲得較好的檢測結果。此外，在利用深度學習進行光學遙感圖像中飛機目標檢測方面，近年來也涌現出較多方案。Yu等人[17]提出了一種基于全卷積神經網絡的飛機檢測方法，通過最小化多任務損失直接定位飛機。Wang等人[18]進一步提出了一種基于RCNN的飛機檢測方法，通過K-means對不同尺寸的目標進行聚類分析，以聚類中心作為候選錨框尺寸，提高了錨框生成質量。其后，Li等人[19]提出了一種基于增強學習和卷積神經網絡的飛機檢測框架，通過增強學習實現對候選區域的動態約簡，并限制邊緣框范圍以提高候選框質量。除此之外，還有很多其他優秀的遙感飛機目標檢測方法[20-24]。雖然上述方法在遙感圖像中飛機目標定位方面取得了很大進展，但當飛機目標方向檢測與精細識別任務同時進行時，飛機檢測與識別結果并不理想。

2019年,Chen等人[25]提出了混合任務級聯(hybrid task cascade, HTC)網絡,用于自然圖像中的實例分割。HTC網絡包含3個結構分支:目標檢測分支、掩膜分支與分割分支,可以精準定位、分類和分割目標。受HTC網絡能夠同時完成多種任務的思路啟發,本文提出了一種基于旋轉HTC(rotated HTC, RHTC)網絡的多方向飛機目標檢測與精細識別方法。主要思路為:首先,在數據預處理階段,構建每類型號飛機目標的精細掩膜,以形成目標的輪廓編碼作為網絡輸入;其次,RHTC將分割分支與包圍框分支多層級聯,以不斷加強語義特征,并將語義特征與其他特征進行融合,從而提高包圍框和掩膜預測精度;最后,在掩膜預測的最后一層,設計并增加一個方向損失函數,同時引入一個新的斜框回歸器以便從掩膜預測結果中準確預測目標的機頭正方向。本文方法可以準確快速地實現光學遙感圖像中飛機目標的定位、分類和掩膜預測,并回歸出飛機目標的斜框和機頭正方向。利用DOTA數據集中的飛機目標和自建的 Google 圖像典型軍用飛機目標數據集開展了多組飛機目標方向檢測和精細識別實驗,并將本文方法與其他多種先進算法,包括帶有方向性邊框F-RCNN(faster RCNN oBB, FRO)[26]、ROI transformer[16]、旋轉區域建議網絡(rotated region proposal network,RRPN)[27]、旋轉RCNN(rotational RCNN, R2CNN)[28]、旋轉密集特征金字塔網絡(rotational dense feature pyramid networks,RDFPN)[29]進行了算法性能比較和評估分析。實驗結果表明,本文方法在飛機目標檢測的方向精準度和精細識別的類別平均精準度上性能更優。此外,為了評估本文方法中提出的斜框回歸器在作為一個單獨的模塊嵌入到其他分割網絡時的性能,將本文設計的斜框回歸器和方向損失函數應用于掩膜RCNN(mask RCNN, M-RCNN)[30]和級聯M-RCNN(cascade M-RCNN， CM-RCNN)[31],并基于自建的Google圖像典型軍用飛機目標數據集進行了訓練和測試。實驗結果驗證了本文方法設計的斜框回歸器和方向損失函數在嵌入到其他分割網絡時也具有良好的性能。

1 算法介紹

本文提出的算法框架主要包含3個部分:① 分割級聯結構:RHTC網絡通過分割分支與包圍框分支多層級聯,增強語義特征,以實現更精確的目標水平框定位、精細分類和掩膜預測;② 在預處理階段,構建每類型號飛機目標精細掩膜和圖像的語義分割圖,以構建完整的網絡訓練輸入; ③ 在網絡掩膜預測最后一層(M3)后,設計并增加一個新的方向損失函數,同時引入一個新的斜框回歸器,以優化訓練過程和實現飛機目標的方向檢測。本文方法流程圖如圖1所示。

圖1 本文算法流程圖Fig.1 Flowchart of the proposed method

1.1 HTC網絡

為了更好地理解本文RHTC網絡結構,下面首先對CM-RCNN的網絡結構、無分割分支的HTC網絡結構以及帶分割分支的HTC網絡結構進行簡單的介紹。

1.1.1 CM-RCNN網絡

Cascade RCNN[32]開創了級聯檢測網絡的經典結構,M-RCNN則是優秀的通用實例分割架構,Cai等人[31]嘗試將Cascade RCNN和M-RCNN兩個網絡結構簡單組合為CM-RCNN應用于實例分割任務,通過不斷優化預測框的回歸以獲得更好的檢測結果,但其掩膜分支與預測框分支在每個階段均獨立運算,二者之間沒有信息流通,導致網絡分割能力整體較弱,這是因為掩膜預測精度僅通過預測框精度的不斷提升而獲得少量提升。圖2展示了CM-RCNN的網絡結構,其中,代表掩膜預測部分,B代表包圍框(bounding box,bbox)預測部分,M和B后面的數字表示級聯網絡階段數。

圖2 CM-RCNN結構Fig.2 Architecture of CM-RCNN

1.1.2 無分割分支的HTC網絡

HTC網絡是在Cascade RCNN和M-RCNN的基礎上進行融合改進的結果。為了加強掩膜與預測框之間、掩膜與掩膜之間的信息流通,HTC網絡取消了第一階段上的掩膜分支,使其與第一階段的預測框相關聯,以提高第一階段的掩膜預測精度,同時套用級聯優化思想,在掩膜分支之間添加信息流(見圖3中的紅色箭頭),實現掩膜級聯,掩膜特征從前一階段流通到后一階段,大大提高了掩膜的預測精度。無分割分支的HTC網絡結構如圖3所示。

圖3 無分割分支的混合任務級聯網絡結構Fig.3 Architecture of hybrid task cascade (HTC) without segmentation branch

1.1.3 帶分割分支的HTC網絡

為增強網絡區分前景和背景的能力,HTC網絡額外使用了上下文信息,將語義特征與掩膜分支、包圍框分支特征進行融合。其中,語義特征通過分割分支來提取。分割分支以特征金字塔網絡(feature pyramid network, FPN)[33]輸出的組合特征作為輸入,通過全卷積結構得到分割預測和語義特征。分割分支結構如圖4所示,添加了分割分支的HTC網絡結構如圖5所示。

圖4 分割分支結構Fig.4 Architecture of segmentation branch

圖5 帶分割分支的混合任務級聯網絡Fig.5 Architecture of HTC with segmentation branch

HTC網絡的語義特征僅由分割分支提取一次,且區域建議網絡(region proposal network, RPN)及bbox預測分支未與分割分支形成有效連接,致使語義特征無法充分利用,且分割預測精度較低。

針對上述問題,本文在帶有分割分支的HTC網絡基礎上,充分級聯分割分支、RPN和bbox分支(見圖1),實現預測框信息與語義信息有效融合,級聯過程中不同分支相互促進,提高最終預測效果。此外,為實現斜框預測功能,本文在掩膜分支最后一層之后引入一個新的斜框回歸器,以回歸目標斜框和機頭正方向。同時,設計并增加一個方向損失函數,提高方向預測精度,優化整個訓練過程。此外,在數據預處理過程中,構建每類型號飛機目標的精細掩膜,以增強目標掩膜特征細節,輔助提升精細識別精度。在本文中,改進后的HTC網絡稱為RHTC網絡。

1.2 飛機目標精細掩膜和語義分割圖生成

在引言中介紹的其他基于深度學習的飛機目標檢測方法中,除了Zuo等人[23]提出的基于深度卷積神經網絡分割結果的飛機型號識別方法利用掩膜信息提高了識別精度之外,其他方法均沒有考慮目標掩膜信息和上下文信息的利用。實際上,精細的目標掩膜含有豐富的目標細節信息,這些特征信息有助于RHTC網絡中的斜框回歸器更準確地預測目標斜框及其方向,并輔助提升精細識別精度。同時,含有上下文信息的語義分割圖可以幫助網絡更好地區分前景和背景。

RHTC網絡包含3個輸入,具體為:飛機目標斜框標注、飛機目標掩膜信息和訓練圖像的語義分割圖。本文基于公開的Google 圖像構建了一個飛機目標數據集,包含了27類型號飛機目標的斜框標注。此外,為了獲得飛機目標的掩膜信息和語義分割圖,本文利用圖像形態學相關算法處理得到每類型號飛機目標的精細掩膜和每幅訓練圖像的語義分割圖。

1.2.1 飛機目標精細掩膜生成

圖像形態學主要用于從圖像中提取對描述區域形狀有意義的圖像分量,使后續識別工作能夠抓住目標對象最具有區分能力的形狀特征,如邊界、連通區域等,同時像細化、像素化、修剪毛刺等也常應用于預處理和后處理中,成為深度學習中圖像增強新的選擇[34]。本文方法對真實收集的Google圖像中的每類型號飛機目標,采用灰度化、閾值分割、連通域處理、中值濾波、剪裁、輪廓提取等操作,獲得目標輪廓和形狀特征,在此基礎上構建每一類型號飛機目標的精細掩膜。飛機目標精細掩膜生成步驟如下。

步驟 1灰度化。將目標切片圖像轉換為灰度圖像。

步驟 2閾值分割。利用OTSU方法[35]計算分割閾值,或根據灰度直方圖統計,設計雙閾值分割。

步驟 3區域處理。查詢圖像中4連通區域,并對每個區域進行標記,計算每個區域面積,設置合適的閾值濾除小尺寸非目標區域和孔洞。

步驟 4中值濾波。使用3×3濾波窗口對圖像進行中值濾波,以去除目標邊緣毛刺。

步驟 5剪裁和輪廓提取。以目標邊緣為界剪裁圖像,得到目標精細掩膜,并提取輪廓分割點集。

目標精細掩膜的構建過程如圖6所示。

圖6 精細掩膜構建過程Fig.6 Construction process of fine mask

本文使用上述方法共構建27類型號飛機目標的精細掩膜,包含了戰斗機、轟炸機、加油機、偵察機、運輸機等多個大類中的具體型號(包含“其他”型號),每類目標型號的精細掩膜如圖7所示。為展示效果,圖7中部分型號飛機目標的尺寸和長寬比略有調整,而在RHTC網絡訓練中均采用各類型號飛機目標精細掩膜的真實尺寸和形狀。

圖7 不同型號飛機目標的精細掩膜Fig.7 Fine masks for different types of aircraft target

1.2.2 飛機目標語義分割圖生成

在已經斜框標注的訓練圖像數據中,根據每個飛機目標標注好的型號和尺寸信息,將生成的精細掩膜自動進行旋轉和縮放以貼合相應的飛機目標,從而生成該幅圖像的語義分割圖。圖8(a)展示了某幅機場圖像及其斜框標注,包含了B-1B、KC-135、C-130這3種型號的飛機目標;圖8(b)展示了目標精細掩膜與目標的貼合結果;圖8(c)展示了該圖像的語義分割結果。

圖8 語義分割圖生成過程Fig.8 Semantic segmentation map generation process

1.3 RHTC

RHTC網絡,充分級聯分割分支、RPN和bbox分支,以實現預測框信息與語義信息的有效融合。級聯過程中不同分支相互促進,從而綜合提升bbox、掩膜和分割的預測效果。RHTC為實現斜框預測功能,在掩膜分支最后一層之后引入一個新的斜框回歸器,以回歸目標斜框和機頭正方向,并設計和增加一個新的方向損失函數,提高方向預測精度,優化整個訓練過程。

1.3.1 分割級聯結構

與HTC僅利用分割分支S提取一次語義特征不同,RHTC將分割分支擴展至4個,S0、S1、S2、S3,逐級精煉語義特征,并輸出更準確的分割預測,具體步驟如下。

首先,訓練輸入經由骨干網絡和FPN提取原始特征,并輸入RPN進行建議區域的生成。此時建議區域經過分配標簽和采樣后,已經具備粗糙的目標空間位置信息,將建議區域的所有正例(即目標可能存在區域)按置信分數排序,并挑選前50%保留,如圖9(a)所示。

然后,制作單個建議區域掩模(single proposal mask, SPM)。按訓練圖像8倍下采樣的尺寸生成全0矩陣,以單個建議區域的坐標中心為二維高斯函數的中心,建議區域的邊界作為取值邊界,在全0矩陣中,從中心開始以標準二維高斯分布向取值邊界賦值,生成SPM。

最后,將該訓練圖像的全部SPM按像素位置加和,除以像素最大值進行歸一化,乘以權重因子θ并加1,生成最終的建議區域掩膜(proposal mask,PM),該過程可表示為

(1)

PM結果如圖9(b)所示,亮度可反映出RPN認為該區域的重要程度,亮度越高說明該區域是目標的幾率越大。θ可以控制語義特征權重,本文設置為0.5。

圖9 利用RPN提取的建議區域生成建議區域掩膜Fig.9 Use proposal extracted by RPN generate PM

PM制作完成后,與骨干網絡和FPN提取的原始特征相乘,得到包含目標空間信息增強后的原始特征,輸入S0進行分割預測,并提取第一次語義特征。此時,S0輸出的語義特征,與RPN提取的建議區域,和原始特征共同進行ROI池化,并輸入B1生成第一次候選框預測。

同理,B1生成的PM會與S0輸出的語義特征進行融合,作為S1的輸入。S1輸出的語義特征將與B1輸出的預測框和原始特征一同ROI池化,作為B2和M1的輸入。級聯過程中語義特征不斷加強,并指導其他分支更精確地預測,經過三次級聯后,S3將輸出最終的分割預測,M3將輸出最終的掩膜預測,B3將輸出最終的水平框定位和分類。圖10和圖11展示了不同階段分割分支輸出的語義特征和分割預測對比,可以看出經過逐級加強的語義特征具有更強的目標位置信息,而圖11(a)難以區分前景背景,到圖11(e)分割預測比較精準。

圖10 不同階段分割分支輸出的對比Fig.10 Comparison of semantic features of segmentation branch output at different stages

圖11 不同階段分割分支輸出的分割預測對比Fig.11 Comparison of segmentation prediction of segmentation branch output at different stages

1.3.2 斜框回歸器設計

斜框回歸器利用最小矩形框擬合方法,提取網絡最后一級掩膜預測M3結果中的目標,該矩形框即為目標斜框預測,且目標斜框中包含了飛機目標的掩膜,但此時斜框中飛機目標的正方向是未知的。眾所周知,在光學遙感圖像中的飛機目標具有明顯的關于主軸的左右對稱特性,估計目標的斜框方向可以通過尋找飛機目標主軸的方式來實現。本文中設計了一種簡單有效的飛機目標主軸提取方法,具體步驟如下。

首先,從圖像的分割結果(見圖12(a))中按照斜框方式(見圖12(a)中紅色矩形框)提取出每一個飛機目標掩膜切片,如圖12(b)所示。

其次,假定飛機目標包括水平和垂直兩個主軸方向,呈十字交叉排布,如圖12(c)所示;兩條主軸將切片平均劃分為4份,水平主軸1(紅色)將飛機目標劃分為部分1和部分2,垂直主軸2(藍色)將飛機目標劃分為部分3和部分4,如圖12(d)所示。

圖12 不同方向的主軸對飛機目標掩膜的劃分示意圖Fig.12 Extract the main axis direction from the segmentation result

最后,令通過不同方向的主軸對飛機目標掩膜進行劃分得到的部分1、部分2、部分3和部分4的面積分別為S1、S2、S3和S4,根據飛機目標物理結構的左右對稱特性,定義S12=|S1-S2|,S34=|S3-S4|,若S12>S34,則可認為部分3和部分4為目標機翼兩側部分,確定垂直主軸2(藍色)為目標的真實主軸;相反的,若S12

為了說明本文設計的飛機目標主軸提取方法的有效性,對本文考慮的所有27類型號飛機目標精細掩膜均利用假定的水平和垂直主軸進行了劃分。表1列出了所有27類型號飛機目標精細掩膜的劃分結果。由表1可知,所有飛機目標的S34皆遠小于S12,驗證了本文方法可以提取出正確的主軸。

表1 27類飛機目標精細掩膜劃分結果

通過上述方法得到目標主軸后,進一步采用以下3個步驟判斷飛機機頭正方向:首先,按照如圖13(a)中所示的藍色箭頭方向,統計主軸(即藍色箭頭所在的線段)兩側目標輪廓線上對應的最外側兩個像素點(見圖13(a)中的pL和pR像素點)與主軸之間的平均距離d=(dL+dR)/2(根據對稱特性),繪制出目標凸輪廓剖面曲線,如圖13(b)所示;其次,根據飛機的飛行動力學設計特點,機頭通常呈現錐形,機尾則帶有尾翼結構。因此,在判斷機頭正方向時,只利用飛機目標凸輪廓剖面曲線的前20%(大致對應于機頭)和后20%(大致對應于機尾),以消除機翼形狀、發動機、機載雷達等對機頭正方向估計的影響;最后,定義NF20表示飛機目標凸輪廓剖面曲線前20%對應的值的和,NL20表示飛機目標凸輪廓剖面曲線后20%對應的值的和。若NF20NL20,則判斷后20%部分對應機頭。對27類型號飛機目標進行測試的結果表明,利用此方法可以準確判斷出飛機機頭正方向。

1.3.3 方向損失函數設計

損失函數的定義和設計通常與學習準則、優化問題等相關,即通過最小化損失函數來求解和評估模型。本文方法通過斜框回歸器得到目標方向預測,通過設計并增加一個新的方向損失函數,用于評估預測方向與真值方向的差值,以進一步優化網絡參數,提升方向預測性能。因此,在本文中,RHTC網絡的損失函數如下:

(2)

(3)

掩膜損失構成如下：

(4)

掩膜損失采用二值交叉熵損失(binary cross entropy loss,BCELoss)的方式,BCE是交叉熵損失(cross entropy loss,CELoss)的一個特例,在數學中廣泛應用于二分類問題。

分割損失構成如下：

(5)

分割損失采用CELoss的方式,其本質上也是實例分割中的多分類問題。

方向損失函數構成如下：

(6)

方向損失本質上是一個預測數值與一個真實數值之間差異性的度量。因此,在本文中,方向損失采用平滑L1(SmoothL1)損失函數的方式。平滑L1是L1損失的改進,相比于L1損失和L2損失,平滑L1損失更加穩定,更有利于網絡訓練。

(7)

(8)

(9)

平滑L1損失的計算如式(8)所示。當方向偏離較大時,即x>1,如式(9)所示,損失函數對x梯度恒為正負1,而不會像L2損失導數隨損失增大而增大,從而導致在前期訓練時因為損失過大出現梯度爆炸問題。在訓練后期,損失趨于平穩且較小,損失函數對x的梯度隨x減小而減小,使用梯度下降法更新參數時更加平滑,而不會出現模型在穩定值附近波動的情況。

2 實驗結果及分析

在實驗部分,基于高分辨率Google圖像數據集評估、對比和分析本文所提方法的性能。實驗采用的計算機配置如下:Intel Core i7 CPU, NVIDIA GTX-2080Ti GPU(12 GB顯存),32 GB內存,操作系統Ubuntu18.04。

2.1 實驗數據集

為了驗證本文方法的有效性,從Google地球采集構建了一個光學圖像飛機目標數據集。數據集共包含287張大幅光學圖像,圖像分辨率大致分布在851像素×1 048像素～6 533像素×10 987像素之間,使用地圖分級為18級的遙感圖像,空間分辨率統一歸一化為0.5 m。數據集是從不同國家(美國、俄羅斯、日本等)的軍用機場采集所得,并將飛機類別細化到27個具體型號(包含一個“其他”型號)。在實驗過程中,從原始圖像數據集中隨機抽取250幅圖像作為訓練集,剩余37幅圖像作為測試集。為了適應訓練模型的輸入,實驗時將大幅圖像裁剪為1 000像素×600像素的圖像。同時,為了盡可能避免不同類別中目標樣本數量不均衡的問題,對圖像訓練集按照不同類別采用鏡像對稱、旋轉、加噪、顏色抖動等方法進行了合理的擴增。原始圖像數據集中共包含8 494個飛機目標,擴增后為39 030個。表2中列出了原始數據集和擴增數據集中每種型號飛機目標的數量。

表2 27類飛機目標在原始數據集和擴增數據集中的數量

本文同樣在公共遙感數據集DOTA[26]中的飛機目標數據進行性能對比實驗。實驗前對數據集進行了整理,為了便于在同一條件下將多種方法進行公平比較,根據DOTA數據集自帶的地面采樣距離信息,將全部圖像的空間分辨率均重采樣為0.5 m。經過篩選,共計有152幅飛機樣本圖像,其中用于訓練的圖像為83幅(包含2 646個飛機目標),用于測試的圖像為69幅(包含2 481個飛機目標);然后,將圖像裁剪為1 000像素×600像素大小,并對訓練集進行合理擴增。需要說明的是,由于DOTA數據集中的飛機目標并沒有提供細粒度分類標注,因此本文未對其進行精細掩膜設計,僅采用“其他”型號掩膜用于方向預測。

2.2 方向檢測性能評估

本節為了測試本文方法提出的斜框回歸器方向檢測性能,包括目標檢測的平均精準度和方向準確率。對于自建數據集,首先采用真實的27個具體型號飛機目標斜框標注數據集對RHTC網絡進行訓練;在測試時,所有27個飛機目標型號均歸為同一類,以忽略不同型號的影響,只對比方向檢測結果;對于DOTA數據集的飛機目標,采用“其他”型號掩膜用于方向預測。為了公平地比較不同斜框檢測方法對方向檢測的優劣,在對比實驗中的以下3個部分使用了相同的設置。

(1) 骨干網絡均使用經過ImageNet預訓練之后ResNet50模型進行遷移訓練。

(2) 每次輸入的訓練圖像的批數量均設置為2。

(3) 模型測試使用的交并比(intersection over union,IOU)閾值均設置為0.5。IOU定義如下:

(10)

式中：A和B表示不同區域；area(·)表示區域之間交或并后的面積。

實驗中,采用平均精準度(average precision,AP),即準確率在召回率上的積分作為評價指標。定義如下:

(11)

式中:r表示召回率,即所有真值標注中被正確檢測的比例;p(·)表示準確率,即檢測結果中正確的結果所占比例。

由于目前目標斜框檢測中缺乏方向相關的評價標準,本文設計了一種新的評價方式:方向精準度(direction precision,DP)。DP主要用于評價方向檢測中方向的偏差大小,即在所有正確檢測(IOU滿足閾值要求)的目標中,滿足方向精度要求的目標所占的比例。定義如下:

(12)

(13)

式中:i代表被正確檢測的某個目標;θgt,i代表其真值框方向;θdet,i代表其檢測框方向。當檢測方向與真值方向的絕對差值小于等于10°時,認為該目標方向檢測達到精度要求,此時Count(i)=1;否則視為不滿足方向精度要求,Count(i)=0。在式(13)中,N代表正確檢測的目標總數,對所有滿足方向精度要求的目標計數求和,其與目標總數的比值即為方向精準度DP。6種對比算法實驗結果如表3所示。

表3 6種對比算法方向檢測評估

FRO算法根據ROI池化之后的正框與真值標注中的斜框進行比對以回歸出斜框坐標,但由于其基礎網絡F-RCNN的正框預測只包含4個參數表示,即R=(xmin,ymin,xmax,ymax),其中xmin和xmax分別表示正框的最小和最大橫坐標x,ymin和ymax則分別表示正框的最小和最大縱坐標y。然而,在用斜框進行預測時需要回歸4個點共8個參數(即G={(gxi,gyi),i=1,2,3,4}),回歸參數的增加導致網絡性能下降。ROI transformer算法通過斜框標注直接學習到8個參數,在很大程度上提升了定位性能,但在面對高分辨率光學圖像中的飛機這類小目標時,由于缺乏掩膜特征中的尺寸和輪廓信息、語義分割信息等的輔助,其網絡檢測性能也表現不佳。此外,RRPN、R2CNN、RDFPN方法與ROI transformer算法類似,也缺失了語義特征,從而導致網絡定位性能無法繼續提升,且機頭正向預測性能也較差。

圖15展示了在自建數據集上,6種算法各隨機取100個預測目標,與其對應的真實目標標注方向的角度絕對差值折線圖。在圖15中,縱軸數值的大小反映出在已經正確檢測到目標的基礎上,目標預測方向與真實方向的偏離程度,角度絕對差值越小表示方向檢測越精準。

圖15 6種不同算法的方向角度絕對差值Fig.15 Direction angle absolute differences of six different algorithms

表4展示了在自建數據集上,采用不同對比算法進行目標方向檢測精度的具體評價值,包括:最大的角度絕對差值Δθmax、角度絕對差值的中值Δθmedian、角度絕對差值的均值Δθmean、角度絕對差值的標準差Δθstd。其中,最大的角度絕對差值Δθmax反映了預測方向與其真實方向的最大偏離程度;角度絕對差值的中值Δθmedian和均值Δθmean反映了預測方向與其真實方向之間的平均偏離程度,其值越小,說明方向預測越精準;角度絕對差值的標準差Δθstd反映了預測方向的穩定性,其值越小,說明方向預測越穩定。

表4 6種對比算法方向檢測精度具體評價

在圖16和表4中,通過角度絕對差值的中值與均值可以看出,本文方法在大部分目標上都有著較好的方向預測,角度絕對差值的中值僅為3.13,說明本文方法方向檢測的角度誤差基本滿足精度要求,即誤差小于10°。此外,本文方法的角度絕對差值的標準差更小,預測更加穩定,預測結果置信度更高。由于本文方法利用了精細掩膜的信息輔助,且在網絡中增加了一個方向損失,這使得RHTC網絡在預測斜框時,回歸器可以更有針對性地提取目標主軸,估計飛機目標機頭正方向,且方向預測也更加準確。

2.3 精細識別性能評估

為了測試本文方法的飛機目標精細識別性能,在自建數據集中采用真實的27個具體型號飛機目標斜框標注數據集對RHTC網絡進行訓練,并采用飛機目標型號的真實標注信息進行測試。目標精細識別性能采用類別平均精準度(mean AP,mAP)作為評價標準。mAP的計算公式如下:

(14)

式中：AP(i)表示第i個目標型號的AP值。為了公平地比較不同識別方法目標精細識別性能的優劣,在對比實驗中采用與第2.2節相同的網絡參數設置。表5展示了6種對比算法精細識別評估的結果。

表5 6種對比算法精細識別評估

圖16展示了通過不同的檢測方法獲得的定性結果,其中，第二行為區域A對比，第三行為區域B對比。從放大區域A可以觀察到,RHTC可以預測正確的目標機頭正向,同時沒有漏檢情況,而算法ROI transformer、RRPN、FRO則將密集排布的兩個目標錯檢為一個,算法R2CNN和RDFPN則預測的機頭正向與真實方向偏差較大。從放大區域B可以觀察到,RHTC分類全部正確,且檢測效果較好,而算法ROI transformer、R2CNN、RDFPN、FRO則出現分類錯誤,且算法R2CNN、ROI transformer出現漏檢,算法RFO出現虛警。

圖16 不同檢測方法獲得的定性結果Fig.16 Qualitative results achieved by different detection methods

2.4 消融實驗

為了測試本文所提改進思路對基礎HTC網絡的性能提升效果,在自建數據集上設計了多組消融實驗。需要說明的是,斜框回歸器作為功能模塊已添加進基礎HTC網絡中。使用基礎HTC網絡,以“其他”型號掩膜(27類目標掩膜全部初始化為“其他”型號掩膜)為輸入,作為基線模型;消融實驗1使用27類型號(包含了“其他”型號)目標精細掩膜作為輸入;消融實驗2在基線模型中采用分割級聯結構;消融實驗3在基線模型中添加方向損失函數;消融實驗4為實驗1和實驗3的組合;消融實驗5為實驗2和實驗3的組合;消融實驗6為實驗1、實驗2和實驗3的組合,即本文提出的方法。實驗采用DP和mAP作為評價標準,以反映不同算法的方向檢測和精細識別性能，實驗結果如表6所示，“√”表示網絡覺有該種結構。

表6 消融實驗結果

從表6可以看出,在消融實驗1中,基礎HTC網絡使用精細掩膜作為輸入后,DP增長了約6%,mAP增長了約3%,精細掩膜信息可以增強目標細節,綜合提升斜框檢測和識別性能。在消融實驗2中,基礎HTC網絡添加分割級聯結構后,DP增長了約20%,mAP增長了約4%,經過分割級聯結構不斷加強的語義特征,使得網絡在bbox定位方面更加準確,并有效提升掩膜預測精度,進而提升方向預測性能。在消融實驗3中,基礎HTC網絡添加方向損失函數后,DP增長了約15%,mAP增長了約1%,模型開始關注斜框方向并更新參數,使得DP值有較大提升,同時更加準確的方向預測也輔助提升了識別性能,但其增幅較小。消融實驗4、5和6的結果表明,本文提出的3個改進之處互不沖突,綜合使用可有效提升方向檢測和精細識別性能。

2.5 可嵌入性評估

本文提出的斜框回歸器和方向損失函數是一種通用型的結構。當將本文提出的斜框回歸器和方向損失函數與其他分割網絡結合時,可以使其同樣具有飛機目標斜框檢測的能力,并提高其識別性能。為了說明本文提出的斜框回歸器和方向損失函數的可嵌入性,在自建數據集上設計了4組評估實驗。實驗1使用M-RCNN作為基線模型1,實驗2在M-RCNN中添加方向損失函數和斜框回歸器,并使用27類型號飛機目標精細掩膜作為輸入。實驗3使用CM-RCNN作為基線模型2。實驗4在CM-RCNN中添加方向損失函數和斜框回歸器,并使用27類型號飛機目標精細掩膜作為輸入。實驗采用DP和mAP作為評價標準,實驗結果如表7所示。

表7 可嵌入性實驗結果

從表7可以看出,在實驗1中,M-RCNN模型在添加精細掩膜和方向損失后,DP增長了約17%,mAP增長了約8%。在實驗2中,CM-RCNN模型添加精細掩膜和方向損失后,DP增長了約17%,mAP增長了約9%。同時,上述兩種實例分割算法在使用本文所提的斜框回歸器后,也具有了斜框檢測能力。此外,通過在模型中添加精細掩膜和方向損失函數,模型的方向檢測和精細識別性能再次得到提升。這說明,本文所提出的斜框回歸器和方向損失函數可以嵌入到其他分割網絡以使其具備方向檢測和精細識別能力。

3 結論

本文提出了一種基于RHTC網絡的多方向飛機檢測與精細識別方法,以解決高分辨率光學遙感圖像中的多方向密集排布、多種型號飛機目標的方向檢測和識別困難問題。首先,通過構建每類型號飛機目標的精細掩膜,以增強目標細節,提升識別精度;其次,級聯分割分支與bbox分支,通過級聯方式增強語義特征,從而提升分割、掩膜預測精度;最后,在最后一層掩膜分支后,設計并增加一個方向損失函數,同時引入一個新的斜框回歸器以便從掩膜預測結果中準確預測飛機目標機頭正方向。利用Google圖像構建的飛機數據集和DOTA飛機單類數據集開展了多組方向檢測和精細識別對比評估實驗。結果表明,與其他多種先進的方法相比,本文方法在飛機檢測的準確率、召回率、方向精準度以及精細識別的類別平均精準度上性能更優。此外,將本文設計的斜框回歸器和方向損失函數應用于M-RCNN模型和CM-RCNN模型,并基于自建的Google飛機目標數據集進行了可嵌入性評估。實驗結果驗證了本文方法設計的斜框回歸器和方向損失函數在嵌入到其他分割網絡時也具有良好的性能。