余慧明,周志祥,彭 楊,崔志斌
(武漢興圖新科電子股份有限公司 平臺產品部,湖北 武漢430073)
隨著人工智能的興起,深度學習[1]算法各個領域的優勢被體現出來。 對視頻、圖像中的多目標、細粒度的目標識別技術,可以方便人們在復雜的情景中快速定位到所需要的檢測目標。隨著場景的復雜度加深,基于基礎模型的各種改進版本層出不窮。
在過去近10 年中,目標識別技術又有了飛速的發展,從最開始的機器學習算法,再到目前主流的深度學習目標識別算法,如 RCNN[2]、SSP-Net[3]、Fast R-CNN[4]、Faster R-CNN[5],目標識別技術已經在各個領域都有了很好的應用。 但是,由于數據集的制約,針對遙感圖像的軍事目標識別卻是一個例外。另外,軍事碼頭物體數量眾多,需要檢測的目標與其他物體交錯相間, 大大降低了模型的準確性。對于一些密集型的目標檢測,PAN X[6]等人提出了一個由特征選擇模塊(Feature Selection Module,FSM)和動態優化頭(Dynamic Refinement Head,DRH)組成的動態優化網絡。 FSM 使神經元能夠根據目標物體的形狀和方向調整接受野,而DRH 使模型能夠以一種對象感知的方式動態地改進預測。 何代毅[7]等人就提出了一種基于改進 Mask-RCNN[8]的建筑物自動提取方法,在網絡的設計中添加了路徑聚合網絡和特征增強功能, 通過監督和遷移學習的方式在Inria 航空影像標簽數據集中進行多線程迭代訓練與模型優化學習,實現了建筑物的自動精確分割和提取。 對于數據集缺乏等問題,林通[9]等人通過遷移姿態生成對抗網絡生成姿態不同的行人圖片,對數據集進行了擴充。
針對遙感圖像的軍事目標多目標細粒度的識別,在主流的Mask R-CNN 模型表現不佳的情況下,本文在Mask R-CNN 模型的基礎上進行改進,經過改進后的模型更加高效地實現了對多目標的自動精確分割和提取,也提高了對遙感圖像中軍事目標的細粒度識別的準確率。
Mask R-CNN 是目標檢測近年來最成功的算法之一,它是由何凱明于2017 年提出,在其前一代版本Faster R-CNN 的基礎上進行了改進,將原有的感興趣區域(Region Of Interest,ROI)Pooling 改進為更加精確的 ROI Align,此外,還在 Faster R-CNN 網絡的基礎上新增了一個 Mask[10]分支。 其算法的結構流程圖如圖1 所示。
從圖 1 中可以看到,Mask R-CNN 網絡在Faster R-CNN 的基礎上,運用特征學習效果較好的組合ResNet[11]50/101+FPN,極大程度上提高了模型對特征的學習能力,ROI Align 通過雙線性插值的辦法解決了ROI pooling 像素點的偏差較大的問題,增強了特征框檢測的精確度。 另外,對于每一個類別都有一個獨立的Mask 分支與之對應。 經驗表明,通過為每個類別對應一個Mask 可以有效避免類間競爭(其他目標類別不貢獻Loss 值),這可以提高實例分割的效果[12]。 整體而言,Mask R-CNN 相較于Faster R-CNN 各方面性能指標有了很大程度的提升。
Mask R-CNN 算法采用多任務損失函數,通過不斷地學習減小損失函數的值,最終達到全局最優解。
傳統的Mask R-CNN 網絡功能強大,但是針對遙感軍事圖像存在大量圖片尺寸不一,清晰度不足,細粒度目標檢測效果欠佳;單向的FPN 網絡特征圖中的高層特征與低層特征之間的聯系不太緊密,不利于特征信息的有效結合;在Mask 網絡中,對有效的信息沒有特別的關注的問題。 因此,本文在繼承Mask R-CNN 網絡的優點的前提下,對其做出了如下的改進。

圖 1 Mask R-CNN 結構流程圖
1.2.1 輸入數據集的改進
針對數據集,在預處理后進行了增強處理,針對每張圖片運用Random-Batch images 的思想進行處理。對原本尺寸為 1 280×1 280 的每一個目標,根據圖片中目標數量的多少,動態截取 640×640、320×320、160×160 的圖片,然后對截取后的同等大小圖片按照其尺寸隨機拼接還原成 1 280×1 280 的圖片。 以截取 框 640×640 為 例 ,Random-Batch images思想如圖 2 所示。

圖2 Random-Batch images
如圖 2 所示,采用 640×640 的截取框對原圖像進行截取,然后隨機地拼接還原為原始尺寸的大小,不僅僅對原始數據集進行擴充,而且也增加了模型的識別能力。
1.2.2 FPN 網絡的改進
FPN 最早是在 Faster R-CNN 模型中被提出的,FPN 主要是用來解決目標檢測中的多尺度問題,通過簡單的網絡連接的改變,在基本不增加原有模型計算量的情況下,大幅度地提升了小尺寸目標檢測的性能。 其結構如圖 3 所示。
如圖3 所示,輸入的圖片通過高層特征的上采樣和底層特征進行自頂向下的連接,每一層都會進行預測。
而本文采用的是 FPN 的變體,FPN 的一種復雜雙向融合模型——BiFPN,其可以更加方便地融合多尺度特征,針對多尺度的目標細粒度檢測任務有很好的效果。 BiFPN 的結構如圖 4 所示。

圖 4 BiFPN 結構
1.2.3 Mask 網絡的改進
掩碼網絡(Mask)是 Mask R-CNN 網絡的關鍵所在,它通過添加一個分支與現有的用于邊界框識別的分支并行來預測目標Mask,從而擴展了Faster R-CNN。 然而它在進行預測時,并不能關注到需要的有用的信息,增加有用信息的權重,因此在Mask分支上添加通道注意力機制,對所需要識別的模糊目標給予更多的權重,提高了目標檢測的準確性。其結構如圖 5 所示。

圖 3 FPN 結構

圖5 帶有通道注意力的Mask
Mask R-CNN 網絡在提取軍事碼頭的集裝箱、小型船只等清晰、 獨立的目標物時效果較好。 但是,軍事碼頭各種大小型船只交錯相間,遙感圖像較模糊, 一些模糊的小目標無法被準確地識別出來, 因此, 本文在原本的 Mask 分支基礎上增加了通道注意力機制, 針對模糊不易被察覺的目標,給予更多的注意力, 也在一定程度上增加了模型整體的準確率。
由于本文使用的是尺寸大小固定為1 280×1 280并且帶有標記的數據集,因此省去了數據標注和數據裁剪等步驟。 具體步驟為:(1)獲取數據集;(2)運用Random-Batch images 對數據集進行了增強處理,對原始數據集進行擴充和增強處理;(3)在原始的Mask R-CNN 模型上進行搭建自己的模型;(4)配置網絡參數,如初始化學習率,定義Epoch 等;(5)載入預訓練權重及標簽數據開始訓練, 并保存訓練得到的權重等數據;(6)載入訓練得到的權重,讀取測試集圖片的掩模圖片;(7)對掩模圖片的各個特征進行二值化處理;(8)對輸出的結果進行性能評估并對比其他模型。 整體的算法流程如圖6 所示。
本實驗使用開源的PyTorch 學習框架,使用 Python語言編程實現算法網絡, 硬件環境為配有NVIDIA GeForce GTX TITAN 2080 顯卡 (32 GB),64 位 Ubuntu16.04 操作系統。

圖6 算法的總體流程
本文采用遷移學習方法, 運用網上公開的COCO2014 數據集訓練得到預訓練模型,作為本文遙感軍事場景多目標細粒度識別算法模型的預訓練模型。 本文使用的數據集,其中的訓練集包含3 000 張圖片,經過 Random-Batch images 后擴充至5 000 張圖片,測試集為 260 張,圖片尺寸均為1 280×1 280。
由于需要檢測的目標數較多,因此使用平均準確率(mAP)、平均召回率(mRecall)、平均查準率(mPrecision)和 F1[13](式(1)~式(4))作為模型的評價指標。 其中C 為所要檢測目標的種類數。

其中 P(R)為準確率-召回率曲線(P-R 曲線),TP(True Positive)表示算法和人工標注都識別出需要檢測的目標物,FN(False Negative)表示算法沒有識別出但是人工標注了的目標物,FP(False Positive)表示算法檢測出而人工未標注的目標物。
為了驗證本文所提出的改進模型較主流的目標識別網絡有優勢,使用支持向量機(Support Vector Machine,SVM)[14]、 全 卷 積 網 絡 (Fully Convolutional Network,FCN)[15]、Mask R-CNN 模 型 在 相 同 的 數 據集上進行對比試驗。 由表1 可以看出,相較于其他主流目標識別網絡,經過改進后的Mask R-CNN 在總體上效果更好。

表1 比賽官方數據集上主流算法比較 (%)
本文采用的數據集為帶有標注的遙感目標數據,如圖7 所示,目標類型較多,目標物較為模糊,其他物體數量較多,對需要檢測的目標造成了較大的干擾。 另外,數據集較少,只有 3 000 張圖片,因此本文采用了Random-Batch images 策略,如圖 8所示,將圖片裁剪后進行拼接,對數據進行了增廣處理。

圖7 帶標注的圖片

圖8 Random-Batch images生成的圖片
由表1 可以看出,相較于主流的目標識別模型,本文提出的模型在此數據集上的各個評價指標均有一定的提升,說明本文提出的模型具有一定的優越性。
本文針對的是基于遙感圖片的軍事多目標細粒度識別,提出了一種基于主流的目標識別網絡Mask R-CNN 的改進模型,通過Random-Batch images思想,對數據集進行增廣處理;然后將Mask R-CNN模型中的FPN 改進為BiFPN,使模型能更加方便地融合多尺度的模型;Mask 網絡層通道注意力機制的加入,提高了模型對小目標的關注度,提高了模型目標識別的準確率。 整體而言,本文提出的方法在遙感圖片的軍事目標多目標細粒度識別取得了不錯的效果,相較于其他主流模型有較為明顯的提升。