陳曉寧 趙健
(1.東莞職業技術學院 廣東省東莞市 523808 2.西北大學 陜西省西安市 710200)
當感知設備遠距離成像時,會導致目標成像尺寸較小,成為分辨率低、特征不明顯的小目標。尤其在復雜的室外環境下,當出現光照變化、樹木及非目標物體遮擋、目標尺度變換等多種情況,對目標的正確識別造成巨大的困難。因此在復雜場景下對小目標檢測在計算機視覺中是一項具有挑戰性的任務[1]。小目標因為分辨率低,圖像模糊,表觀信息少,造成所能提取的特征也較少[2]。目前典型的方法是設計多尺度神經網絡提取不同水平的特征,以適應不同大小的物體檢測任務;另一種流行的方法是使用反卷積擴大深度特征圖[3]。這些方法消除了物體尺度變化的問題,但仍然不能很好地檢測小物體。
近年來,國內外關于小目標檢測領域研究主要采用深度學習的方法[4]。Girshick R 等人提出的基于區域提取R‐CNN 算法[5],成為R‐CNN 系列目標檢測算法的奠基之作。He K 等人在卷積神經網絡中設計一種空間金字塔池化層,使卷積神經網絡能夠處理任意大小的候選區,克服了多尺度提取、小目標特征表達能力較弱的問題,解決了卷積神經網絡只能接受固定大小輸入的限制[6]。Razakarivony S 等人發現大多數算法對小目標檢測的效果都不盡如人意[7],因此提出了VEDAI 航拍車輛小目標數據庫,為驗證小目標檢測算法提供了平臺;Takeki A 等人針對大背景區域下小目標檢測問題,提出一種基于深度卷積神經網絡在大范圍視場區域內檢測鳥類小型目標的模型[8],其為基于深度學習的目標檢測算法與語義分割方法相結合,訓練一個深度全卷積神經網絡和其變體,并通過支持向量機進行聚類,從而實現高檢測性能;Liu W 等提出SSD 算法[9],采用基于回歸模式,在一個網絡中直接回歸出物體的類別和位置,在特征圖上采用卷積核來預測一系列默認候選框的類別分數及偏移量,在不同尺度的特征圖上進行預測,實現端到端的訓練,提高檢測速度。Fu CY 等人針對SSD 算法在小目標檢測上存在的問題提出一種改進的 DSSD 算法[12],將SSD 算法基礎網絡使用Res Net‐101 代替原來的VGG‐16,改進了SSD 算法對被遮擋物體或小物體的檢測效果;Redmon J 等人引入了一個先進的實時目標檢測系統YOLO9000[10],該系統可以檢測超過 9000 個目標類別,在一定程度上提升小目標檢測效果。Yi K 等人提出KB‐RANN 的大腦啟發網絡,用于交通標志檢測(TSD)任務[14],TSD 作為援助系統和自動駕駛領域頂層驅動程序的基礎,是一個典型的小目標檢測任務。Lin TY 等人在 Faster R‐CNN 網絡基礎上提出一種具有橫向連接的特征金字塔網絡(FPN)[12],利用多尺度特征和自上而下的結構實現目標檢測。Singh 與Bharat 等人提出了SNIP 的尺度不變性目標檢測架構,通過學習不同尺度的目標,提高小目標的檢測性能[15]。Singh 等人提出一種多尺度(multi‐scale)訓練算法SNIPER[16],利用金字塔思想實現對圖片上不同大小目標的檢測。最近,Zhang C等人從定位和分類兩方面實現搭建偽監督目標定位網絡,提出了利用偽監督目標定位方法(PSOL)來解決多尺度小目標問題[17],對小目標物體檢測達到了較好的效果。
綜上所述,從多尺度小目標增強方法的國內外研究現狀與發展趨勢中可以看出,深度學習技術在檢測小目標任務中,表現出一定的識別優勢,且檢測性能逐年優化,但是檢測任務的多樣化以及檢測背景的復雜化使得小目標檢測算法在語義分析、樣本挖掘等方面面臨諸多問題,本論文以深度學習為基本網絡框架,在Faster R‐CNN基礎上,提出改進的Faster R‐CNN 小目標識別算法,進一步提升在復雜場景下小目標物體的檢測精度。
感知設備遠距離成像時,會導致目標成像尺寸較小,成為分辨率低、特征不明顯的小目標,目前通用的深度學習網絡檢測器提取到的目標特征較少,造成分類器對小目標的分類效果差,小目標的檢測效果不佳,無法達到正確識別目標的目的。為了解決以上問題,本論文提出了一種改進的Faster RCNN 小目標識別算法,通過設計特征提取結構來融合多層特征信息,同時優化候選區域生成方法和卷積神經網絡結構,提高算法效率。
Faster‐RCNN 是目前基于卷積神經網絡實現目標檢測和分類具有代表性的算法。它是在R‐CNN 和Fast‐RCNN 基礎上改進實現的。其在候選框選取的部分,利用RPN(region proposal network)代替前兩者采用的滑框算法 ,Faster RCNN 不管是在檢測精度還是在算法效率上都表現出較好的特性。Faster R‐CNN 的網絡結構見圖1。

圖1:Faster-RCNN 算法流程
Faster‐RCNN 算法主要由三部分構成,包括利用CNN 網絡提取特征、利用RPN 實現候選區域位置以及最后的分類和回歸。Faster‐RCNN 最大的優勢就是在候選框的選取算法采用RPN,使得候選框數量從約2000 個降低到約300,并且候選框質量更高。下面詳細介紹RPN 算法思路。
首先,RPN 在網絡訓練時,利用交并比(Intersection over Union),后面簡記為IoU,作為指標對樣本進行分類。IoU 的計算如公式(1)所示:

I(X)、U(X)分別表示數據的交集和并集。當IoU 大于0.7 時,結果記為正樣本,當小于0.3 是記為負
樣本。在訓練過程中RPN 的損失函數定義如公式(2)所示:

隨著深度學習在圖像處理領域的發展,卷積神經網絡對圖像的特征提取表現出優異的效果。尤其是隨著AlexNet[2]的問世,深度卷積神經網絡在圖像特征提取及分類中表現出了優秀效果。低層的卷積網絡,提取圖像的淺層特征,包括圖像的紋理,邊緣等細節信息。越往高層的卷積神經網絡,提取的特征越能更好的表達圖像的語義信息。然而高層的特征經過了多次卷積及池化操作,使得圖像的更多細節信息被忽略[18]。因此對于一個圖像中的小目標來說,僅僅通過高層特征無法獲得更多細節信息,甚至無法識別到小目標信息。Faster RCNN 算法中僅采用最后一層的高層語義特征作為候選區域特征,通過這樣的方式獲得的候選區域特征無法更好的實現對小目標的檢測。因此,為了獲得更多的小目標圖像細節信息,本文采用多層特征融合的方式,將底層特征中的更多細節信息作為候選區域特征,提高小目標的檢測效果。本文的整體網絡構成如圖2所示。

圖2:整體網絡結構
如圖2所示,為了獲得不同層次的圖像特征,本論文采用ResNet50 作為圖像特征提取基本不同層次的神經元對應的感受野大小不同,因此不同層次的特征對于的RPN 不同。底層的神經元對應的感受野較小,所以對應的anchor box 較小,高層的神經元對應的感受野較大,對應的anchor box 也較大。通過RPN 得到候選區域后,獲得特征圖的映射。由于獲得的映射大小不同,因此,通過ROI 池化操作,將不同大小的特征統一為相同大小。最終將得到的網絡。將不同深度卷積層提取的圖像特征分別經過各自的RPN 模塊,生成對應的候選區域。由于各個深度的特征進行分別送入分類器,并將得到的殘差進行融合,得到最終分類結果。本論文中將深度卷積神經網絡ResNet50 的不同深度卷積層進行融合,如圖2所示,分別選擇ResNet3d、ResNet4f和ResNet5c這三層作為圖像提取特征。不同深度特征對應的RPN 不同,因此對于選擇的特征層設置不同尺度的滑動窗口。
損失函數設計的優劣直接關系到最終模型的優劣。在Faster‐RCNN 模型中分類函數采用的是SmoothL1[18],函數如式(3)所示:

其中smoothL1損失函數基于交叉熵函數。然而對于小目標來說,其在整副圖像中所占像素比例非常小,因此導致在訓練集中負樣本遠遠小于正樣本。因此會導致在進行模型訓練時,參數并不能達到較好的更新,使得分類結果變差。因此,為了克服這一問題,本論文中給正負樣本分配不同的權值,提高模型識別準確率。如公式(4)所示:

損失函數最終由置信度誤差Lconf和位置誤差Lloc組成。其中c為類別預測。l 為位置預測,g 為標注樣本位置的位置,N 為預測出的正樣本個數。
本文實驗采用的數據集為通過網絡搜索獲得的航拍汽車數據集,論文中數據集簡稱為Car,通過搜集整理,數據集共有1280 張汽車圖像,汽車基本為小目標。在實驗中,首先對數據集進行擴充,采用旋轉,加噪聲等方式,擴大數據集。實驗中采用80%作為訓練集,其余的測試集。如圖3 中,展示了部分Car 小目標圖像。

圖3:數據集Car 中部分圖像
PASCAL VOC2007 作為標準數據集,是目標檢測、圖像分類和圖像分割的基準數據集。包括飛機、自行車、鳥、瓶子、船、貓、小汽車等20 中目標物體。因此為了進一步證明算法的先進性,本論文中同時也采用了本數據集進行驗證。
平均檢測精度均值(mean Average Precision mAP)被廣泛用來評估目標檢測的性能度量標準。在這里,首先需要介紹準確率(Precision)和召回率(Recall)。假定將正樣本正確預測為背景的樣本數量表示為TN(Ture Negative),將負樣本預測為背景的樣本數量表示為FN(False Negative),正樣本預測為前景的樣本數量表示為TP (True Positive),將負樣本預測為前景的樣本數量表示為FP (False Positive)。準確率(P)可以反映一個類別的預測正確率,其計算公式如(5)所示:

召回率(R)表示實際為正樣本的所有樣本中,被預測為正樣本的數量所占比例。其計算如公式(6)所示:

準確率和召回率相互影響,相互制約。一般情況下,準確率高,召回率就低,如果出現兩者都低的情況,說明網絡出現了問題。通常以R 為橫坐標,以P 為縱坐標,繪制對應的P‐R 曲線,而單一目標檢測的平均精度(Average Precision AP)即為P‐R 曲線與坐標軸圍成的面積。均值平均精度(mAP)是指對多個單目標的檢測平均精度的均值。在本論文中研究的對象為單目標,因此mAP 即為AP。
本文采用多特征融合方式實現小目標檢測。通過對比多種方法的平均檢測準確率,證明算法的先進性。首先針對Car 數據集進行實驗對比,具體實驗結果如表1所示。從表1 中可以看出采用多特征融合的改進型Faster‐RCNN 算法,平均檢測準確率最高,較原本的Faster‐RCNN 算法高出9.86 個百分點。

表1:不同檢測算法性能在Car 數據集上的對比
為了進一步驗證算法的先進性,論文在公開數據集VOC2007上進行了進一步驗證。具體結果如表2所示。其中對比多種算法的平均檢測準確率,可以發現,本論文算法具有最好的檢測效果,高出算法[9]33.97%,高出Faster‐ RCNN 為5.26%。進一步證明了本算法的先進性。

表2:不同檢測算法性能在VOC2007 數據集上的對比
目標檢測由于其廣泛的應用,一直受到眾多研究者的關注。隨著深度學習的興起,目標檢測算法也得到了快速發展。但是當前算法對于小目標圖像的檢測識別達不到滿意效果。因此本論文提出多特征融合的改進Faster‐ RCNN,算法將圖像的低層紋理特征和高層語義特征分別用來產生候選特征,并對損失函數進行改進。實驗證明,本論文提出的算法優于其他算法,高出原始Faster‐RCNN 算法9.86%,對于小目標圖像具有較好的檢測效果。