王玥 李麗 黃政

摘 ?要:在軍事領域和日常生活中存在大量帶有光學鏡頭的光電制導武器以及光電設備,激光照射到光學鏡頭上時會出現“貓眼效應”,現有的傳統方法采用經典數字圖像處理過程對“貓眼”目標進行識別,主要采用主被動圖像相減后得到的差分圖像對其進行濾波以及設定灰度閾值來識別目標,此類方法對于復雜環境以及光強近似的偽目標來說傳統方法的虛報警率較高。因此本論文提出一種基于深度學習的“貓眼”效應目標檢測網絡——CE-SSD,此算法參考了相比于YOLO網絡對較小目標探測的準確率更高、速度更快的SSD網絡,并對SSD目標檢測網絡的改進。首先將淺層特征圖進行融合以提高對“貓眼”類小目標的識別精度;然后采用K-means聚類方法根據真實框大小產生預選框;最后去除對小目標檢測作用極小的后三個卷積層并修改不同特征圖中包含的anchor數量來精簡網絡算法。為了驗證本文所提出算法的效果,創建了“貓眼”目標數據集,在此數據集上CE-SSD網絡對于“貓眼”目標有較高的準確率和較低的虛報警率,mAP較SSD提高了2.7%,精確度提高1.1%,召回率提高6%。
關鍵詞:“貓眼”效應;卷積神經網絡;深度學習;目標檢測
引言
隨著光電偵查、光通信技術的大力發展,出現了大量光電制導武器以及光電設備,越來越多設備上帶有光學鏡頭,為了能夠準確識別這類目標,產生了多種機制的光電對抗系統,其中較為常用的對抗系統是激光成像探測系統[1],當激光照射到光學鏡頭上時會產生“貓眼”效應,此對抗系統對狙擊鏡、偷拍設備等光學鏡頭產生的“貓眼”效應目標進行識別。
“貓眼”效應是指當激光照射到狙擊鏡、望遠鏡、測距儀等光學鏡頭后,經過透鏡的會聚和反射元件的反射,會產生強度比一般漫反射目標的光強高2~4個數量級的反射光。就像黑夜中的貓咪的眼睛一樣炯炯發亮,因此得名“貓眼”效應。現有的傳統方法包括基于壓縮感知的“貓眼”效應目標識別算法[2]、基于形狀和頻率雙重判據的“貓眼”效應目標識別方法(SFDC)[3]、基于視覺注意機制的“貓眼”效應目標識別算法[4],此類方法目標識別率低、虛警概率高,在動態復雜環境下不能夠對車燈、走動的行人等偽目標進行有效的區分,對于光強近似或較高、形狀對稱的偽目標不能很好的排除。
本文針對狙擊頭、望遠鏡、夜視儀所產生的“貓眼”效應目標,使用深度學習目標識別的方法進行研究。近幾年深度學習目標檢測算法取得了巨大的突破。其中包括多階段檢測的經典算法R-CNN[5],Fast R-CNN[6],Faster R-CNN[7]以及一階段檢測算法YOLO[8]和SSD[9]等。SSD算法吸收了YOLO速度快和RPN定位精準的優點,采用了RPN中產生多種不同比例大小的預選框的思想,并進一步提出在多個分辨率的特征圖上進行檢測。
本文參考目前速度、識別準確率都較高的SSD網絡,提出一種基于SSD的改進算法CE-SSD(“Cat-Eye” Effect Object Single Shot Multi Box Detector)作為“貓眼”目標的識別算法,針對“貓眼”類目標對SSD網絡結構進行優化和改進,首先將用于分類以及位置回歸的特征層進行融合以提高對“貓眼”類小目標的識別精度,通過SSD的特征圖可視化選擇適合“貓眼”效應目標感受野的卷積層進行融合;然后采用K-means聚類方法根據標注真實框(Ground Truth box)大小產生預選框的初始大小尺寸,將聚類得到兩組新的Anchor代替SSD中固定的min_size和max_size,從而得到更加貼近真實框的預選框;最后去除對小目標檢測作用極小的后三個卷積層來精簡網絡算法,在不影響識別準確率的情況下減少冗余,實驗在自行創建的“貓眼”效應目標數據集上進行訓練和測試。
1 實驗內容
1.1 卷積層融合方法
通過對神經網絡的學習,可以發現較低層級的特征語義信息比較少,但是能夠給定目標的準確位置;較高層級的特征語義信息比較豐富,但是對于目標位置的判斷比較模糊。由于小尺寸的目標多用較低層級的Anchor來訓練,但是底層級的特征缺乏語義信息,可是如果只考慮語義信息用較高層級進行識別,“貓眼”目標尺寸過小與較大的Anchor無法匹配,沒有辦法將其準確檢測出來,所以本文利用加權梯度類激活映射(Grad-CAM)[10]方法將SSD中用于分類和回歸的卷積層進行可視化來了解網絡中不同卷積層所關注的內容有何不同。對于小目標的識別Con4-3層和Con5_3層是最合適的,選擇Conv4_3和Conv5_3進行融合來得到上下文信息,從而同時兼顧語義信息和目標位置的精度。
融合流程:首先對Conv5_3采用最近鄰插值方法進行上采樣,得到與Con4_3的相同大小的特征圖,然后將Conv4_3和上采樣后的Conv5_3用3×3大小的卷積核提取特征使后續能夠更好的融合。在將它們沿著通道軸進行融合之前,使用BN(Batch Normalization)層進行歸一化。最后將Conv5_3橫向拼接在Conv4_3后面,用1×1×512的卷積核對特征重結合并降維成38×38×512大小的特征層作為最終的融合層。此過程針對小目標具有較高的檢測精度。需要說明的是“貓眼”目標都是小目標,較深層級對目標檢測作用很小,為了檢測速度,不考慮將后面的卷積層進行融合。
1.2 K-means聚類生成預選框
本文中主要識別目標的大小在10-50像素之間,需要針對“貓眼”小目標重新計算預選框,K-means聚類的目的是使預選框和臨近真實框有更大的IOU,從而得到更好的IOU分數,K-means聚類首先需要明確距離的計算公式,一般情況下是使用歐氏距離,由于是以標注好的真實框與聚類框(Cluster box)的IOU最大為目地,所以以公式1來計算距離:
公式1中GT_box代表真實框,Cluster_box代表聚類框;每個聚類框與真實框的IOU越大越好,而聚類到簇的距離越小越好,所以使用 最為距離度量公式。需要說明由于Anchor的中心位置是根據特征圖網格確定的,在計算IOU時將兩者中心點的x,y設置為相同坐標,所以使用K-means計算時Cluster_box只需要設置初始長和寬,不需要設置目標類別和中心坐標。
1.3 網絡簡化
將SSD中用于分類和位置回歸的卷積層減少到三個,去除Conv9_2,Conv10_2,Conv11_2,并對Anchor_ratios進行調整,SSD中預選框的生成以特征圖網格為中心,通過K-means聚類方法生成的Anchor_size按照Anchor_ratios生成的不同長寬比的預選框,其中Anchor_ratios={1,2,1/2,3,1/3,1’},將每個卷積層對應使用Anchor_ratios的Num={4,6,6,6,4,4} 改為為Num={4,6,4},即將Conv4_3和Conv7層的Anchor_ratios保留,Conv8_2只采用{2,1/2}一種比例生成預選框。在不減少精確度的情況下去除SSD中對“貓眼”目標檢測無用的卷積層從而減少冗余,提高檢測速度,FPS小幅度提高。
1.4 CE-SSD網絡結構
本文提出CE-SSD網絡結構“貓眼”目標識別算法,網絡輸入圖像大小為300×300,首先通過VGG-16的Conv1_2,Conv2_2,Conv3_3對圖像進行特征提取,然后通過K-means聚類方法生成Anchor,然后將Conv4_3與Conv5_3進行融合得到38×38的特征圖、Conv7的19x19特征圖、Conv8_2的10x10特征圖同時進行Softmax分類和邊框定位。公式2為Loss函數數學表達式,其中Loss函數分為兩部分,一部分是邊框定位的損失函數 ,一部分是置信度得分的損失函數 ?,其中c置信度,l為預測框,g為真值框。
2 實驗結果及分析
2.1 數據集
由于現在并沒有開源的“貓眼”目標數據集,所以本實驗室共同創建了“貓眼”目標數據集,我們使用設備進行視頻拍攝,需要盡可能模擬狙擊、偷拍的真實場景,為了使背景多樣化,拍攝場景包括室內,灌木從,草地,街道、窗戶、房頂、湖邊等數十個場景,拍攝時間為從白天到黑天不同時段,拍攝環境為逆光、順光、庇蔭處等。為了使目標大小多樣化,拍攝距離從二十至三百米不等,拍攝共四十段短視頻,通過視頻編輯工具將其中帶有“貓眼”目標的視頻幀保存為圖像篩選,圖像大小為480×608,最終選擇600張圖片作為“貓眼”目標數據集并對其標注,標注后按照8:2隨機將數據集分為訓練集497張和測試集103張。
2.2 模型測試
測試階段首先對于每個預測框,根據類別置信度確定其類別與置信度值,并過濾掉屬于背景的預測框,然后根據置信度閾值(如0.5)過濾掉閾值較低的預測框,最后通過非極大值抑制NMS算法,過濾掉那些重疊度較大的預測框。最后剩余的預測框為檢測結果。對測試集103張圖片進行檢測,原SSD與CE-SDD進行精確度(Precision)與召回率(Recall)的對比,可以發現虛報警率有0.3%小幅提升,但漏檢大大減少,召回率提高6%,對測試集中大多數目標都能正確檢測。
為了驗證加入融合和K-means聚類方法的有效性,采用平均精度均值mAP指標對原本SSD、加入融合后的Fusion_SSD以及CE-SSD進行對比,對比結果如表3,可以看到CE-SSD相比原SSD的mAP增加了2.7%,有顯著提升,可以看到Fusion_SSD的加入是非常必要的, 相比SSD增加了4.2%,mAP增加了1.2%。
3 實驗結論及貢獻
3.1 實驗結論
“貓眼”目標的檢測在軍事和生活中都有重要意義,本文參考SSD網絡,提出了基于深度學習的針對“貓眼”效應目標的檢測網絡——CE-SSD,首先探究對SSD網絡不同卷積層對“貓眼”效應目標的關注程度,將適合檢測“貓眼”目標的特征層進行融合以提高對此類小目標的識別精度;然后采用K-means聚類方法根據真值標注框大小產生預選框的初始尺寸以提高檢測精度;最后去除對小目標檢測作用極小的后三個卷積層并修改不層級中包含的Anchor數量來精簡優化網絡算法。同時創建“貓眼”效應目標數據集,在此數據集上進行模型訓練和檢測,并將CE-SSD網絡與原版SSD檢測網絡進行對比實驗,mAP提高了2.7%,精確度提高0.3%,召回率提高6%。本文所提出的方法對“貓眼”目標檢測效果較好,但是沒有考慮速度,如果要作為實時檢測網絡還有待提高檢測速度。
參考文獻
[1] ?張超凡.“貓眼效應”在激光主動探測中的實現[J]. 計量與測試技術,2007,34(11).
[2] ?黨二升,李麗. 激光探測“貓眼”效應目標識別算法[J]. 航空科學技術. 2011,6(59).
[3] ?Ximing Ren,Li Li.Recognizing “cat-eye” targets with dual criterions of shape and modulation frequency [J]. CHINESE OPTICS LETTERS,2011,9(1).
[4] ?Li Li,Jianlin Ren,Xingbin Wang Fast cat-eye effect target recognition based on saliency extraction[J].Optics Communications 350(2015)33–39.
[5] ?Wang X,Shrivastava A,Gupta A.A-Fast-RCNN:Hard positive generation via adversary for object detection[C]// Proceedings of CVPR 2017,2017.
[6] ?GIRSHICK R. Fast R-CNN / / Proc of the IEEE International Conference on Computer Vision. Washington,USA:IEEE,2015:1440-1448.
[7] ?REN S Q,HE K M,Girshick R B,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[8] ?REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection / / Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington,USA:IEEE,2016:779-788.
[9] ?LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot Multibox Detector / / Proc of the 14th European Conference on Computer Vision. New York,USA:Springer,2016,I:21-37.
[10] ?Selvaraju R R,Cogswell M,Das A,et al. Grad-cam:Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017:618-626.
作者簡介:王玥:女,1995 8 2,北京,漢族,北京航空航天大學,碩士,研究方向:圖像處理。