王 志,陳 平,潘晉孝
(中北大學 信息探測與處理山西省重點實驗室, 太原 030051)
自然界的一切圖像都是連續變化的模擬圖像,通常圖像里某些特定的目標才是我們比較關心的,例如在車水馬龍的大街上,如何在車流中判別是否有你想要找的那個車輛,并且能精準地找出車輛的位置;又如在軍事行動過程中,某些軍事武器(如坦克、戰斗機等)的識別和檢測對于軍事信息掌握是十分關鍵的。因此,在自然圖像中識別出特定的目標對于安防監控、軍事目標定位、航空航天導航都有著重大的意義[1-4]。但是在自然圖像的采集過程中很容易受到自然環境或人為因素的影響產生較為復雜的背景,例如光照變化、局部遮擋、目標尺度變化等,使得要檢測的目標發生形狀、外觀上的變化,從而加大了檢測難度。因此,復雜背景下的目標檢測成為了近年來理論和應用的研究熱點,它的目的是將目標從連續變化的模擬圖像中快速、準確地識別與定位出來。
針對此問題,人們最開始使用淺層圖像特征學習方法,如尺度不變特征變換(SIFT)[5]和方向梯度直方圖(HOG)[6]等。通過精巧的設計以及量化、池化、歸一化等操作,使得這一類特征對于光照、角度、尺度的變化具有了一定的不變性,可以更好地展示一些形狀變化較小的圖像。但是由于手工設計的特征描述子沒有高層語義的抽象能力,直觀地說就是這種特征的近似性與圖像內容在人的理解中的相似性并不吻合。之后,J.R.R.Uijlings等[7]提出基于選擇性搜索算法(selective search)的目標檢測方法,將窮舉搜索和分割相結合,針對圖像中的目標具有不同形狀、尺寸、顏色、紋理的多樣化特點,采用了區域(region)合并的方法,得到目標的定位區域,然后采用支持向量機(support vector machine,SVM)對得到的區域進行分類,從而完成對目標的檢測。該方法是基于區域合并的,區域包含的信息比像素豐富,更能有效代表目標的特征。此后基于區域合并的檢測方法越來越受到歡迎。2006年Geoffrey Hinton等[8]在《Science》上首次提出了深度學習的概念,并且在2012年與Krizhevsky等[9]利用GPU實現了一個深度神經網絡,在ImageNet[10]的比賽中取得了創紀錄的結果。近年來,Ross Girshick與何凱明、任少卿等[11-13]將基于區域合并算法與深度卷積神經網絡相結合,提出了一系列的目標檢測方法,如R-CNN[11]、Fast-RCNN[12]、Faster-RCNN[13],他們通過不斷優化和改進卷積神經網絡的結構使得檢測精度逐步提高,在VOC2007數據集上,其檢測精度從最初的66.0%[11]提高到68.1%[12],最后到73.2%[13]。除了檢測精度的提高之外,在檢測速度上也有了很大的提升。
本文針對傳統模式識別方法對復雜場景下目標檢測精度難以達到實際應用要求的問題,采用目前較為先進的深度卷積神經網絡結構,通過其具有的局部連接、權值共享及池化操作等功能,有效降低了網絡的復雜度,減少了訓練參數的數目,使模型對平移、扭曲、縮放具有一定程度的不變性,并具有強魯棒性和容錯能力,且也易于訓練和優化網絡結構。試驗驗證結果表明:基于深度學習算法的CNN結構可以對復雜背景下的目標進行較精確的定位和識別,在基于互聯網數據庫上檢測準確率達到82.6%。目標檢測總體框架如圖1所示。此研究對復雜場景下的多目標檢測技術具有重要的理論意義和實際應用價值。
構建一個深度卷積神經網絡實現區域生成,并使得它與檢測網絡共享卷積層計算。CNN網絡結構如圖2所示。

圖1 目標檢測總體框架

圖2 CNN網絡結構
對于輸入的任意尺寸的圖像,首先采用區域生成網絡(region proposal network,RPN)對輸入圖像進行特征提取,并對所有可能的候選窗(candidate window)進行篩選。對于每一個提取出的特征圖像,可以看作是一個尺度為51×39的256通道圖像。對于該圖像的每一個位置,采用9種尺度的候選窗:3種面積{128×128,256×256,512×512}×3種比例{1∶1,1∶2,2∶1}。接下來對于已提取的候選窗口進行分類和位置精修。分類層(cls_score)輸出每一個位置上9種候選窗屬于前景和背景的概率;窗口回歸層(bbox_pred)輸出每個位置上9種候選窗對應的窗口平移縮放的參數。
在訓練RPN時,為每個候選窗指定二值的類標記(是目標或者不是目標)。對于滿足以下兩種情況之一的候選窗指定它為正樣本:① 與某個標注框有最大重疊比的1個或若干個候選窗;② 與任一標注框的交除并重疊比大于0.7。值得注意的是,單一標注框可能會被標記為多個候選窗的正樣本。為了提高召回率(recall),增加了第1條規則,因為在某些圖片上,只用第2條規則不能產生正樣本。與所有標記框的交除并重疊比都小于0.3的候選窗被標記為負樣本。既沒有被標記為正樣本也沒有被標記為負樣本的在訓練過程中不會對目標函數產生影響。
在這些正/負樣本的定義基礎上,訓練模型最小化多任務損失函數。對于一張圖片的損失函數定義為

(1)

(2)
采用4階段交替訓練的方法來交替優化共享特征。首先訓練RPN。這一步為ImageNet數據集上預訓練的網絡初始化,并端到端地微調區域生成任務。然后用構建的卷積神經網絡及第1步產生的區域來獨立訓練檢測網絡。這一步中,網絡也由ImageNet預訓練進行網絡初始化。至此,2個網絡并沒有共享卷積層。第3步利用第2步得到的檢測網絡初始化RPN的訓練,并且固定所有共享的卷積層,只微調RPN獨有的參數層。這樣2個網絡就可以共享卷積層了。最后保持共享的卷積層不變,微調檢測網絡獨有的層。經過這樣4步,2個網絡就可以共享卷積層,并可以被合并為1個統一的網絡進行測試。
由于在軍事行動中,地面行駛的坦克為了提高其戰場生存能力,會采用迷彩偽裝或者用綠色植被做大量的遮擋,使其與環境融為一體,并且野外環境錯綜復雜,加大了對坦克目標的檢測難度,所以實際軍事行動中的坦克圖像符合復雜背景要求,因此在百度圖片數據庫中下載大量坦克圖片構建了復雜背景圖像數據集。數據集包括訓練圖像和檢測圖像。每幅圖像的分辨率為500像素×375像素。隨機選取數據集中的2/3作為訓練圖像、1/3作為檢測圖像。對每一副訓練圖像進行了人工標記,標記格式與PASCAL VOC數據集[15-19]的格式相同。圖3為數據集的部分圖像展示。
數據集經過CNN網絡進行訓練,采用的試驗環境為64位win7系統,并配置Quadro M4000顯卡(8G),使用Matlab軟件編程,調用Caffe深度學習平臺[12]實現網絡各層級之前的連接與運算。訓練完成后將數據集中檢測圖像輸入模型,對坦克(tank)、炮筒(paotong)、履帶(lvdai)3類精細結構進行識別與定位,輸出為目標的類別、定位框及其置信度。圖4展示了部分圖像檢測結果。

圖3 數據集部分圖像展示

圖4 坦克不同部位(坦克、炮筒、履帶)的檢測結果
該模型對坦克、炮筒、履帶的檢測精度(mAP)見表1。
表1 目標檢測精度
%

類別坦克炮筒履帶平均檢測精度(mAP)檢測精度98.883.565.582.6
為了不與訓練圖像重復,使用相機拍攝的模型坦克圖像作為測試圖像輸入訓練CNN后得到的圖像進行檢測。首先對單目標圖像進行檢測,檢測結果見圖5。

圖5 單目標圖像檢測結果
由圖5可得到:在圖5(a)(b)遮擋較少的情況下,可以將炮筒、履帶檢測出來,并且定位準確;隨著遮擋范圍逐漸增加,檢測精度不可避免會相應下降,但是在遮擋超過70%時(圖5(c)),其置信度高于0.6,并且對目標的定位準確。
媽媽們要記住對癥治療,合理使用抗生素,濫用抗生素沒用的。病毒是蛋白質外殼包裹的一段DNA或RNA核酸分子,沒有細胞結構,抗生素對病毒沒有任何作用,抗生素不能解決所有問題,還會造成更多的麻煩。抗生素主要用于細菌感染,某些品種可用于真菌、支原體、衣原體、立克次體或原蟲等病原微生物感染。單純的病毒感染、非感染所致的發熱,不應選用抗生素。
在實際軍事行動中,大多情況下需要對多個目標進行檢測。相比于單目標的情況,由于目標增多其檢測難度更大,對于檢測精度要求更高,所以在特征提取階段,將RPN網絡的所有卷積核大小由7×7調整為3×3,提取更加精細的特征。與單目標檢測相同,對有不同程度遮擋的目標進行試驗,結果見圖6。

圖6 多目標圖像檢測結果
由圖6可得:在遮擋較少的情況下(圖6(a)(b)),坦克的各個精細結構都可檢測并且得到準確定位,其置信度都在0.8以上,滿足檢測要求;在遮擋超過70%時(圖5(c)),對于人眼幾乎難以分辨的目標,其置信度也會高于0.6,并且能對目標準確定位。可見CNN模型有較強的魯棒性。
為了進一步對模型的魯棒性進行檢測,將目標數量增加,檢測結果見圖7。

圖7 增加目標數量后的檢測結果
由圖7可得:對于更多的檢測目標,該模型同樣能準確地將目標檢測出來,具有強的魯棒性。與目前較先進的目標檢測方法進行比較,結果見表2。

表2 2種方法檢測精度結果比較 %
本文提出了一種基于深度學習算法的深度卷積神經網絡結構對復雜背景下的目標進行檢測的方法。針對復雜背景下的目標有不同程度的遮擋和偽裝使其難以識別的問題,應用CNN可提取圖像精細特征、可自主學習的特點,實現了對目標進行準確定位和識別的功能。基于互聯網數據庫進行試驗驗證,結果表明:該方法在目標遮擋嚴重的情況下仍具有較高的有效性和魯棒性,平均檢測精度達到82.6%,較傳統模式識別方法的檢測精度有了較大提高。隨著計算機處理器的發展,深度學習在圖像處理和目標檢測等領域將會獲得更為廣闊的應用和實踐。
參考文獻:
[1] 吳益紅,許鋼,江娟娟,等.基于LBP和SVM的工件圖像特征識別研究[J].重慶理工大學學報(自然科學),2016,30(1):77-84.
[2] 雍歧衛,喻言家.基于無人機巡線圖像的地面油氣管道識別方法[J].兵器裝備工程學報,2017,38(4):100-104.
[4] 王燕霞,張弓.基于特征參數稀疏表示的SAR圖像目標識別[J].重慶郵電大學學報(自然科學版),2012,24(3):308-313.
[5] 聶海濤,龍科慧,馬軍,等.采用改進尺度不變特征變換在多變背景下實現快速目標識別[J].光學精密工程,2015( 8):2349-2356.
[6] 周柯.基于HOG特征的圖像人體檢測技術的研究與實現[D].武漢:華中科技大學,2008.
[7] UIJLINGS J R R,KEAVD S,GEVERS T,et al.Selective Search for Object Recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[8] HINTON G E,SALAKHUTDINOV R R.Reducing the Dimensionality of Data with Neural Networks [J].Science,2006,313(5786):504-507.
[9] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.
[10] RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[11] GIRSHICK R,DONAHUE J,DARRELL T,et al.Region-Based Convolutional Networks for Accurate Object Detection and Segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(1):142-158.
[12] GIRSHICK R.Fast R-CNN[C]//IEEE International Conference on Computer Vision.USA:IEEE Computer Society,2015:1440-1448.
[13] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(6):1137-1151.
[14] GIRSHICK R,DONAHUE J,DARREll T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//Computer Vision and Pattern Recognition.2014:580-587.
[15] EVERINGHAM M,GOOL L V,WILLIAMS C K I,et al.The Pascal Visual Object Classes (VOC) Challenge[J].International Journal of Computer Vision,2010,88(2):303-338.
[16] JIA,Yangqing.Caffe:Convolutional Architecture for Fast Feature Embedding[J].Eprint Arxiv,2014(6):675-678.