一種基于深度學習的新型小目標檢測方法

2017-11-01 17:14:41陳江昀

計算機應用與軟件 2017年10期

關鍵詞：特征提取特征區域

陳江昀

(浙江工業大學國際學院浙江杭州 310023)

一種基于深度學習的新型小目標檢測方法

陳江昀

(浙江工業大學國際學院浙江杭州 310023)

快速、精準的目標檢測方法是計算機視覺領域的研究熱點之一，目前通用的目標檢測模型主要包括兩個部分，候選區域提取和分類器設計?；诰矸e神經網絡CNN和超像素算法提出了一種新型面向微小目標的檢測方法。首先對目標圖像進行超像素過分割，然后提取過分割區域的特征并以此進行區域合并，最后提取候選區域。與傳統建議區域提取方法相比，本方法能夠在保證召回率的前提下大量減少候選區域的數量。為了克服小目標特征提取的困難，本算法利用多尺度和多層次CNN提取候選區域的中高層語義信息進行目標分類。通過對車輛年檢標示數據的實驗表明提出的基于超像素過分割候選區域提取算法具有較高的召回率，在同等候選區域數量的情況下與EdgeBox、Bing、Selective search等方法相比分別提高2%、2.4% 和3.5%，同時基于多層次多尺度的目標分類算法能有效降低誤檢率，提高檢測率。

目標檢測 CNN 超像素目標建議法

0 引言

微型目標檢測是計算機視覺研究領域的一大挑戰[1-3]。當前基于特征提取的目標檢測算法很難從小目標中提取到有用的且適合分類的特征，造成這種現象的原因有兩個，其一是由于小目標的尺度過小(30×30 pixel)，基于手工特征提取的算法(Hand-crafted)，例如SIFT[4](Scale-invariant Feature Transform)、HOG[5](Histogram of Oriented Gradient)和Haar-like[6-7]等，大多利用目標周圍的鄰域信息表達目標；其二是小目標本身的特征不夠明顯，容易受圖像噪聲的干擾而最終導致無檢測和漏檢測。當目標尺度變小時，其內部特征的連續性會變弱，而且提取到的特征的維度很低，極容易導致分類器出現過擬合現象。近年來，卷積神經網絡[8-11]在特征提取方面的出色表現，幾乎被利用于目標檢測和識別的各個領域。卷積神經網絡在尺度較小的目標特征提取方面也同樣表現出驚人的準確率，例如，應用與數字識別領域的LeNet[12]達到了當前最好的結果，表明卷積神經網絡在提取小尺度目標領域具有較強潛力。

影響提高目標檢測算法精度和效率的另外一個重要模塊是候選區域提取方法，相比于傳統的滑動窗方法(Window-sliding)，高效的候選區域提取方法能夠在不損失檢測算法檢測率的情況下大大提高檢測效率。當前有許多優秀的候選區域提取算法，其中Selective-search[13]、Bing[14]、Edgebox[15]在區域提取方面達到了當前最為先進的精度和效率，但是它們在提取小目標方面的表現并不理想，主要原因是該類算法大多利用邊緣信息作為候選區域提取的主要特征，而小目標一般沒有明顯的邊緣結構信息。為了提高小目標檢測算法的精度和執行效率，本文提出了一種結合超像素候選區域建議方法和多層次多尺度卷積神經網絡特征提取的目標檢測框架。

基于超像素的候選區域提取方法是通過利用超像素的過分割信息提取目標候選區域。首先將檢測圖像通過SLIC[16](Simple Linear Iterative Clustering)方法進行過分割，然后提取過分割區域的顏色信息和內部結構信息，將具有特征一致性的過分割塊融合為一體，作為目標候選目標區域，這種建議策略一方面會把具有特征一致性的背景信息聚類為一個區域，同時作為前景區域的目標則會被提取出來。另外,該方法可以通過尺度約束的方法濾除噪聲的影響，進而提取出數量較少質量極高的目標候選區域，降低了后續特征提取的計算量，提高算法的目標檢測效率。

為了有效表達小目標的本質特征，本文利用基于多尺度的卷積神經網絡特征作為目標的特征觀測。首先通過圖像金字塔的方式將目標區域進行上采樣和降采樣，然后將金字塔的每一層輸入到卷積神經網絡以提取特征。通過該方法提取到的特征既可對目標的尺度變化具有魯棒性，又可以利用卷積神經網絡的中間層特征豐富目標的特征表達。最后將提取的多層次多尺度卷積特征串聯輸入支持向量機[17](SVM)進行分類模型訓練，得到目標的觀測模型。檢測到的目標通過非極大值抑制的方法進行篩選確定。

1 檢測框架

高質量的候選區域提取方法是目標檢測效率和準確的保證，為此本文提出一種面向下目標檢測的候選區域提取算法，該算法相比傳統的方法具有以下優點:1) 能夠有效提取尺度較小的目標區域，并且能夠濾除噪聲的影響。2) 候選區域提取的準確度和精確度較高，提取的候選區域與目標的標注區域IoU約是傳統方法的1.5倍。3) 算法的執行效率高，算法主要是基于超像素過分割的低層特征提取候選區域，計算復雜度較低。本算法的測試數據主要是基于車輛年檢標志的檢測方面。算法流程如圖1所示。

圖1 算法流程圖

1.1 超像素分割

超像素是由一系列位置相鄰，顏色、亮度、紋理信息具有一致性的像素集合構成的圖像區域，近年來提出了很多基于超像素分割的算法，如圖割[12]和最大流最小割方法[18]等。該類方法都是通過超像素對圖像進行預分割，然后將通過超像素塊之間的特征關聯融合。本文選用算法執行效率較高的SLIC算法進行目標圖像過分割，選用該超像素算法的一個主要原因是超像素對區域邊緣具有極高的敏感性，能夠從像素層面捕捉小目標與背景之間的分界線。

1.2 超像素合并

超像素合并[19]的目的是為了減少超像素的數量，將可能是目標的區域提取出來，將背景信息融合并濾除，降低背景和噪聲在目標檢測和分類過程中的干擾。在超像素合并過程中我們綜合利用了每個超像素的顏色分布屬性、紋理特征和邊緣信息等三種信息作為特征。

1.2.1 顏色直方圖的距離

超像素之間的顏色直方圖的分布差異是檢測和計算超像素之間差異的最為簡單高效的方式之一，本文首先將RGB空間的超像素分布轉化到Lab空間，然后將每個顏色通道劃分為30個區間，分別計算L、a、b通道的顏色直方圖分布，得到一個90維的特征ci：

(1)

(2)

該距離值評估超像素之間的顏色分布差異的指標，dc越大表示超像素之間的相似度越高，距離越近。

1.2.2 紋理特征提取

紋理特征是評估兩個超像素塊之間內部結構分布的有效評價指標，反映的是目標內部結構分布的一致性程度，當前提取目標紋理信息的算法有很多，例如LBP(Local Binary Pattern)類[20]、GLCM(Gray-level Co-occurrence Matrix)類[21]、以及SIFT和HOG等。本文采用了在特征的表達能力較好和計算復雜度較低的LBP作為超像素之間的紋理特征表達。該算法不僅對光照變化具有較強的魯棒性，而且具有旋轉不變形和尺度不變性等優點。

(3)

1.2.3 邊緣距離

邊緣距離是衡量兩個超像素之間共有邊緣區域的差異，反映的是目標邊緣結構的相似度，假設兩個超像素區域spi和spj共享邊緣區域nb(i,j),然后得到邊緣區域的像素灰度值差pbk(i,j)，邊緣距離定義為：

(4)

由于邊緣檢測的計算復雜度較高，盡管邊緣提取是在超像素區域塊上進行，但是由于邊緣像素數量較高導致計算量較大，為了簡化計算我們利用ne(i,j)表示兩個超像素塊共有的邊緣像素數量，邊緣距離定義為：

dB(i,j)=ne(i,j)/nb(i,j)

(5)

dB(i,j)歸一化為[0, 1]，其值越大表示超像素塊之間的相似度越高。

1.2.4 候選區域提取

得到三個關于超像素距離之后，我們將綜合通過它們之間的加權線性組合作為兩個超像素之間的最終距離D(i,j)，并以此為標準進行候選區域生成。算法流程如圖2所示。

圖2 候選區域提取算法流程圖

(6)

式(6)中的θC、θT、θE分別表示顏色特征閾值，紋理特征閾值和邊緣特征閾值。ωC、ωT、ωE表示顏色、紋理和邊緣信息決定特征超像素塊的權重因子。然后通過迭代的方式融合超像素塊，迭代過程中生成的區域較大的塊表示背景信息，在小目標檢測過程中濾除，而區域過小的塊則被認為是噪聲同樣予以濾除。由式(7)得到的候選區域中心為(px,py)。

(7)

為了保證得到的候選區域的尺度大小和真實的車輛年檢標識具有相同的尺度，我們通過在5 000個標注了年檢標識的圖像中擬合兩個關于圖像長和寬與年檢標識長和寬關系的三次函數(如圖3所示)，用于逼近和預測任意尺度圖像中年檢標識目標的尺度。同時在處理年檢標識的形變方面，我們將提取的超像素候選區域進行3∶4、1∶1和4∶3的尺度重構，分類過程中將置信度最高的目標作為最終結果。

圖3 圖像長和寬與年檢標識長和寬關系

1.3 多尺度卷積神經網絡特征提取

本節的主要任務是提取出超像素候選區域的卷積神經網絡特征，并以此進行分類器訓練。利用傳統的手工特征提取小目標的特征(顏色特征，紋理特征，邊緣特征)是一項很難實現的工作，主要是因為小尺度目標本身缺乏自身特征，而且這些傳統的特征大多是基于統計的方法得到的，而像素數量較少的小目標在統計過程中缺乏信息支持，造成統計特征的不穩定。

卷積神經網絡是一種非線性特征自動提取方法，提取到的特征既包括低層次語義信息，也包括高層語義信息。來自不同層的卷積特征是對目標不同方面的特征表達，例如來自低層的卷積特征能夠表達目標類內特征，而來自高層的特征則能夠提取目標類間通用特征表達[22]，相比于低層特征對目標本身的變化不大明顯。同時為了處理小目標本身尺度的變化，本文將候選區域通過池化和插值的方式構成圖像金字塔，卷積神經網絡提取到的每一層金字塔的信息通過串聯的方式組合為高維特征，該特征基于處理目標尺度變化魯棒性特點。

提取候選區域卷積神經網絡特征的流程：首先通過超像素方法提取候選區域，將得到的候選區域重構成空間金字塔的形式，然后提取卷積神將網絡的conv_3和conv_5層卷積特征作為目標特征觀測。接著將不同層和不同尺度的特征串聯成一個高維特征，該特征不僅能夠處理目標尺度的不確定性，而且能夠從不同的特征水平表達目標的本質。用于提取目標特征的卷積神經網絡結構如表1所示，訓練的卷積核視覺圖如圖4所示。然后將卷積神經網絡特征輸入支持向量機分類器，求解支持向量用于目標分類。

表1 卷積神經網絡結構

圖4 卷積核視覺圖

2 實驗

目前沒有針對小目標檢測的公開數據集可用，因此本文制作了用于評測算法性能的數據集。該數據集圖像由48個路口伺服攝像機采集的視頻構成，通過隨機方式抽取20 000張圖像進行人工標注，標注的內容主要是路過公路卡口的機動車輛的年檢標示和機動車輛的車窗玻璃位置。該20 000張圖像中15 000張圖像提取到的52 000車輛年檢標識作為訓練集，余下的5 000張圖像作為檢測算法性能的測試集。

首先，為了評估本文候選區域提取方法的有效性，我們用Edge-box, Selective Search和Bing以及滑動窗的方式分別提取候選區域，然后計算不同方法的時間消耗和目標召回率，如圖5所示。為了測試我們特征提取算法的有效性，本文將HOG+SVM、LBP+SVM、HOG+LBP+SVM 以及 CNN+SVM作為對比試驗，檢驗本文提出的多尺度多層次卷積神經網絡特征的有效性。

圖5 目標召回率比較

2.1 區域建設法評估

本實驗對比Edge-box (EB)、Selective Search (SS)、Bing (B) and Sliding-window (SW) and the Super-pixel Based (SP)五種方法的在相同候選區域數量的情況下的目標召回率。橫坐標表示目標候選區域與標注區域不同的IoU指標，縱坐標表示在不同IoU情況下的目標召回率。結果表明本文方法SP的有效性。

本實驗結果表明，基于小目標的候選區域提取算法相比于其他區域建議方法具有更好的目標召回率，同時該算法提取的目標候選區域的時間消耗明顯低于其他方法，如表2所示，候選區域提取對比結果如圖6所示。

表2 算法耗時比較 s

圖6 候選區域提取對比結果圖

2.2 分類評估

為了比較不同的特征提取方法對小目標檢測的效果，本文設計了實驗，通過提取目標候選區域的LBP、HOG和卷積神經網絡特征(CNN)，然后統一將這些特征輸入到SVM分類器中訓練，通過計算LBP+SVM、HOG+SVM、LBP+HOG+SVM和CNN+SVM不同組合的目標檢測準確率和誤檢率衡量不同特征的性能，實驗結果，如圖7所示。該結果表明基于CNN特征的目標檢測算法流程在目標檢測精確率和誤檢率方面具有顯著的優勢。

3 結語

為了比較不同的特征，本文針對小目標檢測提出了一種超像素候選區域提取策略。該方法首先將目標圖像進行超像素過分割，然后利用超像素塊之間的顏色信息、紋理信息和邊緣信息的一致性融合超像素區域，得到高質量的目標候選區域，相比于傳統的目標建議區域提取算法在召回率和時間消耗方面具有顯著優勢。同時本文提出的基于卷積神經網絡的多層次多尺度特征提取方法能夠有效地表達小目標的本質特征，相比于傳統的手工特征提取方法大幅度提升了檢測算法的性能。本文提出的算法為小目標檢測一種行之有效的解決方案。

[1] Nordstr?m K,O′Carroll D C.Small object detection neurons in female hoverflies[J].Proceedings of the Royal Society of London B:Biological Sciences,2006,273(1591):1211-1216.

[2] Erhan D,Szegedy C,Toshev A,et al.Scalable object detection using deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:2147-2154.

[3] 葉斌,彭嘉雄.基于形態學Top—Hat算子的小目標檢測方法[J].中國圖象圖形學報,2002,7(7):638-642.

[4] Lowe D G.Object recognition from local scale-invariant features[C]//Computer vision,1999.The proceedings of the seventh IEEE international conference on.IEEE,1999,2:1150-1157.

[5] Dalal N,Triggs B,Schmid C.Human detection using oriented histograms of flow and appearance[C]//European conference on computer vision.Springer Berlin Heidelberg,2006:428-441.

[6] Mita T,Kaneko T,Hori O.Joint haar-like features for face detection[C]//Computer Vision,2005.ICCV 2005.Tenth IEEE International Conference on.IEEE,2005,2:1619-1626.

[7] Cho J,Mirzaei S,Oberg J,et al.Fpga-based face detection system using haar classifiers[C]//Proceedings of the ACM/SIGDA international symposium on Field programmable gate arrays.ACM,2009:103-112.

[8] Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector[C]//European Conference on Computer Vision.Springer International Publishing,2016:21-37.

[9] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems,2015:91-99.

[10] Ren S,He K,Girshick R,et al.Object Detection Networks on Convolutional Feature Maps[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015(99):1-1.

[11] Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.

[12] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[13] Uijlings J R R,Van De Sande K E A,Gevers T,et al.Selective search for object recognition[J].International journal of computer vision,2013,104(2):154-171.

[14] Cheng M M,Zhang Z,Lin W Y,et al.BING:Binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014:3286-3293.

[15] Zitnick C L,Dollár P.Edge boxes:Locating object proposals from edges[C]//European Conference on Computer Vision.Springer International Publishing,2014:391-405.

[16] Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods[J].IEEE transactions on pattern analysis and machine intelligence,2012,34(11):2274-2282.

[17] Cortes C,Vapnik V.Support-vector networks[J].Machine learning,1995,20(3):273-297.

[18] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on pattern analysis and machine intelligence,2000,22(8):888-905.

[19] Nordstr?m K,O′Carroll D C.Small object detection neurons in female hoverflies[J].Proceedings of the Royal Society of London B:Biological Sciences,2006,273(1591):1211-1216.

[20] Chen J,Kellokumpu V,Zhao G,et al.RLBP:Robust Local Binary Pattern[C]//British Machine Vision Conference,2013:122.

[21] Mokji M M,Bakar S A R A.Gray level co-occurrence matrix computation based on haar wavelet[C]//Computer Graphics,Imaging and Visualisation,2007.CGIV’07.IEEE,2007:273-279.

[22] Wang L,Ouyang W,Wang X,et al.Visual tracking with fully convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision,2015:3119-3127.

ANEWMETHODOFSMALLTARGETDETECTIONBASEDONDEEP-LEARNING

Chen Jiangyun

(InternationalCollege,ZhejiangUniversityofTechnology,Hangzhou310023,Zhejiang,China)

Accurate and fast object detection is one of the research topics in computer vision. At present, the general target detection model mainly consists of two parts, the extraction of candidate regions and the design of classifier. This paper innovatively proposes to apply convolutional neural network (CNN) and super pixel to the detection of a new small target. Firstly, we employed SLIC algorithm to over-segment the image. Then, we extracted the features of the over segmentation region and merged the regions. Finally, candidate regions were extracted. Compared with the traditional proposed region extraction method, our proposed method reduced the number of candidate regions on the premise of ensuring recall rate. To overcome the difficulty of feature extraction of small targets, our algorithm used multi-level and multi-layer CNN to extract semantic information of the middle and high level of candidate regions for target classification. Experiment on detecting vehicle inspection mark shows that our method achieves better recall rate (increased by 2%, 2.4%, 3.5%) compared with the state-of-the-art method including Bing, Selective search, and Edge box. Meanwhile, the multi-level and multi-scale target classification algorithm can effectively reduce the false detection rate and improve the detection rate.

Object detection CNN Super-resolution Object proposal

TP301.6

10.3969/j.issn.1000-386x.2017.10.040

2017-03-09。陳江昀，本科生，主研領域：計算機的人工智能與識別。

一種基于深度學習的新型小目標檢測方法

0 引 言

1 檢測框架

1.1 超像素分割

1.2 超像素合并

1.3 多尺度卷積神經網絡特征提取

2 實 驗

2.1 區域建設法評估

2.2 分類評估

3 結 語

0 引言

2 實驗

3 結語