逄晨曦,李文輝
(吉林大學 計算機科學與技術學院,長春 130012)
目標檢測[1]在實際生活中應用廣泛,如交通領域[2]的車牌字符識別、無人駕駛[3]、交通標志識別[4]、障礙物檢測、腫瘤圖像檢測[5]、病變檢測、健康管理、指紋識別、人臉識別[6]等.傳統(tǒng)目標檢測算法主要采用HOG(histogram of oriented gradients)[7]和DPM(deformable part model)[8]提取特征.Viola等[9]首次使用滑動窗口檢測方法實現了實時人臉檢測.HOG特征描述器最初由Dalal等[10]提出,但HOG難以處理遮擋問題,并且DPM無法適應大旋轉,穩(wěn)定性差,過于依賴人工干預,識別率相對較低.
近年來,隨著深度學習技術的發(fā)展[11-13],目前用于圖像識別與分析研究的深度學習模型主要有卷積神經網絡(convolutional neural networks,CNN)[14]、深度置信網絡(deep belief network,DBN)[15]和堆棧自動編碼器(stacked auto-encoders,SAE)[16]等.卷積神經網絡在檢測精度和速度上優(yōu)于后兩種方法,性能更優(yōu),因此受到越來越多的關注.
Girshick[17]提出了Fast R-CNN(faster regions with CNN)探測器; Ren等[18]提出了更快速的區(qū)域卷積神經網絡探測器.從R-CNN到Faster R-CNN引入了RPN(region proposal network),雖然解決了Fast R-CNN的檢測速度緩慢,但在后續(xù)的檢測階段仍存在計算問題.Faster R-CNN是兩階段算法中的代表性算法,與單階段檢測方法相比,需要多次運行檢測和分類過程,速度較慢.
單階段檢測算法直接從網絡中提取特征對對象的分類和定位進行預測處理,代表性的算法有SSD(single shot multiBox detector)[19]和YOLO(you only look once)[20-21].SSD算法是一種通過直接預測目標的包圍盒坐標以及類別檢測目標的對象檢測算法,可通過不同分辨率卷積層的特征圖,檢測不同大小規(guī)格尺度的物體.與Faster R-CNN相比,YOLO未顯示區(qū)域提取的過程.在Faster R-CNN中,雖然區(qū)域建議網絡[22]和Faster R-CNN共享卷積層,但在模……