閆新慶 楊喻涵 陸桂明



【摘要】? ? 目標檢測是圖像處理領域一個重要的研究方向,深度學習方法需要大量數據進行訓練,訓練的繁雜和復雜的網絡結構限制了目標檢測的速度。本文基于Faster RCNN 的網絡架構,創新性提出了light tail Faster RCNN網絡架構。light tail Faster RCNN算法在保證精度的情況下,大大提升了處理速度。在本文的設計中,通過將網絡結構中的全連接層改為1*1的卷積層,來達到速度的提升。本文實驗在 PASCAL VOC 數據集上進行,較經典網絡模型,在識別率略低的情況下,速率提升了一倍多。在總體性能上顯著優于經典目標檢測算法,通過對比實驗的方法比較驗證了本文提出方法的有效性。
【關鍵詞】? ? 目標檢測? ? Faster RCNN? ? 深度學習
Abstract: Target detection is an important research direction in the field of image processing. Deep learning methods require a large amount of data for training, and the complex and complex network structure of training limits the speed of target detection. Based on the network architecture of Faster RCNN, this paper innovatively proposes the light tail Faster RCNN network architecture. The Light tail Faster RCNN algorithm greatly improves the processing speed while ensuring accuracy. In the design of this article, the speed is improved by changing the fully connected layer in the network structure to a 1*1 convolutional layer. The experiment in this article is carried out on the PASCAL VOC data set. Compared with the classic network model, the speed is more than doubled when the recognition rate is slightly lower.? The overall performance is significantly better than the classic target detection algorithm. The method comparison of the comparative experiment verifies the effectiveness of the method proposed in this paper.
Keywords: Target detection ; Faster RCNN ; Deep learning
引言
目標檢測與視頻分析和圖像理解有著密切的聯系,近年來受到了廣泛的關注。隨著深度學習的快速發展,人們引入了更強大的工具來解決傳統目標檢測中存在的問題,這些工具能夠學習到高層次和深層次的特征。
部位形變模型(DPM)及方向梯度直方圖(HOG)和尺度不變特征變換(SIFT)經常作為目標檢測的特征特征。但是傳統方法的特征一般都是由人工進行篩選的,是一些低層次的特征,有一些特征是針對特定對象的,比如說HOG特征主要是針對行人檢測提出的,針對不同目標需要人為的去選擇不同的特征,這就導致傳統算法的魯棒性不高,不能夠廣泛的應用到目標檢測算法中。近年來,隨著深度學習的大幅度發展,基于深度學習的目標檢測方法被大量研究。
基于深度學習的目標檢測方法可以分為兩個主要類別,第一種是應用回歸算法進行目標檢測,第二種是應用分類算法進行目標檢測。
基于回歸的目標檢測算法包括YOLO模型。YOLO模型直接在待檢測圖像上進行訓練,主要將圖像劃分成為一些網格,每個網格都檢測以網格為中心的目標,它是犧牲準確性來換取目標檢測速度的方法。
基于分類的目標檢測算法的典型代表是Faster-RCNN算法。文獻[3]中的算法主要使用卷積神經網絡通過搜索的方法選擇出待檢測圖像中的候選區來進行高層次的特征提取和表示,然后再采用分類算法進行目標識別。Faster-RCNN模型的誕生[7]提高 RCNN 模型的檢測精度和速度。
但是Faster-RCNN算法在目標識別階段用了好幾層全連接層來進行感興趣區的識別和回歸。就每個區域的預測而言,這是非常耗時的,當有大量的候選區域的時候,這種情況甚至會變得更糟。而且,特征通道數量較多,這就使得全連接層占用大量內存,并直接影響網絡的計算速度。
基于以上問題,本文基于Faster-RCNN算法,將感興趣區的識別和回歸中的全連接層進行了改進,提出了light tail Faster RCNN網絡架構。該網絡主要是通過將原本網絡結構中的全連接層改為1*1的卷積層,來達到速度的提升。
一、改進的Faster-RCNN算法
改進的目標檢測模型遵循Faster RCNN的相似深度學習框架,該框架已被證明是用于目標檢測的最新深度學習方法。該框架主要由區域候選網絡(RPN)和RCNN網絡組成。Faster RCNN的結構如圖1所示。
區域候選網絡主要用于生成可能包含對象的一系列感興趣區域(RoI)。快速RCNN網絡主要用于對目標(和背景)進行分類并細化那些區域的邊界。Faster RCNN通過兩個網絡共享特征提取過程獲得的卷積層參數,從而使該模型能夠以相對較快的速度完成目標檢測任務。
在本文的工作中,主要是基于Faster-RCNN算法,將感興趣區的識別和回歸中的全連接層進行了改進,提出了light tail Faster RCNN網絡架構,該框架結構如圖2所示。
如圖2所示展示的是改進Faster RCNN框架示意圖,該網絡主要是通過將原本網絡結構中的全連接層fc6和fc7改為1*1的卷積層,來達到速度的提升。由圖所示,原本的Faster-RCNN算法在目標識別階段用了好幾層全連接層來進行感興趣區的識別和回歸。就每個區域的預測和識別來說,這些全連接層是非常耗費時間的,當有圖像當中有大量候選區域的時候,浪費的時間會更多。不僅如此,如果特征通道數量較多,就會使得全連接層占用大量內存,從而直接影響到Faster-RCNN網絡的計算速度。
因此,本文將繁雜的全連接層改為1*1的卷積層,在精度略微損失的情況下,來達到速度的有效提升。本文第三部分通過實驗驗證了提出模型的有效性。
二、實驗驗證及分析
本文的驗證實驗在經典的開源數據集 PASCAL VOC2007 數據集上進行,改數據集共有21類不同的對象類別,并且包含 5000 訓練集樣本圖像和 5000 測試樣本圖像。本次實驗的硬件環境顯卡采用的是 NVIDIA Tesla K80,再軟件方面,操作系統采用 Linux Ubuntu 16.04 版本,實現語言采用 Python3.6,深度學習框架采用 TensorFlow 框架,實現卷積神經網絡模型,Faster RCNN 中的最大迭代值等參數對 m AP 的數值會產生較大的影響,為了得到較好的輸出,需要對這些參數進行優化。在本次實驗中,最大迭代次數為70000,并且調節相關參數記錄所提算法和對比算法的最佳結果。
如圖3所示,為實驗部分原圖和特征提取的特征圖。
如圖3所示,為數據集原圖和改進的Faster RCNN算法的特征提取示意圖,從圖中可以看出改進的Faster RCNN可以較好的提取目標的特征,從而實現目標檢測。
本文實驗在PASCAL VOC2007 數據集上將Faster RCNN算法和改進的Faster RCNN算法進行實驗,實驗條件保持一致,其mAP和實驗時間如表1所示,各個類別的識別精度如圖4所示。
實驗結果如上表1和圖4所示,在圖4中橙色代表采用Faster RCNN的識別結果,其mean AP為71.26%,運行時間為53698s;藍色代表采用本文提出的light tail Faster RCNN的mean AP為71.92%運行時間為25241s。從圖4可以看出大部分類別Faster RCNN的識別結果高于light tail Faster RCNN的識別結果。從整體上來看,雖然平均識別精度下降了0.66%,但是模型整體運行速度提升了一倍多,說明本文改進的方法light tail Faster RCNN模型在精度有略微損失的情況下大大加快了處理速度,說明本文創新型提出的light tail Faster RCNN算法的有效性。
四、結論
本文針對 Faster RCNN目標檢測算法訓練的繁雜和復雜的網絡結構限制了目標檢測的速度的問題,創新性的提出了light tail Faster RCNN網絡架構。該框架將網絡結構中的全連接層改為1*1的卷積層,來達到速度的提升。經PASCAL VOC 數據集上的實驗驗證,light tail Faster RCNN算法在略微損失精度的情況下,大大提升了處理速度,驗證了方法的有效性。
參? 考? 文? 獻
[1] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[2] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
[3] Shi K, Bao H, Ma N. Forward vehicle detection based on incremental learning and fast r-cnn[C]//2017 13th International Conference on Computational Intelligence and Security (CIS). IEEE, 2017: 73-76.
[4] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE computer society conference on computer vision and pattern recognition (CVPR05). IEEE, 2005, 1: 886-893.
[5] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 32(9): 1627-1645.