淺談深度學習在目標檢測中的發展

2017-05-30 18:05:55李美玲

科技風 2017年24期

摘要：隨著人工智能技術的飛速發展，汽車自動駕駛、無人零售商店等應用正在轉變為現實，視頻目標檢測是人工智能領域中的一個研究熱點，當前基于深度學習的目標檢測技術已取得許多進展，本文對當前主流目標檢測技術進行總結，指出以區域提名為思想和以端到端學習為思想的兩大深度學習目標檢測方法，同時，重點分析各自的優勢和缺點。

關鍵詞：目標檢測；區域提名；端到端；深度學習

目標檢測是計算機視覺領域的重要應用之一，深度學習算法在目標檢測方面已經取得了重大進展[1]。目標檢測可以概述為一個分類問題，目的為識別圖像中存在的所有物體對象，并且能夠獲取對象的確切位置。

本文總結了當前主流的目標檢測算法，重點分析以區域提名為思想和以端到端學習為思想的兩大目標檢測方法，指出各自的優勢和缺點，最后分析當下目標檢測面臨的問題和發展趨勢。

1 基于區域提名的目標檢測

區域提名，即為確定圖像中物體對象所在位置而預先提出候選區域的方法。當前主流的基于區域提名的目標檢測算法有：RCNN、SPPNet、Fast RCNN、Faster RCNN等。

1.1 RCNN

Ross Girshick于2014年提出的RCNN算法為深度學習轉向目標檢測領域的首次突破，并且獲得年度最優目標檢測算法[2]。RCNN改變了目標檢測的傳統思想，后續許多文獻均以此作為改進。以下為其主要算法步驟：

1）區域提名：從原始圖片中使用選擇性搜索算法提取大概2000個候選區域；

2）歸一化處理：所有候選框均被縮放成統一的尺度，原文為227×227；

3）特征提取：通過預先訓練好的CNN網絡提取候選框的特征表示；

4）分類及回歸：特征層之后銜接兩個全連接層，用SVM作分類，并使用線性回歸微調邊框的大小與位置。

RCNN雖然在目標檢測mAP結果上有了新的提升，但存在候選框數量眾多且重復計算導致計算量大、SVM模型需進一步優化、算法各個步驟的中間數據需單獨保存致使硬盤占用大、檢測運行速度極為緩慢等的缺點。

1.2 SPPNet

SPPNet為基于RCNN改進的具有更快速度的目標檢測算法[2]，其提出了一種空間金字塔池化層，主要是為了解決RCNN中候選框需被縮放成統一大小而導致物體拉伸變形嚴重的問題。其對RCNN的改進主要體現在步驟2）與步驟3），SPPNet將步驟2）中候選區域邊長縮放至長、寬的最短邊，即固定了長、寬的最短邊長度；對于步驟3）則在CNN的卷積層與全連接層中間添加了空間金字塔池化層。而其他方面仍與RCNN一致，故依然存在不少的缺點。

1.3 Fast RCNN

針對RCNN和SPPNet存在的缺點，Ross Girshick于2015年提出了Fast RCNN[2]，主要的改進地方為：首先通過CNN得到整張圖片的特征層，之后把所有候選框投影至1）得到的特征層，這樣可以共享特征層，以達到節省計算的目的；此外，使用一種稱為RoIPooling的簡化SPP層，用以提取特征層上各個候選框的固定維度的特征表示；在分類及回歸方法上，則不再使用SVM模型，而改為用SoftMax作分類，以多任務學習的方式同時進行分類和回歸。

Fast RCNN不再需要額外硬盤存儲訓練和測試各步驟的中間值，其測試速度相較于RCNN提高了213倍，相較于SPPNet提高了將近10倍。

1.4 Faster RCNN

雖然SPPNet和Fast RCNN的出現大大降低了目標檢測的運行時間，但所采取的區域提名方法仍然是速度提升的瓶頸。針對該問題，Faster RCNN[2]直接利用RPN網絡提取候選框，區域提名、分類、回歸等操作一起共用卷積特征，進一步提升了速度。

2 基于端到端學習的目標檢測

端到端學習為無需預先提取區域候選框的一類目標檢測方法。目前該方法的代表為YOLO[3]、SSD[3]。

2.1 YOLO

YOLO簡化了目標檢測的整個流程，視頻幀圖像被縮放至統一尺度大小的圖像，分為S×S個格子，每個格子需要預測B個包含物體的矩形框的信息和C個類別的歸屬概率值，每個矩形框包含4維坐標信息和1維目標置信度，則每個格子輸出5×B+C維向量。YOLO整合了目標判定和識別，運行速度有了極大的提高。

YOLO的優勢在于檢測速度快、背景誤檢率比RCNN等要低、支持對非自然圖像的檢測；但是存在的缺點有：物體定位誤差大、落入同一格子的兩個物體只能檢測得其一。

2.2 SSD

由于YOLO網絡的S×S網格的粗糙劃分導致了回歸的目標位置誤差較大，SSD借鑒了區域提名的思想作出改進，使用與Faster RCNN類似的RPN網絡，不同的是SSD在CNN的多個特征層上使用RPN之后再作分類和邊框回歸，原圖上小物體的檢測也能有較準確的檢測結果。

與YOLO相比，SSD仍能保持快速的檢測速度，并且改進了小物體的定位精確度。

3 結語

隨著數據類別和容量的不斷增大，如何設計泛化能力更強的有效卷積神經網絡將會是一個難點，此外，融合不同層之間的特征，形成更有效的特征表示也是亟待解決的。

本文重點分析以區域提名為思想和以端到端學習為思想的兩大目標檢測方法，前者優點在于檢測效果更佳，而后者的運行速度更快。盡管目標檢測仍有許多需要完善的地方和挑戰，但當前深度學習技術已使目標檢測邁入新的發展道路。

參考文獻：

[1]盧宏濤，張秦川.深度卷積神經網絡在計算機視覺中的應用研究綜述[J].數據采集與處理，2016，31（1）：117.

[2]萬維.基于深度學習的目標檢測算法研究及應用[D].電子科技大學，2015.

[3]張慧，王坤峰，王飛躍.深度學習在目標視覺檢測中的應用進展與展望[J].自動化學報，2017，8（43）：117.

作者簡介：李美玲（1988），女，廣東廉江人，本科，主要從事通信工程和樓宇智能化工程技術的教學工作。