改進的SSD算法及其在目標檢測中的應用

2021-09-15 11:20:28李孟洲李浩方馬軍強

計算機應用與軟件 2021年9期

張震李孟洲李浩方馬軍強

(鄭州大學電氣工程學院河南鄭州 450001)

0 引言

隨著互聯網儲存大量的數據，計算機擁有強大的運算能力以及國內外在深度學習取得多方面的突破，目標檢測也應運而生。Girshick等[1]在2014年提出R-CNN促使深度學習在目標檢測領域飛速發展，緊接著SPP-Net(Spatial Pyramid Pooling Networks)、Fast-R-CNN[2]、Faster-R-CNN[3]、YOLO[4-5]、YOLO2、SSD[6]、DSSD[7]等也進一步促進了目標檢測的發展。目前，目標檢測已應用于多個領域，也成為當前的研究熱點。

近年來，深度學習在目標檢測衍生出來的主流算法大致分為兩類。一類是基于R-CNN展開的各種算法，主要包括Fast-R-CNN、Faster-R-CNN、Mask-R-CNN、RFCN[8]；另一類則為YOLO、YOLO2、SSD等。其中第一類會先進行區域選取(region proposals)，再對所選區域進行分類(classification)。第二類則是直接將產生的proposal同時進行了regression+classification。因此，第二類相比于第一類在速度方面更占優勢，但是精確度(Precision)和召回率(Recall)皆有所下降。

Fast-R-CNN是在SPP-Net基礎上進行了改進，并將它嫁接到VGG16上所形成的網絡，將SPP改成RoI Layer pooling層，通過Softmax Classifer和Bounding-Box Regressors聯合訓練的方式來更新所有參數，實現了整個網絡端到端的訓練；Faster-R-CNN與Fast-R-CNN最大的區別是融合了一種新的網絡RPN(Region Proposal Network)來替代之前的search selective；Mask-R-CNN主要是對Faster-R-CNN的輸出進行了改進，增添了一個新的輸出object mask；RFCN與Faster-R-CNN的網絡結構不同之處在于不再以VGG16作為基礎網絡，而以ResNet為基礎網絡。YOLO使用了全新的訓練方式篩選候選框—采用整圖的方式來訓練模型，并且可以一次性預測多個Box的類別和位置；YOLO2在YOLO的基礎上去掉了網絡與類別的預測綁定在一起，也使用了anchor box模式，更多地使用了卷積來代替全連接網絡，并增加了BN算法，同時提升了網絡的入口分辨率，去掉最后的池化層，保證有更好的分辨率；SSD則是在YOLO的基礎上融合了RPN，與以上各種算法相比，綜合性能優異，但是小目標檢測與識別效果低一直都是SSD難以擺脫的缺點，文獻[7,9-11]也證實了這一點。

目前，針對SSD對小目標識別率低的問題提出了FSSD(Feature fusion Single Shot multibox Detector)、DSSD(Deconvolutional Single Shot Detector)、R-SSD等。文獻[12-13]提出的FSSD，是一種SSD+FPN思想的結合，重新構造出一組新的特征金字塔，相比于傳統的SSD在小目標檢測與識別上具有更高的精確度；文獻[7]中DSSD是將SSD的基礎網絡由VGG16改為ResNet，并引入反卷積層用于傳遞信息，雖然也提高了識別小目標的準確率，但是降低了識別速度，實時性變差；文獻[14]提出的R-SSD則是通過增加不同層feature map的聯系以及feature map的個數來提高檢測小目標的識別率。本文則提出輕量級網絡融合+層級特征融合的方法來解決SSD對小目標識別率低的問題。

1 SSD目標檢測

SSD是Liu等[6]提出的一種目標檢測算法，它在YOLO的基礎上融合了RPN的思想，在不同的卷積層所輸出的不同尺度的卷積結果(Feature Map)上面畫格子，在多種尺度的格子上提取目標中心點。雖然改善了算法中每個網絡預測的物體個數是指定的，容易造成遺漏(如指定檢測2個，但是實際有3個)和算法對物體尺度相對比較敏感，對尺度變化較大的物體泛化能力較差的缺點，但是，仍然存在著容易漏檢小目標、重復檢出多個邊界框的問題。

1.1 傳統SSD的模型結構

SSD使用的是一種基于VGG 16改進的模型結構，其使用了Conv4_3、Conv_7(FC7)、Conv6_2、Conv7_2、Conv8_2、Conv9_2六個不同特征圖來檢測不同尺度的目標，低層主要用于預測小目標，而高層則用來預測大目標，能夠直接預測目標的位置和類別，同時也能夠大大提高檢測精度，SSD算法的網絡結構如圖1所示。

圖1 SSD算法的網絡結構

1.2 傳統SSD的損失函數

SSD的損失函數包含用于分類的log loss 和用于回歸的smooth L1，即：

1.3 傳統SSD的缺點及改進

傳統SSD算法采用六個不同特征圖來檢測不同尺度的目標，其低層次的定位效果好但分類精度低，由于六個不同特征圖相互獨立，造成傳統SSD算法對小目標的檢測效果一般。針對以上問題，本文提出輕量級網絡融合+層級特征融合的方法來改進傳統SSD算法，其主要針對金字塔結構中的特征層進行融合以及對空洞卷積層輸出的結果依次進行求和，并將后邊所有輸出的求和與第一個輸出連接(Concatenate)起來，然后輸出結果。

2 改進的SSD算法

本文提出改進的SSD算法整體網絡結構如圖2所示，首先對Conv4_3、Conv_7、Conv6_2、Conv7_2、Conv8_2(簡記為ConvY_Y)這五個特征層進行卷積操作(由于Conv9_2特征層尺寸很小，包含較多的語義信息，故不需對其進行卷積操作)[15]。為了免去特征融合后再進行特征降維的操作，要求進行卷積操作后生成的Conv4_3_0、Conv_7_0、Conv6_2_0、Conv7_2_0、Conv8_2_0(簡記為ConvY_Y_0)的特征維數不能超過原始的特征維數[15]。然后將Conv4_3和Conv4_3_0、Conv_7和Conv_7_0、Conv6_2和Conv6_2_0、Conv7_2和Conv7_2_0、Conv8_2和Conv8_2_0這五對分別進行融合，依次得到Conv4_3_1、Conv_7_1、Conv6_2_1、Conv7_2_1、Conv8_2_1并與Conv9_2形成新的金字塔特征層[15]。之后對Conv_7_1、Conv6_2_1、Conv7_2_1、Conv8_2_1、Conv9_2(簡記為ConvY_Y_1)五個新特征層的空洞卷積層進行特征融合，依次得到Conv_7_2、Conv6_2_2、Conv7_2_2、Conv8_2_2、Conv9_2_2(簡記為ConvY_Y_2)，與Conv4_3_1形成最終的金字塔特征層[16]。

圖2 改進SSD算法的網絡結構

ConvY_Y_0相比于ConvY_Y具有更強的語義信息和更大的卷積特征尺度。此外，由于本文提出的卷積不改變補邊的特征尺寸，因此原特征圖的邊緣信息得到更好的保留。

本文基于層級特征融合的思想，對ConvY_Y_1的空洞卷積層輸出結果依次進行求和，并將后邊所有輸出的求和與第一個輸出連接(Concatenate)起來，得到ConvY_Y_2，然后與Conv4_3_1形成最終的金字塔特征層[15]。此方法與別的通過使用小的擴張參數來增加學習參數的一般方法相比，不僅操作更為簡單，而且解決了增加卷積結構復雜性的問題。

本文最終形成的金字塔特征層相比于傳統SSD算法的金字塔特征層增強了特征層的語義信息，并引入層級特征融合使得數據更加連續，最終達到改善SSD算法對小物體識別率低的問題。由于生成的特征層相比于最初的特征層，特征維數沒有升高，特征圖的邊緣特征沒有損失，因此在特征融合時高層特征不僅不用調整尺寸，而且不用進行降維操作，相比于傳統的特征融合操作，本文采用的特征融合方法更具有優勢。

2.1 輕量級網絡融合策略

特征連接以及特征對應元素相加[7,10-12,17]是目前進行特征增強最流行的兩種特征融合方式，本文基于特征連接設計了一種輕量級網絡融合策略對傳統SSD算法的金字塔特征層進行特征增強。因為ConvY_Y_0不僅特征尺寸與ConvY_Y相同，而且前者的特征維數不高于后者，故可直接進行融合。

在進行特征融合時，如果x為輸入特征，f(x)為對x卷積操作，y為卷積后的特征，則y=f(x)，若令(x，y)為特征x和特征y首尾相連的操作，則相應的特征進行首尾相連的操作可表示為Fconcat=(x,y)，Fconcat為特征x和特征y首尾相連后得到的特征[15]。

特征元素首尾相連的特征融合如圖3所示，將卷積生成的ConvY_Y_0的特征維數統一設置為128維，低于ConvY_Y特征層的特征維數，然后將ConvY_Y與ConvY_Y_0直接串聯得到ConvY_Y_1，將這種特征融合稱為輕量級網絡融合[15]。

圖3 特征元素首尾相連的特征融合

2.2 層級特征融合策略

引入空洞卷積層可以增大卷積核感受野并保證層及特征信息不丟失，但是使用空洞卷積層會使卷積核操作數據不連續以及不能較好地識別小目標[16]。空洞卷積層結構表示為輸入通道、感受野、輸出通道，其中空洞卷積核的有效感受野為nk×nk，nk=2k-1(n-1)+1；k=1,2,…,K層級特征融合則是將空洞卷積層輸出的結果依次進行求和，并將后邊所有輸出的求和與第一個輸出連接(Concatenate)起來，然后輸出結果，可以解決上述空洞卷積層存在的問題[16]。此方法與別的通過使用小的擴張參數來增加學習參數的一般方法相比，不僅操作更為簡單，而且解決了增加卷積結構復雜性的問題，圖4表示為層級特征融合結構[16]，其中：左邊的d表示輸入通道；右邊的d表示輸出通道。

圖4 層級特征融合結構

2.3 網絡訓練策略

因為本文算法對應的金字塔特征層與傳統的SSD算法相差較多，所以不適合直接在已經訓練好的SSD算法模型上進行相應的修改。本文算法同樣以在ImageNet上訓練好的VGG16網絡作為基礎框架，在訓練本文算法時所采用的損失函數、對數據擴張的決策、挖掘決策困難樣本，以及提取每個特征層對應Box的長寬比率與傳統SSD算法相同。同時，訓練本文算法的學習率與傳統的SSD算法的學習率相同，IOU值設置為0.5。

3 實驗

本文算法主要針對于改進傳統SSD算法對小目標識別率低的問題，為了驗證本文算法的可行性，將其與傳統SSD算法在PASCAL-VOC2007小目標數據集上對mAP、每秒傳輸幀數進行對比。本文所采用的操作系統為Ubuntu14.04 ，在TensorFlow平臺上完成算法的訓練與測試工作，所使用的GPU型號為GTX1080 Ti 。由于設備原因，本文算法采取單GPU訓練，參數Batch size為16，相比于傳統SSD算法小了一半。

3.1 實驗步驟

本文算法首先以在ImageNet上訓練好的VGG16網絡作為基礎框架，然后在PASCAL-VOC2007的訓練集和驗證集上訓練本文算法，最后在PASCAL-VOC2007測試集上測試本文算法對小目標檢測的有效性。將本文算法的測試結果與傳統SSD算法的測試結果進行比較，得出本文算法可以提高對小目標的檢測精度。

3.2 PASCAL-VOC2007數據集的測試結果

PASCAL-VOC2007小目標數據集提供了20種類別的圖片，表1為VOC2007具體的物體類別。為了檢驗本文算法在小目標識別上的性能，在PASCAL-VOC2007數據集中挑選了154幅具有代表性的圖片來進行實驗。其中154幅圖片中涉及的物體類別有9種，包括aeroplane、bird、bottle、person、boat、dog、sofa、car、cat，對這154幅圖片進行相應的處理后，共計有1 308個標注物體的groud truth。分別對其用傳統的SSD算法、DSSD算法、DSOD算法、R-SSD算法，以及本文算法進行目標檢測實驗，傳統的SSD算法與本文算法部分場景下的檢測結果如圖5所示，其中：數字1表示飛機；數字2和數字3表示鳥；右邊的數字與精確度相關，數字越大，精確度越高。5種算法的檢測結果如表2所示。

表1 VOC2007數據集的物體類別

圖5 傳統SSD與本文算法對小目標檢測結果對比

表2 VOC2007數據集9類物體檢測結果

續表2

從圖5可以看出本文算法對檢測效果的改進，(a)和(c)為傳統SSD算法的檢測效果，可以得出其對近處物體以及較大的物體有較高的類別置信度，但是它的定位精確性需要進一步提高；(b)和(d)為本文算法的檢測效果，可以看出不僅提高了對小目標的檢測能力，而且對大目標的定位也更加精確。

從表2中可以得出本文算法對小尺寸物體(如bottle)的識別精度提升更大， mAP相比傳統SSD算法提高了0.078，比DSOD算法提高了0.008，比R-SSD算法提高了0.003，但低于DSSD算法0.009，是因為DSSD以ResNet-101為基礎網絡，雖然比VGG16網絡深、性能好，但是結構也更為復雜。從表3中也可看出DSSD犧牲了過多的檢測速度。

表3 VOC2007測試集每秒傳輸幀數指標測試結果

由于本文算法在進行特征融合時既不用調整尺寸，又不用進行降維操作，故本文算法的檢測速度可達81.5幀/s，遠遠高于Faster-R-CNN算法的7.0幀/s以及DSSD算法的9.5幀/s，且高于DSOD算法的17.4幀/s和R-SSD算法的16.6幀/s，相比較于傳統SSD算法的85.0幀/s，僅僅損耗了3.5幀/s，具體每秒傳輸幀數指標測試結果可見表3。

4 結語

本文提出輕量級網絡融合+層級特征融合的方法通過修改金字塔特征層來改進傳統SSD算法。在VOC2007的小目標數據集上對本文改進算法進行了測試，比傳統SSD算法的mAP提高了0.078，并且每秒傳輸幀數幾乎沒有降低。未來的工作主要針對參數壓縮、模型簡化來展開，以提高算法的實時性。