孫 楠
(1.蘇州大學計算機科學與技術學院,江蘇 蘇州 215006;2.江蘇省計算機信息處理技術重點實驗室)
目標檢測是計算機視覺重要的研究領域之一,其主要針對圖像中目標位置的定位與目標分類的識別,是眾多高層次視覺語義任務的基礎。近年來,由于卷積神經網絡(CNN)的蓬勃發展,諸多先進的算法與模型已經被應用到目標檢測領域[1,2]。
本文在單階段檢測模型SSD 的基礎上進行優化。SSD 模型利用VGG-16 作為主干網絡,抽取若干特征層構建特征金字塔,采用先驗框的方式,對不同尺度的目標分別進行預測。其具有檢測速度快,對目標的尺度變化具有魯棒性,檢測精度高等特點。但是SSD依然存在不少問題,首先,盡管SSD 通過引入多尺度特征金字塔,使得其能檢測不同尺度下的目標,但卻不能很好地捕獲單一尺度下的語義信息,對于單一的某層特征,其往往具有非常局限的感受野。此外,SSD并沒有對目標定位與目標分類這兩種截然不同的特征進行區分,從而降低了模型對特定特征的敏感性,進一步降低檢測精度。
提高目標檢測精度有著重要的研究意義與應用價值[3]。為此,SSD 作者本人提出了DSSD[4],使用去卷積層的方式來加強淺層特征圖表征能力,對整個SSD模型精度有不小的提升,但由于加入大量反卷積操作,使得模型的檢測速率有所下降。
為了緩解SSD 模型的缺陷,本文做出如下改進:①將主干網絡換成表征能力更強的ResNet-50;②引入擴展融合卷積,改造特征金字塔,增強感受野;③增強預測器對目標的位置信息與類別信息的辨別能力。
本文對其進行如圖1 所示的改進。使用ResNet-50 作為主干網絡,以提高模型的表征能力。提取ResNet-50 中的三個特征層作為主干網絡對特征的提取結果,并添加四個被本文稱之為擴展融合卷積的模塊,以構建完整的特征金字塔。此外在分類器與回歸器之前引入殘差結構以增強預測器對目標的位置信息與類別信息的辨別能力。

圖1 FASSD模型結構圖
值得注意的是僅僅將VGG 替換成ResNet 并不能提升SSD 的準確度。經過相關消融實驗后發現,只是增強主干網絡的表征能力,SSD 仍然無法準確定位和識別這些特定的語義信息,導致SSD 的整體性能反而出現下降的現象。
本文引入一種新的方式去增強特征層的表達能力,稱為擴展融合卷積(Fusion Atrous Convolution,簡稱FAC),其改變了原有構建特征金字塔的方式。如圖1所示,該模塊是個三路結構,分別對輸入的特征進行最大池化,多組空洞卷積和普通卷積,卷積核的大小設置為3,直到最終特征圖尺寸為原先的一半,對三路特征進行拼接,最終使用1x1 的卷積對三路特征進行融合。該模塊在使用空洞卷積增強感受野的同時,使用普通卷積來彌補空洞卷積帶來的信息丟失,同時利用了最大池化的特性,增強主要特征。其有效增強SSD對單一尺度下的語義信息的提取。
原始SSD 中,送入分類器與回歸器的特征是相同的,但這兩者需要的語義信息卻截然不同,且隨著主干網絡的表征能力的增強,其語義信息也更加復雜,為了讓兩者能更有效的定位和識別特定的語義信息,本文對最后的預測模塊進行了改進。
本文在預測器前面增加了新的雙路殘差結構。如圖1 所示,特征被送入分類器(Cls)和回歸器(Loc)之前,會分別經過三個殘差塊,由于分類器需要的是目標的類別信息,而回歸器需要的是目標位置信息,因此本文修改了原始SSD 對兩種特征不加以區分的做法,將之拆分后,每組殘差塊只專注于對應的語義信息。其中殘差塊,由兩組3x3卷積加上BatchNorm與gelu激活函數組成,且保持前后通道數不變,尺寸不變。
整個損失函數是由置信度損失函數和位置損失函數組成,分別對應目標的分類與目標位置的回歸。整個損失函數表達式為:
其中,置信度損失函數為Lconf,位置損失函數為Lloc。c 代表類別置信度預測值,l 為預測框位置參數,g 為真實框參數。α 是權重參數,本文取值為1。x 代表預測框是否匹配真實框(ground truth),取值為1 或0,代表匹配或不匹配。
本文采用交叉熵置信度損失函數,其公式為:
由于正負樣本相差巨大,本文采用Hard negative mining 的方式選取負樣本,以確保正、負樣本的比例維持1:3[5]。
在對預測框的回歸中,使用參數化坐標進行回歸,其公式為:
為了增強模型的魯棒性,本文對原始數據集進行了數據增強(Data Augment)。采用類似的在線增強方法,對一組batch采用部分抽樣的方式進行隨機縮放與變形,并對色彩三通道進行輕微的抖動后,同時對大目標隨機引入高斯噪聲,該方法對防止過擬合比較有效。
本文實驗使用的圖像處理器驅動為CUDA11.2與Cudnn8.1,并在單張Tesla V100 SXM2(32GB)上進行。采用PASCAL VOC 數據集來訓練和評估模型性能,使用AP(Average Precision,即平均精度)作為評價指標。
在VOC 數據集上,采用mAP 的方式評估性能模型,mAP 是所有類別AP 值的平均值,并選擇交并比(Intersection over Union)為0.5 作為閾值,測量各個類別的AP值,計算mAP。表1展示了各種檢測模型和本模型在VOC07+12上的對比。

表1 不同SSD模型對比
其中SSD300*和SSD512*是SSD 采用了新的數據增強技巧所獲得的結果。在輸入大小同為512的情況下,本文模型的mAP 值超過SSD 模型7.6%,超過ISSD4%,相較于RSSD 和DSSD 也分別提高了1.7%和1%,且檢測速度也優于后者。
本文針對SSD 模型單層感受野局限,對不同特征的分辨能力不強的缺陷,提出了FASSD 模型,通過兩個優化策略來提高SSD 模型的精度,并在基準數據集上證明它的有效性。從實驗結果可以看出,本文模型對不同尺度的目標的檢測有著較大的提升,在檢測精度和檢測速度上都超越了很多以往的SSD 框架下的模型。