交通場景中改進SSD算法的小尺度行人檢測研究

2022-01-25 18:55:00汪慧蘭王桂麗

計算機工程與應用 2022年2期

汪慧蘭，戴舒，劉丹，王桂麗

安徽師范大學物理與電子信息學院，安徽蕪湖 241000

行人檢測技術能有效減少交通事故的發生，提高駕駛的安全性，是智能輔助駕駛系統中的關鍵技術，其中小尺度行人檢測問題一直以來也是目標檢測領域的研究熱點和難點之一[1-2]。隨著深度學習的迅猛發展，國內外研究學者先后提出了很多優秀的目標檢測算法[3-4]。其中基于兩階段的目標檢測方法中典型的R-CNN系列（R-CNN[5]、DRI-RCNN[6]、Fast R-CNN[7]以及Faster RCNN[8]等）在行人檢測方面能取得非常好的精度，但由于其自身會產生很多的冗余邊界框，導致其檢測時間比較久，很難滿足檢測系統實時性的要求。區別于R-CNN系列為代表的兩步檢測算法，YOLO是典型的單步檢測算法之一，舍去了候選框提取分支（Proposal階段），通過將輸入圖像劃分網格，并分別在每個網格設置多個默認候選框用于目標的置信度分類和邊界框坐標的回歸[9]。簡化了網絡結構，大大提高了網絡的運算速度，在保障目標檢測精度的前提下能滿足實際應用場景下實時性檢測需要。但是該算法對于小目標的檢測仍然存在漏檢和誤檢的情況。

基于此，2016年底，Liu等提出了SSD算法——基于回歸的檢測過程中結合區域的思想[10]，采用不同尺度和長寬比的默認框，使得檢測效果較定制化邊界框的YOLO有比較好的提升。因此，SSD算法在提高MAP的同時兼顧速度，成為了基于深度學習的目標檢測領域發展的一個方向和可能的研究趨勢。為了進一步提高對小尺度行人目標的檢測，研究學者們以SSD為框架相繼提出了很多改進的算法，如2017年，Fu等提出的DSSD模型[11]，Li等提出的FSSD模型[12]；Jeong等提出的RSSD模型[13]等等。分析這些模型可知，它們主要是通過改進基礎網絡的架構來提高卷積神經網絡的特征提取能力，或者是將高低層特征進行有效的融合等方法來提高目標檢測算法的檢測能力，所以往往在提高目標檢測精度的時候犧牲了網絡的檢測速度，仍然無法滿足實時場景下的檢測要求。

綜上所述，針對道路交通場景中行人目標存在姿態多變、行人所處的背景環境復雜以及行人目標較小等情況，同時考慮精度和實時性檢測的需要，本文在保留SSD基礎網絡架構VGG16的基礎上，一方面通過引入新的卷積結構和檢測模塊來增強網絡的特征提取能力；另一方面采用Focal Loss函數[14]代替標準交叉熵損失函數，在保證檢測速度的同時，提高算法對道路交通中小尺度行人檢測的能力。

1 SSD算法的總體網絡結構

根據輸入的檢測圖像大小不同，SSD主要有SSD300和SSD500兩種網絡結構。如圖1是SSD300的總體網絡架構圖[9]。

圖1 SSD300的總體網絡架構圖Fig.1 Network architecture of SSD300

由圖1可知SSD300行人檢測過程的基本步驟：將大小為300×300×3圖像輸入主干網絡，可從預訓練好的基礎網絡中獲得大小不同的特征圖，同時將大小分別為38×38、19×19、10×10、5×5、3×3、1×1的Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2這6個卷積層的特征圖輸出。由這些特征圖的每個像素點分別構造出6個不同長寬比例的默認候選框，然后分別進行檢測和分類，生成多個初步符合條件的默認候選框，最后利用非極大值抑制方法篩選出符合要求的候選框，生成最終的檢測框集合，即行人檢測結果[15]。

較傳統的檢測算法使用頂層特征圖的方法，SSD使用了多尺度特征圖預測。如圖2（a）所示的多尺度行人目標，其8×8大小的特征圖如圖2（b）所示。淺層網絡輸出的特征圖較大，包含的像素點較多，每個像素點設置生成不同長寬比例的默認候選框，候選框尺寸較小，適合用來識別小目標（圖中藍色方框），對圖像中尺度較大的行人，占據圖像的比例要多，較小的默認候選框面對較大的目標，尺寸相差較大，不能有效地檢測到。隨著網絡的加深，特征圖通過下采樣操作，深層卷積輸出的特征圖尺度較小，如圖2（c）所示為4×4大小的特征圖。每個像素點生成的默認候選框尺寸較大，感受野變大，可以比較準確地檢測到尺度較大的行人目標。基于上述原因，網絡輸出多尺度的特征圖可以有效適應交通場景中存在的不同大小的行人目標，從而提高算法檢測的準確性。

圖2 多尺度行人目標特征示意圖Fig.2 Multi-scale pedestrian target feature map

2 改進SSD網絡模型的搭建

由以上分析可知，SSD網絡通過不同的卷積層輸出多尺度的特征圖對不同大小的目標進行置信度分類和邊界框的回歸。但卷積核對目標提取的特征不夠充分，特征圖包含如邊緣或色塊等較多低級特征，目標的語義信息不夠豐富，分類的信息量較少，導致對交通場景中小尺度的行人目標檢測效果還是不夠理想。基于此，針對道路交通中小尺度行人目標，本文在傳統SSD基礎網絡架構VGG16的基礎上結合Inception模塊中稀疏連接，通過優化主干網絡的卷積結構，將檢測模塊采用殘差塊結構，并引入Focal Loss函數作為分類損失。搭建的改進SSD網絡模型如圖3所示。

圖3 改進后的SSD網絡模型Fig.3 Improved SSD network model

由圖3可知，SSD網絡模型具體的改進如下：

（1）將卷積層（Conv4-3）和卷積層（Conv7）采用優化的卷積模塊，其他輸出卷積層保留原有的結構。

（2）將負責預測的3×3的卷積核采用殘差模塊的網絡結構，用RB（res block）指代。

（3）引入Focal Loss函數作為分類損失。

2.1 優化的卷積模塊

由于交通場景圖像中行人目標所占據的區域比例通常不同，用一種尺寸的卷積核進行卷積會造成對小目標行人有效特征的丟失。所以根據行人目標位置信息的差異，借鑒Inception網絡模型中的稀疏連接[16]和卷積分解思想[17]，在同一卷積層上并聯不同尺寸的卷積核，得到改進的卷積模塊結構圖如圖4所示。

圖4 改進的卷積模塊結構圖Fig.4 Improved convolution module

由圖4可知，如果輸入特征圖為19×19×512，可分成4個通道：（1）128個1×1的卷積核，輸出19×19×128；（2）128個1×1的卷積核，作為3×3卷積核之前的降維，變成19×19×128，再進行256個3×3的卷積（padding為1），輸出19×19×256；（3）24個1×1的卷積核，作為5×5卷積核之前的降維，變成19×19×24，再進行64個5×5的卷積（padding為2），輸出19×19×64；（4）pool層，使用3×3的核（padding為1），然后進行64個1×1的卷積，輸出19×19×64；對這四部分輸出結果并聯，即128+256+64+64=512。改進的卷積模塊結最后依然是512層，但是參數個數明顯減少了，從19×19×512=184 832變成了1×1×128+（1×1×128+3×3×256）+（1×1×24+5×5×64）+（3×3×512+1×1×64）=8 856，減小了幾個數量級。

因此卷積模塊結構中有4個通道，由1×1、3×3、5×5這3種尺度的卷積核構成。卷積后得到不同大小的特征圖。在不同的特征圖上用0像素進行填補（padding），就可以得到相同大小的特征圖，然后進行特征融合（concat）。由于5×5的卷積核所需要的計算量很大，所以在網絡結構中加入了1×1的卷積核進行降維，這樣不僅降低了維度，減少了計算瓶頸，同時也增加了網絡層數，提高了網絡的表達能力。

在一定程度上，網絡越深表達能力越強，性能越好。但隨著網絡深度的增加，梯度消散和梯度爆炸的問題嚴重影響網絡的訓練。所以，為了加快網絡的訓練速度，將卷積模塊融合殘差連接的思想，增加一條輸入到輸出的映射支路，從而進一步優化網絡結構[17]。

如圖5所示為本文所采用的優化卷積模塊結構圖。映射支路使用一個1×1的卷積核作為卷積層調整特征圖的維度，以便于更好地和主支路疊加融合。為了進一步優化網絡結構，降低網絡的計算量，將大尺寸的卷積核分解為對稱的小的卷積核，將5×5的卷積核替換成2個3×3的卷積核，降低了參數數量，減小了計算量。由結構圖可知，優化后的卷積模塊不僅增加了網絡的寬度，也提高了網絡對不同尺度目標的適應性，能更有效地提取到小尺度行人目標的特征信息。

圖5 優化后的卷積模塊結構圖Fig.5 Optimized convolution module

2.2 改進的特征圖檢測模塊

卷積神經網絡中不同卷積層輸出的特征圖具有的特征梯度幅值大小不同，相比較于淺層輸出的特征圖，深層特征圖包含較多的語義抽象信息，特征梯度幅值要小[18]。為避免淺層特征圖在進行預測候選框時產生較大的梯度幅值，影響網絡的訓練的穩定性，采用殘差模塊來代替3×3的卷積核，一方面可避免預測時產生較大的梯度幅值對網絡的訓練產生影響，另一方面可增加檢測模塊的網絡深度，增強網絡的特征表達能力，提高檢測的精度。殘差模塊中使用了1×1卷積模塊，能夠對通道數起到升維或者降維的作用，從而使3×3卷積以相對較低維度的輸入進行卷積運算，提高計算效率，改進的檢測模塊結構圖如圖6所示。

圖6 改進的檢測模塊結構圖Fig.6 Improved detection module

2.3 Focal Loss函數的引入

SSD算法在對6個不同尺度大小的特征圖生成的默認候選框進行分類和回歸時，從很多個大小、位置以及寬高比不同的默認框中，根據IOU重疊率生成正負樣本。根據默認框的生成原則可知，SSD的密集采樣可產生104~105個候選樣本，其中絕大多數為容易區分的負樣本，通常負樣本數量遠超正樣本的數量。正負樣本數的不平衡將導致損失函數在訓練時難以收斂，而且大量的負樣本，在訓練的過程中會主導損失函數和梯度的變化，影響模型的優化，甚至會造成網絡的性能嚴重退化。文獻[14]提出一種Focal Loss損失函數，如式（1）所示：

其中，pt為類別t的預測概率，(1-pt)γ是調制因子，γ為調制參數。若一個樣本被分錯，則pt會很小，則調制因子(1-pt)接近1，損失不被影響；當pt→1，因子(1-pt)接近0，則分得比較好的樣本權值就被調低了。

SSD網絡模型采用多任務損失函數，總體目標損失函數是定位誤差損失（locatization loss，loc）和置信度誤差損失（confidence loss，conf）的加權和。其中的分類置信度損失使用的是交叉熵損失函數（Softmax Loss），如式（2）所示：

從式（2）中可以看出，置信度的誤差包含正樣本的誤差和負樣本的誤差兩個部分。為了平滑地調整不同樣本的權重，本文引入Focal Loss函數代替標準交叉熵得到新的置信度損失函數，如式（3）所示：

其中，pi為第i個樣本被預測為正負樣本的概率，γ為可調制因子。當γ=0的時候，Focal Loss就是傳統的交叉熵損失，當γ增加的時候，調制系數也會增加，參數γ能平滑地調節易分樣本調低權值的比例。

3 實驗結果及分析

基于構建的如圖3所示的改進SSD網絡模型，實驗選擇加州理工大學提供的Caltech Pedestrian Benchmark數據集[19]，檢測對象是交通場景中不同尺度大小的行人目標，硬件顯卡為NVIDIA GeForce GTX 1080 GPU，系統的內存為64 GB，CUDA的版本為9.0。

3.1 損失變化曲線圖比較及分析

在訓練的過程中，利用tensorboard可視化工具動態監測網絡運行過程中損失值的變化情況。改進前和改進后的SSD算法損失變化曲線圖如圖7。圖中橫坐標表示網絡的迭代次數。縱坐標表示的是整個網絡結構在訓練過程中的損失函數的變化情況，最后期望趨近于0。

圖7 損失變化曲線比較圖Fig.7 Comparison of loss change curves

由改進前SSD算法損失變化曲線圖7（a）可知，紅色曲線為損失曲線，在前幾百次的迭代中損失函數值較大，之后驟然下降到15附近，當訓練迭代到30 000次時，學習率衰減百分之十，損失值緩慢下降，到達90 000次迭代時，學習率又會在前一個學習率的基礎上衰減百分之十，學習速率變慢，損失函數值小幅度減小。100 000次以后，損失函數的值基本不再減小，趨于穩定值12左右。觀察改進后的SSD網絡模型損失變化曲線圖7（b）可知，在接近幾百次的迭代后，損失從一開始25.8下降到10附近，之后損失值緩慢下降趨近于數值8，并且在8附近輕微震蕩，到達150 000次迭代的時候基本趨于穩定。

基于以上將改進前后的SSD目標檢測算法在不同的迭代次數時損失變化曲線進行客觀分析可知，由于Focal Loss損失函數可通過調制因子調整樣本的權重，對于預測概率高的簡單易分樣本，通過將調制因子(1-pi)γ的大小設置為合適的數值，本文通過實驗驗證取γ=2。使其在整個損失中所占的權重大大減少，相反對于預測概率較低的難分樣本，增加其在整個損失中所占的比重，使得反向傳播的梯度也變得越大。這樣損失函數能夠更加關注于包含更多有用信息的困難樣本，解決訓練過程中正負樣本不平衡的問題，使得改進后的網絡在訓練過程中，損失下降更加迅速，網絡收斂較快，且穩定后的損失值更小。從而驗證了改進的SSD行人檢測方法訓練過程更加穩定、更有效、收斂更快。

3.2 行人檢測結果分析與比較

為進一步直觀評估改進行人目標檢測的性能，將改進的SSD算法分別與當前較為流行的YOLOv3、YOLOv4、SSD算法進行比較。將測試集分別輸入到訓練好的四種網絡模型中，為了保證數據的比較性，模型均以VGG16作為基礎網絡，且按照迭代訓練12萬次時或滿足收斂條件時訓練停止，保存模型的最終權值，得到四種行人目標檢測算法對測試集中對行人樣本的檢測結果，檢測部分結果分別如圖8~圖11所示。

圖8 YOLOv3行人目標檢測結果Fig.8 Pedestrian detection results of YOLOv3

圖9 SSD300算法行人目標檢測結果Fig.9 Pedestrian detection results of SSD300

圖11 改進的SSD算法行人目標檢測結果Fig.11 Pedestrian detection results of improved SSD

觀察以上行人檢測結果圖可知，總的來說，當道路交通場景中行人目標存在大量重疊、光線較暗和目標行人像素較模糊、行人目標尺度過小以及相似背景干擾等復雜多變的情況，以上四種檢測算法都能夠有效地檢測到交通場景中的目標行人。但具體地分析，當圖像中的行人目標較小、大量重疊時，或者光線較暗、行人目標像素較模糊時，從圖8~圖10檢測結果可知YOLOv3和SSD算法的檢測結果相當，但比YOLOv4效果要差，但三種模型對于小目標都出現較嚴重漏檢和誤檢現象。

圖10 YOLOv4行人目標檢測結果Fig.10 Pedestrian detection results of YOLOv4

從圖11可知，改進后的SSD算法對小目標和重疊目標檢測精確度更高，原因在于將傳統SSD網絡中卷積層（Conv4-3和Conv7）采用優化的卷積模塊，將負責預測的3×3的卷積核采用殘差模塊的網絡結構，使網絡模型的泛化能力更好，抗干擾能力更強，從而可以有效應對在實際場景下的運動模糊和光線較差等不良因素。即使在復雜的道路交通背景下，特別針對小尺度目標行人的檢測效果可知，基于本文改進的SSD目標檢測模型，仍能順利地檢測出測試集中存在的行人目標，并且檢測到的目標個數更為準確，檢測框的位置更為精準，與真實目標邊框的重疊率更高，證實了本文提出的改進算法在真實目標場景下，對小尺度目標行人具有更好的魯棒性，從準確率優于其他幾種檢測算法。

3.3 檢測性能對比分析

基于Caltech行人數據集對2 000張行人樣本測試識別結果的準確率、召回率、平均準確度及速度進行比較。設檢測結果取真陽性(TP)、真陰性(TN)、假陽性(FP)、假陰性(FN)四種結果中的一種。則準確率AP表示正確預測的樣本占所有樣本的比重：

召回率R表示所有正樣本中被正確預測的比重：

平均準確率MAP表示對行人檢測類別的AP的平均。

分析表1數據可知，YOLOv4相對于YOLOv3在準確率上提升了近10個百分點，然而速度并幾乎沒有下降。SSD300在速度上比YOLO系列慢，但檢測準確率提高。YOLO系列和SSD300在準確率和速度上各有優勢，但兩者不能兼顧。本文改進的SSD檢測算法相比較于YOLOv4和SSD300行人檢測算法，可在速度上與SSD300相當的情況下，準確率進一步分別提升了2.1個百分點和2.8個百分點，召回率分別提升了6.7個百分點和6.2個百分點，平均準確率分別提升了4.3個百分點和5.5個百分點，說明卷積層結合稀疏連接來優化卷積結構對圖像特征的提取能取較好的效果，檢測精度得到了明顯提高。從檢測速度上分析，本文提出的基于改進的SSD算法也能達到了58 frame/s，能滿足實時性要求，這得益于利用殘差結構減少了卷積結構的參數和Focal Loss函數的引入，因此在提高算法檢測精度的同時可以滿足道路交通場景下小尺度行人目標的實時檢測需要。

表1 四種網絡模型的性能指標對比Table 1 Performance index comparison of four network models

4 結束語

為滿足交通場景中行人目標檢測算法對于檢測實時性和精確度的要求，本文在傳統的SSD網絡模型的基礎上提出了一些改進，首先在主干網絡的Conv4-3和Conv7兩個卷積層結合Inception模塊中的稀疏連接，提高卷積結構對圖像的特征提取能力，增加特征圖中小目標的語義信息；其次檢測模塊采用殘差結構代替傳統的3×3大小的卷積核，對輸出的特征圖進行分類和位置的回歸，來進一步提高對小的行人目標的檢測精度；最后采用Focal Loss函數來代替softmax標準交叉熵損失函數，解決訓練過程中的正負樣本不平衡的問題，提高網絡的收斂速度。但行人檢測技術所涉及的研究課題具有一定的廣度和深度，本文算法所做的研究工作仍有待于進一步地完善，還有一些問題值得深入學習和探究。

（1）本文基于以VGG16為主干網絡的傳統的SSD網絡模型為基礎，做出相應的改進，旨在提升算法的檢測性能，同時與其他優秀的算法相比較，在公共數據集上通過大量實驗驗證了本文改進算法的合理性和有效性。但是算法的檢測速度還有很大的提升空間，可以在網絡結構的優化方面進一步做出努力。考慮到網絡模型的參數量巨大，可通過對網絡進行輕量化，縮小模型，提高網絡的運行速度，以取得更好的精度與效率。

（2）一個性能優越的深度神經網絡模型，離不開豐富的訓練樣本圖像，所以，制作數據集時不僅要考慮到訓練樣本集的質量是否符合要求，提高樣本的數量也是至關重要的。在不改變圖像類別的情況下，增加數據量，能提高模型的泛化能力。