艾青林,楊佳豪,崔景瑞
(浙江工業大學 特種裝備制造與先進加工技術教育部/浙江省重點實驗室,浙江 杭州 310023)
隨著人工智能技術的發展,行人目標檢測在自動駕駛、安防監控領域都有廣泛的應用[1].現階段行人檢測系統大部分只對中大型行人目標具有較好的檢測效果,遠處的小目標行人容易被忽略.在自動駕駛領域中,大目標往往由小目標變化而來,及時準確檢測出小目標可以使汽車提前規劃路徑,避開行人.小目標行人檢測的挑戰主要源于小目標信息量少,包括小目標自身特征分辨率低、可利用特征少,并且在當前行人數據集中,小目標行人數量占比較少[2].在卷積網絡中,小目標對象在經過多次下采樣后會導致自身特征信息大量流失,故深層網絡往往難以提取足夠的小目標信息.內外特征融合網絡(inside-outside network,ION)[3]、亢奮特征網絡(hyper network,hyperNet)[4]能從不同尺度特征圖中提取特征并綜合預測以增加小目標的信息量.不同尺度之間往往存在大量重復計算及內存開銷極大的問題,因此如何有效提取足夠的小目標信息并保持較小的計算量在小目標行人檢測中至關重要.
Fan 等[5]在經典單階段目標檢測算法(single shot multiBox detector,SSD)的基礎上增加淺層特征并融合通道注意力模塊以獲取更多小目標行人的特征,該模塊幫助網絡提取更多關鍵特征信息并抑制無關信息的干擾.潘昕暉等[6]在改進的DarkNet53 中輸出104 ? 104 的特征層作為新添加的檢測層,使得模型對小目標物體的檢測能力大幅提升.然而以上增強淺層網絡的方式會導致整體模型過大,不利于自動駕駛實時性較高的場景.
對數據集進行數據增強操作可以在不增加模型推理計算量的情況下,提高檢測精度.Kisantal等[7]通過在圖像中對小目標多次復制粘貼來提高小目標樣本數量,但是該方法可能導致新生成的小目標背景大小與實際不符,甚至對網絡推理產生誤導.特征圖金字塔網絡[8](feature pyramid networks, FPN)通過將相鄰層的特征融合,可以做到僅提升少量計算量換取對小目標檢測精度的提升.加權雙向特征金字塔網絡(bi-directional feature pyramid network,Bi-FPN)[9]、循環特征金字塔網絡(recursive feature pyramid network,Recursive-FPN)[10]也被提出,這些網絡對小目標行人的檢測精度都有所提升.這些特征融合方式都存在容易融合噪聲的問題,檢測效果難以進一步提升,計算量也有所增加.
基于移動視覺網絡的單階段錨框網絡(single shot multibox detector, SSD)[11]是 SSD 算法的精簡版,該模型使用MobileNet-V2 網絡[12]代替SSD 骨干網絡VGG,雖然滿足了實時性要求,但是檢測精度有限,尤其對于小目標物體的檢測能力更差.針對以上對小目標行人檢測的問題,本研究從數據增強方面入手,根據射影幾何和消隱點、消隱線的性質,設計自適應增殖小目標生成方法.該方法能夠有效地在合理區域生成尺寸匹配的行人目標,增加了小目標行人的數量和種類,避免了傳統復制粘貼方法生成大小和背景不匹配的目標而誤導訓練.本研究采用改進的MobileNeXt 網絡[13]替換MobileNet 網絡,在MobileNeXt 的部分結構中基于通道分離與重排,改進沙漏結構并且添加小目標細節特征增強的坐標注意力機制.在網絡瓶頸層添加基于特征增強與重生成的上下文特征融合模塊,以充分利用上下文信息彌補小目標自身特征不足的缺陷,同時也能充分利用本研究自適應數據增強方法生成新目標的背景和尺寸信息.改進后的算法模型有效解決了MobileNet-SSD 精度低的問題,并且能夠滿足移動端目標檢測的實時性要求.
在行人檢測的數據集中,小目標行人樣本通常較少,并且自身的外觀特征較少[14],因此非常有必要進行數據增強.利用傳統的目標復制增強方法[7],可能會生成十分荒謬的圖像,如圖1 所示.生成的目標背景不匹配,行人可能在天上或在海里,這種背景的不匹配會導致產生更多的假陽性邊界框,誤導分類器;生成的行人大小可能過大或過小,這種大小的不匹配會使分類器在結合背景物體判斷目標類型時,產生尺度上的誤判.針對以上問題和需求,提出一種主要針對小目標行人的區域與尺度自適應數據增強算法,通過對已有目標仿射進行變換增殖來補充高質量的小目標行人樣本.
為了使復制增強后的目標位置合理,需要區分圖像中的行人可存在區域.一般的目標檢測數據集沒有區域分割的標注,無法判斷區域合理性,故需要對已有數據集進行標注,劃分行人可存在區域.對不同水平面上的行人可存在區域需要用不同標簽標注,標注后的效果如圖2 所示.

圖2 添加標注后的效果Fig.2 Effect after adding dimensions
為了使模型更好地利用數據增強后的目標上下文信息,避免復制增強后的目標錯誤尺寸影響分類器對目標種類的判斷,需要計算原目標在圖像中行人可存在區域內不同坐標處的大小,對目標進行復制粘貼并縮放,以符合其在圖片中的位置.
在相機投影模型中,三維世界中一組平行的直線在映射到二維的圖像上后,將會在二維平面內交匯于一點,該點稱為消隱點(vanishing points,VP).與消隱點類似,三維世界中的各個互相平行的平面在映射于二維圖像上時會交匯于一條直線,即消隱線.該直線上任意一點所引出的多條直線在三維世界中都互相平行[15].如圖3 中A、B、C這3 點即為消隱點,在計算圖像中不同對象相對大小時,通常使用三消隱點模型(three vanishing points model),即選用水平面上的消隱線BC與豎直方向上的消隱點A以分析.

圖3 三消隱點模型中豎直方向消隱點A 與水平方向消隱線BCFig.3 Vertical vanishing point A and horizontal vanishing line BC in the three vanishing points model
為了獲得圖像中的消隱點,采用基于極坐標的二線最小解集窮舉的消隱點檢測法[16].該方法的魯棒性較好,能夠應對消隱點數量不同的場景,同時時間復雜度較低,速度較快,窮舉也能達成一定精度內的全局最優,其過程如下.
1)使用線段檢測器(line segment detector,LSD)直線檢測法,檢測圖像中的直線段.
2)構建極坐標網絡.將平面坐標根據光心與焦距轉化成等效球體,建立以經緯度表示的極坐標,并以1°為間隔建立90×360 的網格空間.對于圖像中的每個線段對l1與l2, 計算其交點的網格權值:
式中: ?(?,λ) 為經緯度 ( ?,λ) 對應的網格結點的權值,初始值為0; θ 為2 條線段小于90°的夾角.通過式(1),長度更長、夾角更接近45°的線段對所對應的交點將被賦予更大的權值.
3)建立第1 個消隱點的最小解集(minimal solution set,MSS),假設所有線段中有50%屬于噪聲,則第1 個消隱點的選擇迭代105 次即可達到0.999 9 的置信度[16].根據正交約束可知,第2 個消隱點必定在第1 個消隱點的正交圓上.以1°為間隔在該圓上取360 個點,將360 個點作為每個第一消隱點對應的360 種第2 個消隱點可能.第3 個消隱點由前2 個消隱點的向量正交即可獲得.
4)對所有105×360 種消隱點組合計算其網格權值的和,選擇最高的一組,作為最終解.根據每條線段與每個消隱點的角度偏差,可以對每條線段進行分類.如圖4 所示為消隱點的檢測效果,不同線型的線代表其歸屬于不同的消隱點.

圖4 消隱點的檢測結果Fig.4 Detection result of vanishing point
在獲取圖像的消隱點后,可以計算目標復制到新坐標的仿射變換矩陣,如圖5 所示.已知空間中一條線段MN在平面P上的投影M′N′,若是將MN水平移動至EF處,使其投影末端M′點落在E′處,為了獲得移動后的投影另一端N′的位置,可在水平面P中找到該面的消隱線BC與豎直方向上的消隱點A.使E′M′交BC于點V,VN′交AE′于點F′,E′F′即為MN移動后在平面P的投影.設M點坐標為 (x,y) ,M′點坐標為 (x′,y′) ,可以獲得點V坐標,設其為 (xV,yV) ,同時,∠VN′M′與 ∠M′AE′也可以獲得,分別設為 α 與 θ ,則可得圖像移動后的大小縮放比例為

圖5 空間目標在平面上投影示意圖Fig.5 Schematic diagram of projection of space target on plane
式中:rscale為待復制目標移動后的大小縮放比例.
根據以上變換規律與縮放比例,可以得出目標復制后的仿射變換矩陣.對于目標內部,考慮到標記框的形狀與圖像投影關系無關,恒為矩形,且目標在圖像中占比通常較小,故不考慮目標內部的相對變換.對于任意目標,若底部中點坐標為 (x,y) ,則復制到任意一點 (x′,y′) 后,該目標內部任意一點K(m,n) 的變換可表示為
式中:k與k′分別為變換前后K點的齊次坐標向量,S為縮放矩陣,R為旋轉矩陣,t為平移向量.該仿射變換過程使用齊次坐標可以為
式中:m′和n′為K點變換后對應點的橫、縱坐標.
為了能夠生成更多小目標,并減少對原有目標特征的影響,新坐標被映射的概率應滿足以下條件.
1) 新坐標被選擇的概率隨映射到該坐標上的新對象面積的減小而增大.
2) 若新坐標上映射的目標覆蓋了其他目標,則該坐標被選擇的概率應隨覆蓋面積的增長而快速下降.
為了滿足以上條件,對于任意坐標點 (x,y) ,定義映射點的評估權重為
式中:Warea為面積評估值函數,Wover為覆蓋重疊補正函數.
對于Warea,采用相對法定義小目標,即采用目標在整張圖片中的占比來判定目標大小的性質.定義目標大小系數為 τ ,其值為目標自身面積與整張圖像面積之比.為了避免頻繁出現新生成的目標過小而丟失大量特征信息,在目標大小下降到一定閾值時,評估值隨面積減小而增加的速度需放緩,由此可得
式中:T為閾值, β 為系數.T、β 的取值與數據集圖像大小與圖像中小目標尺寸占比有關.
在所使用的數據集中,自身面積占圖像整體面積之比小于2%的目標占所有標注目標數量的75.51%,小于1% 的占59.98%,小于0.5% 的占43.99%,小于0.1%的占12.48%,可認為面積占比小于0.1%且邊長不小于5 個像素的目標為該數據集的合適小目標樣本.當數據集中取部分樣本,輸入尺寸為320×320 時,對于多個T值和β 值進行實驗.當T=0.01、β=10 000 時,可以使得新生成的合適小目標樣本最多.
對于Wover,若復制后的其他目標被覆蓋,則被覆蓋面積越大,其特征損失越大,評估值越低;重疊面積過大也會影響新生成目標對上下文特征的提取,故定義重疊補正函數為
式中:Si為第i個已有目標的面積,Sover,i為第i個已有目標與新生成目標重疊的面積,Snew為新生成目標的面積.根據每個像素點的權值,可以繪制出每個坐標映射概率的熱力圖,如圖6 所示.

圖6 目標映射坐標概率的熱力圖Fig.6 Thermodynamic diagram of target mapping coordinate probability
根據以上規則,對單個目標進行合理的增廣.對于圖像中的多個目標,在選擇需要復制的對象時,須選擇未和其他目標重疊或重疊面積較小的目標.對所有符合條件的目標進行至多2 次復制粘貼,并在目標映射后使用高斯卷積核處理其邊緣,使得新目標與背景過渡更加平滑.最終生成的圖像效果如圖7 所示,增強后的圖像與原圖比較增加了許多目標,其中大部分是小目標,并且新生成的目標基本沒有對原有目標產生影響.

圖7 小目標行人數據增強的效果圖Fig.7 Rendering of data augmentation for small target pedestrians
基于神經網絡的目標檢測任務中,應用注意力機制,能引導網絡關注圖像中被檢測物體重要內容,由此可以獲取更多小目標的特征信息[17].傳統注意力機制往往只關注通道或者空間維度的信息權重融合,對網絡性能的提升較有限.本研究采用融合通道與空間的注意力機制(coordinate attention,CA)[18].坐標注意力CA 以通道注意力為基礎,在通道維度進行編碼的同時準確捕獲到圖像空間坐標信息,有利于模型對小目標細節的捕獲與利用,同時也能充分利用所用數據增強后的新目標的合理背景與上下文信息.
對于通道數為C,高與寬分別為H、W的輸入特征圖X∈RC×H×W.使用水平與垂直方向尺寸分別為 (H,1) 和 ( 1,W) 的自適應池化層對各個通道進行編碼操作,得到一對方向感知注意力圖Xh∈RC×H×1,Xw∈RC×1×W;將得到的特征圖進行維度變換與級聯操作,并進行通道數為C/r的1? 1 卷積(Convolution,Conv)變換,其中r為控制block 大小的縮減率.將變換后的特征圖在空間維度切分成2 個張量Fh∈RC/r×H×1,Fw∈RC/r×W×1,將切分的張量分別經過卷積、快速激活(hard swish,h-Swish)、維度擴展得到2 個注意力權重,模型如圖8 所示.

圖8 坐標注意力機制結構Fig.8 Coordinate attention mechanism structure
CA 注意力機制本身的參數量較少,對于輕量化網絡十分友好,CA 注意力機制可以為重要特征分配較多的關注度,使得模型在骨干提取階段可以更加關注輪廓細節信息,而這些特征都有利于小目標行人的檢測.在MobileNeXt 的基礎上添加坐標注意力機制,由于MobileNeXt 本身具有20 個卷積塊,網絡深度相比于大型網絡還不成規模.在所有帶短接層的卷積塊中添加坐標注意力機制,能很好地提升模型復雜度,一定程度上緩解了原網絡欠擬合的問題.
MobileNeXt 中提出的沙漏結構(sandglass block)解決了原MobileNet-V2 中殘差結構容易引起梯度彌散或梯度爆炸的問題,然而應對小目標檢測仍存在不足.為了提升對小目標的特征提取能力,參考跨階段局部網絡結構(cross stage partial,CSP)[19]的思想,對沙漏結構進行改進.原沙漏結構與改進的結構分別如圖9(a)、(b)所示,將改進后的沙漏結構命名為T-Sandglass,其中步長s在需要降采樣時取值為2,其余情況下為1.

圖9 基于跨階段局部網絡的沙漏結構T-SandglassFig.9 T-Sandglass structure based on cross stage local network
輸入該結構的特征圖,將其所有通道對半分割為part1 和part2,分割后的兩路是一路經過1?1 卷積,變換通道維度為輸出通道的一半,另一路流經原始沙漏結構.兩路的輸出特征在通道維度拼接,并經3 ? 3 深度可分離卷積按需保持或降低分辨率,最后進行通道重排操作并流入隨后卷積層.改進后的沙漏結構本質上是一種分層特征融合機制,通過通道分割,特征圖中僅有一半的通道的信息進入原本的沙漏結構中,大幅減少了計算開銷,梯度路徑得以擴展.兩路通道拼接的方式替換了原本的逐元素求和操作,能夠有效地減少內存訪問消耗.梯度在傳播時經過不同的網絡通路,模型可以獲得更加豐富的梯度組合.將特征圖分為兩部分有效截斷梯度流,降低了網絡在信息整合過程中學習重復梯度的可能性,增強了網絡的整體學習能力.通道重排能夠讓網絡在不增加額外參數的情況下充分流通特征圖各個通道之間的信息,從而提升特征提取能力.
在改進的沙漏結構中,第1 層3 ? 3 卷積是對信息的初次提取,而后的2 個1 ? 1 卷積則對通道進行降維.在添加坐標注意力機制時,在首個3?3 卷積后添加,這種方式可以對最多數量的通道進行信息流控制.
小目標行人自身的特征信息少,通過上下文特征融合,可以利用背景和全局特征輔助模型訓練[20].在原始的SSD 骨干網絡中,輸出的2 層特征與瓶頸輸出的4 層特征直接相連,6 層特征之間以單路2 倍放縮金字塔逐層傳遞信息,每層特征單獨輸出進行預測.這種結構的預測網絡感受野過于單一,不同大小的物體只能根據一層固定大小的檢測層進行檢測,模型無法從上下文判別背景信息.單特征輸出會導致瓶頸層對來自骨干層網絡的語義信息的編碼能力不足.
針對以上問題,為了盡可能使用較少的網絡參數,獲取較大的感受野以及可以有效融合特征瓶頸網絡,設計了全局特征融合頸部網絡(global feature fusion neck,GFF-neck),如圖10 所示.該網絡分為2 個部分,分別為全局上下文特征增強部分與特征重生成部分.在上下文特征增強網絡中,設計單獨的一層自適應池化層作用于最深層特征中,骨干網絡輸出二層不同大小的特征層m1和m2,m1的分辨率為m2的2 倍.改變通道數輸出為、m2特征依次經過通道變換卷積與最近鄰上采樣得到,與保持分辨率一致.m2經過一次自適應全局平均池化與通道卷積,得到1 ? 1 大小、通道數與相同的m3,其中使用平均池化層代替傳統特征融合模塊中常用的全局池化層,可以減少特征信息的流失,并對小分辨率輸入特征圖更友好.m3通過廣播機制擴展后得到與逐元素相加,相加完后經過斜率為0.1 的LeakyReLU激活函數進行輸出,經過全局上下文特征增強后可以獲得,分辨率與m1相同的特征圖m4.輸出特征圖m4接著進入特征重生成網絡部分.以m4為起點,依次生成若干個分辨率不斷下降的新特征圖.

圖10 全局特征融合頸部網絡Fig.10 Global feature fusion neck
改進的瓶頸結構使用元素直接相加的方式,融合不同尺度的特征層.與傳統融合方法相比,融合時各尺度都以輸入最大分辨率為依據,整體效率更高.該網絡對最后一個輸入層進行全局自適應平均池化,輸入的末尾層已經歷過較多卷積層,感受信息范圍跨越網絡上下文,應用自適應平均池化可以在空間維度上總覽全局,保留更多的前景以及背景信息,為小目標行人的檢測識別提供額外信息.特征重生成網絡可以根據實際需求輸出不同數量的特征圖,同時全局上下文特征增強網絡的輸入也可以是多個不同尺度的特征.重生成的特征包含更多細節信息,可以有效幫助網絡對各類目標進行有效定位,從而有助于小目標的檢測.
在骨干網絡上使用MobileNeXt 的基礎上,添加T-Sandglass 模塊與坐標注意力機制,將改進后的骨干網絡命名為MobileNeXt+.搭配改進的GFF-neck 作為瓶頸層,這種模型搭配方式可以使2 個部分網絡的學習潛力得到充分發揮,有利于梯度的平滑傳播獲得最佳的檢測性能,整體網絡模型結構如圖11 所示.

圖11 整體網絡模型結構Fig.11 Overall network model structure
實驗硬件配置如下:Intel i5-9400CPU,英偉達RTX2070 顯卡,8G 顯存.軟件環境如下:Ubuntu 18.04 操作系統,python 環境為python3.8,使用pytorch 深度學習框架,版本為1.8.0.針對行人檢測任務有較多的公開數據集,選取眾多數據集中檢測難度較大、人群密集、包含多種尺度目標的WiderPerson 數據集,其中包含5 個類別,分別是行人、騎行者、遮擋人物、假人以及密集人群.該數據集涉及公路、運動場、廣場等多個常見的室外場景,包含的行人種類繁多,特別是有較多小目標人物以及遮擋目標人物,提取這些小目標行人的特征信息難度較大.在訓練過程中,共有8 000張圖片用于訓練,有1 000 張圖片用于測試.數據集的部分圖片如圖12 所示.

圖12 WiderPerson 數據集部分樣本Fig.12 Some samples of WiderPerson dataset
WiderPerson 數據集的RGB 3 個通道均值分別為131.64、120.22、115.58,方差分別為71.03、70.35、72.83,數據集輸入端首先統計均值與方差,然后進行隨機色彩抖動、隨機翻轉操作以增強模型泛化性能.模型優化器選為SGD,初始學習率設置為0.015,初始動量設置為0.9,應用余弦退火學習策略.在WiderPerson 數據集中,對密集人群、遮擋人物的標注標準不一,對這些類的判斷難以有效果,故在實驗時僅對行人一類進行訓練和推理.
3.2.1 骨干網絡改進模塊消融實驗 模型中不同骨干網絡會對結果造成不同影響,實驗中對原始SSD 的VGG 網絡、MobileNet-V2 網絡、Mobile-Next 網絡與添加CA 注意力模塊和T-glass 結構的MobileNext 網絡從準確率與參數量2 個角度進行對比,當輸入尺寸在320 和512 時得到的結果分別如表1、2 所示.表中Np為參數量,Flops 為每m浮點運算次數,v為幀率.推理速度根據實驗硬件條件(RTX2070)獲得.

表1 輸入尺寸為320 時不同骨干網絡性能Tab.1 Performance of each backbone network when input size is 320

表2 輸入尺寸為512 時不同骨干網絡的性能Tab.2 Performance of each backbone network when input size is 512
從表中對比結果可以看出,在相同的SSD 檢測器下,對MobileNeXt 骨干網絡單獨添加坐標注意力后,當輸入分辨率為320、512 時,模型整體精度分別提升了0.08%和0.24%.由于坐標注意力模型產生輕微的過擬合,導致在單獨骨干網絡中,添加坐標注意力機制對模型整體效果提升十分有限.在MobileNeXt 的基礎上,改進原沙漏結構為T-Sandglass 后,當輸入分辨率為320、512 時,模型整體精度分別提升了0.37%和0.63%,參數量與計算量均有所下降.這說明跨階段局部網絡有效拓展梯度傳播路徑,并且通道重排將特征之間的信息進行充分交換,使得模型整體性能得到優化,另外改進的卷積塊融合方式使得模型結構得到縮減.
在MobileNeXt 基礎上同時添加坐標注意力機制以及T-Sandglass 結構,2 種尺寸下的精度都高于單獨添加其中一項或原版MobileNeXt.這說明T-Sandglass 結構提升了模型的可學習潛力,幫助注意力機制發揮了本身的優越性.從整體來看,同時添加坐標注意力與T-Sandglass 結構后相對于MobileNeXt 參數量增加了約9%,2 種分辨率輸入時精度分別提升了0.91%、1.14%,在精度上有較大優勢.
3.2.2 瓶頸網絡性能對比實驗 為了對所提優化的全局特征增強融合網絡進行驗證,實驗針對不同瓶頸網絡設計相關消融實驗,在輸入尺寸為320 時,對原始SSD 瓶頸層、改進的全局特征增強融合結構GFF-neck 進行實驗比較,如表3 所示.所用的骨干網絡分別為ShuffleNetV2[21]、MobileNetV2 與MobileNeXt.

表3 2 種瓶頸結構在不同骨干網絡中的性能Tab.3 Performance of two bottleneck structures in different backbone networks
從表3 可以看出,在使用改進的GFF-neck后,相對于原SSD 頸部網絡,3 種不同的骨干網絡基線精度分別提升了6.41%,7.28% 以及6.73%.GFF-neck 參數量與SSD-neck 相比要略小,但計算量較大,導致模型計算速度下降較多,但是仍符合實時性要求.總體來看,所提的GFF-neck 瓶頸網絡以一定的計算量代價換取巨大的精度增益,并且具有較低的參數量,因此以GFF-neck 單獨作為瓶頸網絡可以為整體檢測網絡帶來明顯的性能提升.
3.2.3 經典網絡與改進整體網絡對比 為了驗證本研究改進的整體網絡有效性,與不同的經典算法MobileNetV2-SSD、MobileNetV2-YOLOv3 進行對比實驗,檢測結果如圖13 所示.可以看出,原始MobileNetV2-SSD 網絡檢測效果相對于其他2 種網絡稍顯遜色,遠景中有較多的小目標行人出現漏檢的情況,部分中型大小目標并未檢出.改進網絡與MobileNetV2-YOLOv3 在檢測效果上較為相近,對中大型目標基本沒有出現漏檢的情況,然而MobileNetV2-YOLOv3 網絡遺漏了一小部分小目標行人,且錨框的定位精度稍差.從比較結果來看,所提算法具有一定的優勢.不同網絡的精度如表4 所示.所提的整體網絡(Mobile-NeXt+GFF-neck)與其他經典網絡相比有極高的精度,與MobileNetV2-SSD 網絡相比提升了9.02%的AP,同時有最小的參數量,十分適合布置到移動端,檢測速度也符合實時性要求,具有較大的優勢.

表4 經典網絡與改進網絡的檢測效果Tab.4 Detection effect of classical network and improved network

圖13 經典網絡與改進網絡檢測效果對比Fig.13 Comparison of detection effect between classical network and improved network
3.2.4 其他公開數據集實驗 為了進一步比較所提方法的性能,在目標檢測常用公開數據集VOC中進行實驗,結果如表5 所示.從實驗結果可以看出,改進網絡與其他經典網絡相比,精度大幅度提高,MobileNetV2-SSD 網絡提升了8.64% 的mAP,且參數量較少.雖然速度有所減緩,但是仍滿足實時性要求,證明所提網絡具有較好的魯棒性.

表5 VOC 數據集中不同網絡的檢測結果Tab.5 Detection results of different networks in VOC dataset
3.3.1 數據集實驗 為了驗證本研究數據增強效果的有效性,針對所使用的WiderPerson 數據集,對其使用傳統的隨機復制增強與自適應增殖數據增強,并使用經典網絡(MobileNetV2-SSD)與所改進網絡(MobileNeXt+-GGF)進行訓練,比較測試集的測試效果,結果如表6 所示.可以看出,在使用2 個復制增強方法后,訓練后的網絡模型準確率都有上升.當輸入尺寸分別為320、512 時,所提的自適應增殖數據增強方法的AP 值在經典網絡上與未使用復制增強比較提升了1.22%與1.87%,對比傳統的隨機復制增強提升了0.47%與0.84%.在使用改進網絡模型時,對于2 種輸入尺寸,自適應數據增殖方法AP 值與未使用增殖方法的比較提升了1.56%和2.48%,與隨機復制的比較提升了0.80%和1.12%.所提的數據增強方法與圖1 所示的傳統隨機復制方法比較有一定的提升,并且輸入尺寸較大時提升更明顯,當應用小目標檢測的改進網絡時,其提升幅度更加明顯.

表6 小目標行人數據增強對識別精度的提升效果Tab.6 Effect of data enhancement of small target pedestrians on improving recognition accuracy
3.3.2 其他數據集實驗 為了驗證所提數據增強方法的泛化性能,使用常用行人公開數據集CityPersons 與Caltech 進行實驗.CityPersons 包含2 975 張訓練集圖片與500 張驗證集圖片;Cal-tech 數據集在set00-set05 選擇3 000 張圖片用于訓練,并在set06-set08 選擇1 000 張用于驗證.2 個數據集的輸入尺寸皆為512×512.結果如表7 所示.

表7 CityPersons 及CalTech 進行數據增強的效果Tab.7 Data enhanced performance on CityPersons and Cal-Tech
根據表7 數據可知,所提自適應增殖數據增強方法與圖1 所示的傳統隨機復制方法比較有一定的提升,對于數據量較少的CityPersons 和部分的Caltech 數據集,所提自適應增殖數據增強方法有更大的提升效果,從中可以證明所提數據增強方法有較強的泛用性.
為了檢測模型在真實環境中的檢測效果,搭建實驗測試系統對多個真實環境進行采集并對行人進行檢測,如圖14 所示.在現場測試中,利用TurtleBot2 移動機器人搭載 MicroSoft Kinect V1 相機與華碩A556U 筆記本電腦,在實際場景中采集87 張圖片,使用在WiderPerson 數據集上訓練的不同網絡模型測試,結果如圖15 所示.對行人進行標注,計算不同模型檢測的準確率,結果如表8所示.

表8 實際環境下的檢測準確率Tab.8 Detection accuracy under actual environment

圖14 實際環境的實驗平臺及測試Fig.14 Experimental platform and testing of detection effect
從圖15 中可以看出,所提算法在不同類型的行人中均有不錯的檢測結果.對于近距離大的目標,經典算法與所提算法檢測效果相差不大,但是對遠處較小的目標而言,MobileNetV2-SSD 很少檢測到;MobileNetV2-YOLOv3 雖然能夠檢測到遠處一部分小目標行人,但是仍然遺漏了一小部分小目標行人,并且該算法的參數量非常大;所提算法對小目標則有最好的檢測效果,基本沒有遺漏.從表8 中數據也能看出,所提網絡模型與數據增強方法的準確率在實際環境測試中仍有較大的提升.
本研究提出基于消隱點自適應增殖數據增強的上下文特征融合小目標行人檢測方法.采用數據增強方法,能夠有效生成大小符合當前位置的目標,并能將大目標轉化為小目標,有效解決了小目標自身特征不足的問題.當輸入尺寸為320和512 時,該方法應用在WiderPerson 數據集中的AP 值分別提高了1.55%和2.48%.在骨干網絡中使用跨階段局部網絡優化了沙漏結構,并進行了輕量化處理,能夠有效提升模型的可學習潛力,借助坐標注意力機制融合通道和空間信息,進一步提升模型精度.本研究設計了全局特征融合頸部網絡,極大地提高了整體網絡精度.改進的整體網絡在WiderPerson 數據集上的AP 值與SSDMobileNetV2 網絡比較提升了9.02%.在公開數據集上,所提算法相對于經典算法也取得了最高的精度及較小的參數量.在實際環境測試中,所提算法相比其他算法也能識別出更多的小目標行人,體現出了較強的魯棒性.