結(jié)合雙重注意力機(jī)制的遮擋感知行人檢測(cè)

2021-09-15 11:25:38周大可

哈爾濱工業(yè)大學(xué)學(xué)報(bào) 2021年9期

周大可, 宋榮,楊欣

(1.南京航空航天大學(xué) 自動(dòng)化學(xué)院, 南京 211100； 2.江蘇省物聯(lián)網(wǎng)與控制技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京航空航天大學(xué)), 南京 211100)

行人檢測(cè)作為目標(biāo)檢測(cè)領(lǐng)域的一個(gè)重要研究方向，一直受到研究者們的普遍關(guān)注，目前已經(jīng)對(duì)智能交通、智能輔助駕駛和視頻監(jiān)控等領(lǐng)域產(chǎn)生了深入的影響[1]。傳統(tǒng)的行人檢測(cè)方法，如HOG(histogram of oriented gradient)[2]、DPM(deformable parts model)[3]和ACF(aggregate channel feature)[4]等，都是通過(guò)手工設(shè)計(jì)或特征聚合來(lái)獲得行人特征。隨著2012年AlexNet[5]在圖像分類(lèi)任務(wù)中的重大突破，利用卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural networks)自主學(xué)習(xí)特征提取過(guò)程從而代替?zhèn)鹘y(tǒng)手工設(shè)計(jì)是目前的主要研究方向[6]。根據(jù)檢測(cè)機(jī)制的不同，基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法主要分為兩類(lèi)：一是兩階段方法，以Faster R-CNN[7]為例，其主要思路是采用級(jí)聯(lián)的方式，在生成候選目標(biāo)區(qū)域的基礎(chǔ)上進(jìn)一步判斷邊界框的類(lèi)別和位置。另一類(lèi)則是單階段方法，以YOLO(you only look once)[8]和SSD(single shot multibox detector)[9]為例，其思路是用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)直接回歸出邊界框的位置和類(lèi)別。

卷積神經(jīng)網(wǎng)絡(luò)的引入提升了行人檢測(cè)算法性能，但遮擋問(wèn)題仍然是行人檢測(cè)中的一個(gè)主要難點(diǎn)[10-13]。文獻(xiàn)[10]通過(guò)一種聯(lián)合學(xué)習(xí)方式建模不同的行人遮擋模式，但其檢測(cè)框架復(fù)雜且無(wú)法窮盡所有的情況；文獻(xiàn)[11]設(shè)計(jì)新的損失函數(shù)，使預(yù)測(cè)框在不斷逼近目標(biāo)真實(shí)框的同時(shí)遠(yuǎn)離其他的真實(shí)框，這種方法對(duì)遮擋的處理更為靈活，實(shí)現(xiàn)也更加簡(jiǎn)單；文獻(xiàn)[12]將前述的兩種思路相結(jié)合，提出部件遮擋感知單元和聚集損失函數(shù)來(lái)處理行人遮擋問(wèn)題；文獻(xiàn)[13]通過(guò)引入新的監(jiān)督信息(行人可見(jiàn)區(qū)域邊界框)來(lái)處理遮擋，其思路是用兩個(gè)分支網(wǎng)絡(luò)分別回歸行人的全身框和可見(jiàn)區(qū)域的邊界框，最終融合兩個(gè)分支的結(jié)果來(lái)提升檢測(cè)性能。

注意力機(jī)制源于對(duì)人類(lèi)視覺(jué)的研究，在計(jì)算機(jī)視覺(jué)的各種任務(wù)(如圖像分類(lèi)、檢測(cè)和分割等)中均有廣泛的應(yīng)用[14]。常見(jiàn)的注意力機(jī)制有兩種類(lèi)型：一是空間注意力機(jī)制[15]，即通過(guò)網(wǎng)絡(luò)學(xué)習(xí)來(lái)自適應(yīng)地調(diào)節(jié)特征圖中每個(gè)元素的權(quán)重；二是通道注意力機(jī)制[16]，即利用網(wǎng)絡(luò)來(lái)調(diào)節(jié)特征圖中不同通道的權(quán)重。利用注意力機(jī)制可以加強(qiáng)網(wǎng)絡(luò)對(duì)行人可見(jiàn)區(qū)域特征的關(guān)注，進(jìn)而改善算法的遮擋處理能力。文獻(xiàn)[17]利用預(yù)訓(xùn)練的行人姿態(tài)估計(jì)模型生成的部件熱圖作為監(jiān)督信息指導(dǎo)通道注意力機(jī)制的學(xué)習(xí)，有效提高了遮擋行人的檢測(cè)效果，但其僅使用了單一的通道注意力機(jī)制且需要額外的網(wǎng)絡(luò)來(lái)生成監(jiān)督信息，檢測(cè)框架復(fù)雜。

本文以基于回歸的檢測(cè)方法RetinaNet[18]為基礎(chǔ)，針對(duì)行人檢測(cè)的兩個(gè)子任務(wù)(分類(lèi)和定位)，在不同的支路分別采用空間和通道注意力機(jī)制，同時(shí)引入行人邊界框作為監(jiān)督信息，簡(jiǎn)單有效地指導(dǎo)兩種注意力機(jī)制的學(xué)習(xí)。此外，利用行人可見(jiàn)區(qū)域邊界框設(shè)計(jì)新型的可感知遮擋的回歸損失函數(shù)，進(jìn)一步提高了算法對(duì)遮擋的魯棒性。

1 結(jié)合注意力機(jī)制的遮擋感知行人檢測(cè)

1.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

本文方法的基本框架采用RetinaNet，主要由3個(gè)部分組成，分別是Resnet[19]主干網(wǎng)絡(luò)、FPN[20](feature pyramid network)特征金字塔融合模塊、以及結(jié)合雙重注意力機(jī)制的卷積預(yù)測(cè)模塊，網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。

圖1 本文算法整體網(wǎng)絡(luò)結(jié)構(gòu)示意

Resnet是目前主流的特征提取主干網(wǎng)絡(luò)之一，其通過(guò)“捷徑”將前后層直接相連，從而使網(wǎng)絡(luò)更加容易擬合恒等映射。Resnet可以改善網(wǎng)絡(luò)深度增加帶來(lái)的模型訓(xùn)練困難、性能提升較小的問(wèn)題，即“退化”現(xiàn)象。本文提取特征的主干網(wǎng)絡(luò)采用Resnet50，其具體結(jié)構(gòu)參數(shù)見(jiàn)表1。

FPN是一種U型網(wǎng)絡(luò)結(jié)構(gòu)，其通過(guò)融合生成的特征金字塔，有效結(jié)合深淺層不同維度的特征表達(dá)，并且在不同層獨(dú)立預(yù)測(cè)不同尺度的行人。如圖1所示，自上至下的卷積層c5、c4、c3分別在采樣之后與下層逐層融合，得到p5、p4、p3。p6和p7即c6和c7，在c5的基礎(chǔ)上分別通過(guò)一次和兩次3×3卷積得到。多層預(yù)測(cè)可以更好地處理行人遠(yuǎn)近導(dǎo)致的尺度問(wèn)題。

表1 Resnet50結(jié)構(gòu)

卷積預(yù)測(cè)模塊包含分類(lèi)支路和回歸支路，分類(lèi)支路主要負(fù)責(zé)區(qū)分前景與背景，其通過(guò)多個(gè)卷積核大小為3×3，輸出通道數(shù)為256的卷積層對(duì)p3～p7進(jìn)行卷積，最終以通道數(shù)為K×A的3×3卷積輸出類(lèi)別概率。其中K為類(lèi)別數(shù)目，本文中設(shè)為2，即僅前景和背景兩個(gè)類(lèi)別，A表示輸出特征圖中每個(gè)網(wǎng)格的先驗(yàn)邊界框數(shù)目，本文中為9?；貧w支路除了尾部輸出卷積層以外結(jié)構(gòu)均與分類(lèi)支路相同，在此不再贅述。尾部輸出卷積層需輸出預(yù)測(cè)框相對(duì)于預(yù)設(shè)框的偏移程度，通過(guò)通道數(shù)為4A的3×3卷積實(shí)現(xiàn)，4表示框的偏移量dx、dy、dw、dh。

本文在RetinaNet的基礎(chǔ)上對(duì)卷積預(yù)測(cè)模塊的分類(lèi)支路和回歸支路分別增加注意力機(jī)制子網(wǎng)絡(luò)，同時(shí)引進(jìn)行人可見(jiàn)框信息對(duì)傳統(tǒng)的回歸損失函數(shù)進(jìn)行優(yōu)化，如圖1所示。除了以上兩點(diǎn)改進(jìn)之外，本文網(wǎng)絡(luò)所有參數(shù)設(shè)定均保持與基準(zhǔn)方法相同。

1.2 雙重注意力機(jī)制

本文通過(guò)注意力機(jī)制指導(dǎo)網(wǎng)絡(luò)重點(diǎn)關(guān)注行人未被遮擋的區(qū)域，增加行人關(guān)鍵部位的特征權(quán)重，從而避免背景遮擋等干擾信息的影響。針對(duì)檢測(cè)問(wèn)題中分類(lèi)和定位兩個(gè)方面采用不同的注意力機(jī)制：在定位支路采用空間注意力機(jī)制，在分類(lèi)支路采用通道注意力機(jī)制。同時(shí)，利用數(shù)據(jù)集中提供的行人標(biāo)簽中的全身邊界框和可見(jiàn)邊界框來(lái)為空間注意力機(jī)制提供監(jiān)督信息，從而更加有效地指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)。

1.2.1 空間注意力機(jī)制

空間注意力機(jī)制的基本思想是通過(guò)網(wǎng)絡(luò)生成一個(gè)與原始特征圖相同尺寸的掩膜，掩膜中每個(gè)元素的值代表特征圖對(duì)應(yīng)位置像素的權(quán)重，經(jīng)過(guò)學(xué)習(xí)不斷調(diào)整各個(gè)權(quán)重，其本質(zhì)是告訴網(wǎng)絡(luò)應(yīng)該關(guān)注的區(qū)域。本文的空間注意力機(jī)制子網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。首先通過(guò)4個(gè)大小為3×3、通道數(shù)均為256的卷積核對(duì)回歸分支進(jìn)行卷積，再利用一個(gè)通道數(shù)為1的3×3卷積將特征圖壓縮成掩膜。為了保留原本的背景信息，以exp(掩膜參數(shù))乘到原來(lái)的特征圖上，從而調(diào)節(jié)原本特征圖各個(gè)位置的權(quán)重。本文為了指導(dǎo)空間注意力機(jī)制的學(xué)習(xí)，使用行人的監(jiān)督信息生成一個(gè)像素級(jí)的目標(biāo)掩膜作為空間注意力機(jī)制的標(biāo)簽：將行人的全身邊界框和可見(jiàn)邊界框區(qū)域像素值分別設(shè)為0.8和1，其余背景區(qū)域像素值設(shè)為0。這樣的標(biāo)簽將會(huì)指導(dǎo)空間注意力機(jī)制關(guān)注圖片中行人區(qū)域，同時(shí)更加關(guān)注行人的可見(jiàn)區(qū)域。

圖2 空間注意力子網(wǎng)絡(luò)結(jié)構(gòu)

1.2.2 通道注意力機(jī)制

通道注意力機(jī)制基于對(duì)卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)基本認(rèn)識(shí)：卷積特征圖的不同通道編碼了物體不同部位的特征。文獻(xiàn)[16,21]發(fā)現(xiàn)一些通道的特征圖對(duì)行人的特定部位如頭、上身和腳等有極高的響應(yīng)。通道注意力機(jī)制的基本思想就是通過(guò)網(wǎng)絡(luò)生成一個(gè)長(zhǎng)度等于通道數(shù)目的向量，向量中的每個(gè)元素對(duì)應(yīng)特征圖每個(gè)通道的權(quán)重，通過(guò)學(xué)習(xí)不斷調(diào)整各通道的權(quán)重，其本質(zhì)是告訴網(wǎng)絡(luò)應(yīng)該關(guān)注的行人部位。因此本文在分類(lèi)支路加入通道注意力機(jī)制，其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，與文獻(xiàn)[16]中的結(jié)構(gòu)類(lèi)似：首先對(duì)分類(lèi)支路進(jìn)行池化；將池化后的權(quán)重向量送入全連接層FC1和FC2，對(duì)其進(jìn)行“壓縮”和“拉伸”操作；然后通過(guò)sigmoid函數(shù)將向量的分量限制在0～1之間，并將兩個(gè)向量相加融合為最終的權(quán)重向量。不同于文獻(xiàn)[16]中僅使用平均池化，本文同時(shí)采用全局池化和最大池化，這樣可以在保留每個(gè)通道平均特征的同時(shí)突出其主要特征，使得網(wǎng)絡(luò)更加關(guān)注行人的可見(jiàn)部位。

圖3 通道注意力子網(wǎng)絡(luò)結(jié)構(gòu)

1.3 損失函數(shù)

1.3.1 算法整體損失函數(shù)

λ2La(m,m*)

(1)

1.3.2 遮擋感知的回歸損失函數(shù)

在通用目標(biāo)檢測(cè)中，經(jīng)典的回歸損失函數(shù)為smoothL1函數(shù)，其形式為

(2)

(3)

其中：A為所有參與計(jì)算的行人檢測(cè)框，tin為檢測(cè)的第n個(gè)行人框，ti*n則為其真實(shí)坐標(biāo)，x、y、w、h分別為真值框的中心點(diǎn)坐標(biāo)以及寬高。

為了進(jìn)一步處理遮擋問(wèn)題，本文提出一種可以依據(jù)遮擋程度自主調(diào)整檢測(cè)框權(quán)重的回歸損失函數(shù)。其基本思路是：在計(jì)算回歸損失函數(shù)時(shí)，通過(guò)預(yù)測(cè)行人邊界框與數(shù)據(jù)集提供的行人可見(jiàn)區(qū)域邊界框的IOG(intersection over ground truth)作為每個(gè)正樣本產(chǎn)生損失函數(shù)的權(quán)重，即若預(yù)測(cè)的正樣本邊界框與行人可見(jiàn)區(qū)域重疊較多，那么它產(chǎn)生的損失更為可信，分配較高的權(quán)重，反之則分配較低的權(quán)重。基于這個(gè)直觀的想法，設(shè)計(jì)出的改進(jìn)回歸損失函數(shù)具體形式為

(4)

(5)

其中：n為第n個(gè)預(yù)測(cè)框，bpred為判定為前景的行人預(yù)測(cè)框，bgtvis為其對(duì)應(yīng)的行人可見(jiàn)區(qū)域邊界框。

采用IOG而不是IOU的原因在于，期望的權(quán)重在0～1之間，而即使是完全正確的預(yù)測(cè)框，其與可見(jiàn)區(qū)域的IOU也可能是一個(gè)較小的數(shù)值，因此使用IOG更為合適。文獻(xiàn)[13]中同樣利用行人可見(jiàn)區(qū)域與預(yù)測(cè)框的重疊程度改善遮擋問(wèn)題，做法是當(dāng)預(yù)測(cè)框與行人全身邊界框和可見(jiàn)區(qū)域邊界框的IOU同時(shí)大于一個(gè)固定的閾值時(shí)，才判定此預(yù)測(cè)框?yàn)檎龢颖尽＿@種做法有兩個(gè)不足之處：一是閾值的大小不好設(shè)定，二是判定條件過(guò)嚴(yán)可能導(dǎo)致有真實(shí)框沒(méi)有對(duì)應(yīng)的預(yù)測(cè)框。本文提出的新型回歸損失函數(shù)則有效地解決了這兩個(gè)問(wèn)題，更加靈活地利用行人可見(jiàn)框來(lái)指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)設(shè)置

2.1.1 數(shù)據(jù)集

實(shí)驗(yàn)是在Caltech和CityPerson兩個(gè)行人數(shù)據(jù)集上進(jìn)行的。Caltech數(shù)據(jù)集[22]是目前最為常用的公開(kāi)數(shù)據(jù)集之一，原始圖片為640×480像素，提供行人全身邊界框和可見(jiàn)區(qū)域邊界框標(biāo)簽。預(yù)先劃分好訓(xùn)練集4 250張，測(cè)試集4 024張。CityPerson是目前較新的公開(kāi)行人檢測(cè)數(shù)據(jù)集，由文獻(xiàn)[23]于2017年提供，其包含了5 000張德國(guó)各地的實(shí)拍圖片。相比于Caltech數(shù)據(jù)集，其行人遮擋問(wèn)題更加嚴(yán)重。數(shù)據(jù)集預(yù)先將2 975張作為訓(xùn)練集，1 525張作為測(cè)試集，圖片為2 048× 1 024像素，提供行人全身邊界框和可見(jiàn)部分邊界框。

2.1.2 先驗(yàn)邊界框的設(shè)置

本文算法在5個(gè)不同的特征層進(jìn)行預(yù)測(cè)，所以需要設(shè)計(jì)各特征層上的預(yù)設(shè)邊界框，預(yù)設(shè)邊界框的好壞直接影響到回歸的速度與精度。文獻(xiàn)[6,9]手工設(shè)計(jì)幾個(gè)固定尺寸和比例的邊界框，但其不夠靈活且效果稍差。文獻(xiàn)[24]提出了一種更為靈活的方法，通過(guò)對(duì)訓(xùn)練集進(jìn)行聚類(lèi)來(lái)確定預(yù)設(shè)邊界框的尺寸和比例。

本文采用聚類(lèi)的思想來(lái)設(shè)計(jì)預(yù)設(shè)邊界框，與文獻(xiàn)[24]不同的是，本文算法在5個(gè)特征層進(jìn)行預(yù)測(cè)，所以需要根據(jù)不同特征圖的尺寸合理安排不同大小的預(yù)設(shè)邊界框。具體做法是：首先獲得訓(xùn)練集中所有真實(shí)框的寬高ball={b1,b2,…,bn}，為了避免聚類(lèi)中心被數(shù)據(jù)量最大的中等尺寸的框主導(dǎo)，預(yù)先按框的高度h從小到大將所有框劃分為5份，然后利用k-means聚類(lèi)基于每份邊界框生成9個(gè)預(yù)設(shè)的邊界框，最終共生成45個(gè)不同大小與比例的預(yù)設(shè)邊界框，分別配置到不同尺度的預(yù)測(cè)特征層上。聚類(lèi)中，考慮輸出行人邊界框的目的，距離度量采用如下形式：

d(box,ci)=1-IOU(box,ci)

(6)

(7)

其中：box為訓(xùn)練集中的行人邊界框，ci為第i個(gè)聚類(lèi)中心代表的邊界框。

2.1.3 訓(xùn)練細(xì)節(jié)

利用水平翻轉(zhuǎn)、裁剪等操作實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)，增加訓(xùn)練樣本集的豐富程度。為了保證圖片放縮過(guò)程中物體不會(huì)變形，通過(guò)加padding縮放操作將Caltech和CityPerson數(shù)據(jù)集的輸入圖片尺寸分別調(diào)整為1 200×900像素和1 400×700像素，兼顧性能和速度。通過(guò)Adam算法對(duì)網(wǎng)絡(luò)各部分參數(shù)進(jìn)行優(yōu)化，學(xué)習(xí)率的初始值設(shè)為0.000 1，如果連續(xù)3個(gè)epoch整體損失函數(shù)值不發(fā)生明顯變化，學(xué)習(xí)率衰減為原來(lái)的1/10，總訓(xùn)練epoch數(shù)為80。主干網(wǎng)絡(luò)ResNet50采用在ImageNet上訓(xùn)練好的模型。batch大小為2，訓(xùn)練平臺(tái)為英偉達(dá)RTX 2080。

2.1.4 評(píng)估指標(biāo)

對(duì)數(shù)平均漏檢率(log-average miss rate)[22]是評(píng)估行人檢測(cè)算法最為常用的指標(biāo)之一。同時(shí)為了更好地體現(xiàn)算法對(duì)遮擋問(wèn)題的處理能力，利用數(shù)據(jù)集提供的行人可見(jiàn)邊界框和全身邊界框的比值(可見(jiàn)度，Vis)來(lái)衡量遮擋程度，將測(cè)試集按遮擋程度分為以下3類(lèi)：1)輕微遮擋， Vis>0.65；2)嚴(yán)重遮擋，0.200.20。分別測(cè)試算法在不同遮擋測(cè)試集上的檢測(cè)效果。

2.2 實(shí)驗(yàn)結(jié)果

本文以RetinaNet為基本框架，分別添加雙重注意力機(jī)制子網(wǎng)絡(luò)和可感知遮擋的優(yōu)化回歸損失函數(shù)，其余參數(shù)值均保持和RetinaNet相同。消融實(shí)驗(yàn)結(jié)果見(jiàn)表2、3。其中k-means_anchor、attention、weightloss分別表示是否用聚類(lèi)預(yù)測(cè)邊界框、是否加入注意力機(jī)制子網(wǎng)絡(luò)以及是否使用改進(jìn)的回歸損失函數(shù)。

表2 Caltech數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果

表3 CityPerson 數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果

由表2、3的消融實(shí)驗(yàn)結(jié)果可以看出，與基準(zhǔn)方法RetinaNet相比，增加注意力機(jī)制子網(wǎng)絡(luò)和感知遮擋的新型回歸損失函數(shù)在不同遮擋程度子集上均會(huì)帶來(lái)一定的性能提升，尤其是對(duì)于嚴(yán)重遮擋的子集，性能提升更加顯著。在Caltech的嚴(yán)重遮擋子集上二者分別提高了6.22%和7.35%，在CityPerson上分別提高了3.29%和3.37%。相較于基本框架RetinaNet，本文方法在Caltech和CityPerson的嚴(yán)重遮擋子集上分別提高了12.03%和4.56%，充分表明該方法對(duì)復(fù)雜交通場(chǎng)景下的遮擋問(wèn)題具有很好的處理能力，本文方法的整體性能與RetinaNet相比，同樣有較大的提升。此外，利用聚類(lèi)生成預(yù)設(shè)行人邊界框會(huì)給整體性能帶來(lái)一定提升，但對(duì)于遮擋問(wèn)題效果不明顯。

圖4展示了Caltech數(shù)據(jù)集下基準(zhǔn)方法RetinaNet與本文方法的檢測(cè)效果，可以看出，基準(zhǔn)方法無(wú)法檢出一些被汽車(chē)、草叢等遮擋的行人，而本文方法可以檢出這些目標(biāo)；對(duì)于一些行人之間相互遮擋的現(xiàn)象，基準(zhǔn)方法只會(huì)給出一個(gè)大的邊界框，本文方法能分別將每個(gè)行人框出，表明本文方法對(duì)于類(lèi)內(nèi)遮擋和類(lèi)間遮擋均具有較好的魯棒性。

圖4 Caltech數(shù)據(jù)集上檢測(cè)效果圖

在中國(guó)的街道場(chǎng)景中，行人更加密集，極易發(fā)生遮擋現(xiàn)象，尤其是類(lèi)內(nèi)遮擋較為普遍。本文方法對(duì)于類(lèi)內(nèi)遮擋的魯棒性結(jié)論在國(guó)內(nèi)智能交通領(lǐng)域具有較高的應(yīng)用價(jià)值。

2.3 實(shí)驗(yàn)分析

2.3.1 檢測(cè)效果

表4對(duì)比了本文方法和其他8種方法(包括傳統(tǒng)的HOG[2]和ACF[4]，基準(zhǔn)RetinaNet[18]，新近提出的AdaptFasterRCNN[23]等)的檢測(cè)效果?？紤]到CityPerson數(shù)據(jù)集較新，目前尚未有充足方法在其上進(jìn)行測(cè)試，且其Benchmark并未給出其他方法的原始檢測(cè)文件，難以客觀地與其對(duì)比算法性能。因此對(duì)比實(shí)驗(yàn)只在Caltech上進(jìn)行.

從表4中可以看出，本文方法在整體數(shù)據(jù)集上的平均對(duì)數(shù)漏檢率最低，僅為18.72%，與其他方法相比具有一定的優(yōu)勢(shì)。在輕微遮擋子集上，本文方法的檢測(cè)效果也處于前列，平均漏檢率為9.97%，略高于AdaptFastRCNN等4種方法，這可能是本文方法側(cè)重于遮擋問(wèn)題而導(dǎo)致一些小尺寸行人的漏檢。但在嚴(yán)重遮擋子集上，本文方法的性能十分突出，其平均對(duì)數(shù)漏檢率僅為45.69%，比其他方法小12%以上，遠(yuǎn)遠(yuǎn)領(lǐng)先其他方法。這表明本文針對(duì)遮擋問(wèn)題專(zhuān)門(mén)設(shè)計(jì)的雙重注意力機(jī)制和遮擋感知的新型回歸損失函數(shù)非常有效。從表4中還可以看出，對(duì)于行人檢測(cè)這樣的非剛體、背景復(fù)雜且存在遮擋的檢測(cè)問(wèn)題，包括本文方法在內(nèi)的基于卷積神經(jīng)網(wǎng)絡(luò)的方法遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的手工設(shè)計(jì)特征的方法。

表4 Caltech數(shù)據(jù)集上與其他8種方法對(duì)比結(jié)果

圖5進(jìn)一步給出了嚴(yán)重遮擋子集上幾種方法的漏檢率隨著每張圖誤檢數(shù)目變化的曲線(xiàn)圖，曲線(xiàn)下方的面積越小，行人檢測(cè)算法的性能更強(qiáng)。同樣可以看出，隨著每圖誤檢數(shù)量的變化，本文方法的漏檢率都處于最低水平，相比于其他行人檢測(cè)方法，整體優(yōu)勢(shì)明顯。

圖5 Caltech嚴(yán)重遮擋子集上的檢測(cè)效果對(duì)比

2.3.2 檢測(cè)速度

本文方法在Caltech(縮放至1 200×900像素)和CityPerson數(shù)據(jù)集(縮放至1 400×700像素)上的檢測(cè)速度分別為11.8幀/s(frames per second)和10.0幀/s，實(shí)現(xiàn)了準(zhǔn)實(shí)時(shí)的行人檢測(cè)。此外，也比較了本文方法和其他4種精度較高的檢測(cè)方法(包括RPN+BF[25], SA-FastRCNN[26]等)的檢測(cè)效率，實(shí)驗(yàn)在Caltech數(shù)據(jù)集上進(jìn)行。為進(jìn)行公平的比較，類(lèi)似于文獻(xiàn)[28]，本文對(duì)比了各方法在單位算力(TFLOPS，每秒萬(wàn)億次單精度浮點(diǎn)計(jì)算)下的檢測(cè)速度，結(jié)果見(jiàn)表5(GPU計(jì)算能力來(lái)自NVIDIA官網(wǎng))。

表5 5種方法的檢測(cè)速度

從表5中可以看出，本文方法的檢測(cè)速度略慢于RetinaNet，比其他3種方法的快1倍以上。主要原因在于：本文方法采用單階段的檢測(cè)框架，可以實(shí)現(xiàn)端到端的快速檢測(cè)；而SA-FastRCNN等3種方法采用雙階段的檢測(cè)框架，需要通過(guò)網(wǎng)絡(luò)生成候選區(qū)域然后再進(jìn)行檢測(cè)；此外，由于注意力機(jī)制子網(wǎng)絡(luò)帶來(lái)了附加的計(jì)算量，因此本文方法的檢測(cè)效率略低于RetinaNet。

3 結(jié) 論

提出一種結(jié)合雙重注意力機(jī)制的遮擋感知方法來(lái)提高行人檢測(cè)算法在嚴(yán)重遮擋情況下的性能，降低遮擋對(duì)檢測(cè)造成的影響。該方法通過(guò)引入空間/通道雙重注意力機(jī)制，以及遮擋感知的新型損失函數(shù)，能夠有效地處理遮擋問(wèn)題，在Caltech和CityPerson數(shù)據(jù)集上分別取得18.72%和41.95%的平均漏檢率，優(yōu)于RetinaNet等8種先進(jìn)的行人檢測(cè)算法；尤其在Caltech嚴(yán)重遮擋子集上，其平均漏檢率僅為45.69%，低于其他方法12%以上。并且，該方法可以實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)的行人檢測(cè)，在Caltech和CityPerson上的檢測(cè)速度分別為11.8幀/s和10.0幀/s。