999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合雙重注意力機(jī)制的遮擋感知行人檢測(cè)

2021-09-15 11:25:38周大可
關(guān)鍵詞:機(jī)制特征檢測(cè)

周大可, 宋 榮,楊 欣

(1.南京航空航天大學(xué) 自動(dòng)化學(xué)院, 南京 211100; 2.江蘇省物聯(lián)網(wǎng)與控制技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京航空航天大學(xué)), 南京 211100)

行人檢測(cè)作為目標(biāo)檢測(cè)領(lǐng)域的一個(gè)重要研究方向,一直受到研究者們的普遍關(guān)注,目前已經(jīng)對(duì)智能交通、智能輔助駕駛和視頻監(jiān)控等領(lǐng)域產(chǎn)生了深入的影響[1]。傳統(tǒng)的行人檢測(cè)方法,如HOG(histogram of oriented gradient)[2]、DPM(deformable parts model)[3]和ACF(aggregate channel feature)[4]等,都是通過(guò)手工設(shè)計(jì)或特征聚合來(lái)獲得行人特征。隨著2012年AlexNet[5]在圖像分類(lèi)任務(wù)中的重大突破,利用卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural networks)自主學(xué)習(xí)特征提取過(guò)程從而代替?zhèn)鹘y(tǒng)手工設(shè)計(jì)是目前的主要研究方向[6]。根據(jù)檢測(cè)機(jī)制的不同,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法主要分為兩類(lèi):一是兩階段方法,以Faster R-CNN[7]為例,其主要思路是采用級(jí)聯(lián)的方式,在生成候選目標(biāo)區(qū)域的基礎(chǔ)上進(jìn)一步判斷邊界框的類(lèi)別和位置。另一類(lèi)則是單階段方法,以YOLO(you only look once)[8]和SSD(single shot multibox detector)[9]為例,其思路是用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)直接回歸出邊界框的位置和類(lèi)別。

卷積神經(jīng)網(wǎng)絡(luò)的引入提升了行人檢測(cè)算法性能,但遮擋問(wèn)題仍然是行人檢測(cè)中的一個(gè)主要難點(diǎn)[10-13]。文獻(xiàn)[10]通過(guò)一種聯(lián)合學(xué)習(xí)方式建模不同的行人遮擋模式,但其檢測(cè)框架復(fù)雜且無(wú)法窮盡所有的情況;文獻(xiàn)[11]設(shè)計(jì)新的損失函數(shù),使預(yù)測(cè)框在不斷逼近目標(biāo)真實(shí)框的同時(shí)遠(yuǎn)離其他的真實(shí)框,這種方法對(duì)遮擋的處理更為靈活,實(shí)現(xiàn)也更加簡(jiǎn)單;文獻(xiàn)[12]將前述的兩種思路相結(jié)合,提出部件遮擋感知單元和聚集損失函數(shù)來(lái)處理行人遮擋問(wèn)題;文獻(xiàn)[13]通過(guò)引入新的監(jiān)督信息(行人可見(jiàn)區(qū)域邊界框)來(lái)處理遮擋,其思路是用兩個(gè)分支網(wǎng)絡(luò)分別回歸行人的全身框和可見(jiàn)區(qū)域的邊界框,最終融合兩個(gè)分支的結(jié)果來(lái)提升檢測(cè)性能。

注意力機(jī)制源于對(duì)人類(lèi)視覺(jué)的研究,在計(jì)算機(jī)視覺(jué)的各種任務(wù)(如圖像分類(lèi)、檢測(cè)和分割等)中均有廣泛的應(yīng)用[14]。常見(jiàn)的注意力機(jī)制有兩種類(lèi)型:一是空間注意力機(jī)制[15],即通過(guò)網(wǎng)絡(luò)學(xué)習(xí)來(lái)自適應(yīng)地調(diào)節(jié)特征圖中每個(gè)元素的權(quán)重;二是通道注意力機(jī)制[16],即利用網(wǎng)絡(luò)來(lái)調(diào)節(jié)特征圖中不同通道的權(quán)重。利用注意力機(jī)制可以加強(qiáng)網(wǎng)絡(luò)對(duì)行人可見(jiàn)區(qū)域特征的關(guān)注,進(jìn)而改善算法的遮擋處理能力。文獻(xiàn)[17]利用預(yù)訓(xùn)練的行人姿態(tài)估計(jì)模型生成的部件熱圖作為監(jiān)督信息指導(dǎo)通道注意力機(jī)制的學(xué)習(xí),有效提高了遮擋行人的檢測(cè)效果,但其僅使用了單一的通道注意力機(jī)制且需要額外的網(wǎng)絡(luò)來(lái)生成監(jiān)督信息,檢測(cè)框架復(fù)雜。

本文以基于回歸的檢測(cè)方法RetinaNet[18]為基礎(chǔ),針對(duì)行人檢測(cè)的兩個(gè)子任務(wù)(分類(lèi)和定位),在不同的支路分別采用空間和通道注意力機(jī)制,同時(shí)引入行人邊界框作為監(jiān)督信息,簡(jiǎn)單有效地指導(dǎo)兩種注意力機(jī)制的學(xué)習(xí)。此外,利用行人可見(jiàn)區(qū)域邊界框設(shè)計(jì)新型的可感知遮擋的回歸損失函數(shù),進(jìn)一步提高了算法對(duì)遮擋的魯棒性。

1 結(jié)合注意力機(jī)制的遮擋感知行人檢測(cè)

1.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

本文方法的基本框架采用RetinaNet,主要由3個(gè)部分組成,分別是Resnet[19]主干網(wǎng)絡(luò)、FPN[20](feature pyramid network)特征金字塔融合模塊、以及結(jié)合雙重注意力機(jī)制的卷積預(yù)測(cè)模塊,網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。

圖1 本文算法整體網(wǎng)絡(luò)結(jié)構(gòu)示意

Resnet是目前主流的特征提取主干網(wǎng)絡(luò)之一,其通過(guò)“捷徑”將前后層直接相連,從而使網(wǎng)絡(luò)更加容易擬合恒等映射。Resnet可以改善網(wǎng)絡(luò)深度增加帶來(lái)的模型訓(xùn)練困難、性能提升較小的問(wèn)題,即“退化”現(xiàn)象。本文提取特征的主干網(wǎng)絡(luò)采用Resnet50,其具體結(jié)構(gòu)參數(shù)見(jiàn)表1。

FPN是一種U型網(wǎng)絡(luò)結(jié)構(gòu),其通過(guò)融合生成的特征金字塔,有效結(jié)合深淺層不同維度的特征表達(dá),并且在不同層獨(dú)立預(yù)測(cè)不同尺度的行人。如圖1所示,自上至下的卷積層c5、c4、c3分別在采樣之后與下層逐層融合,得到p5、p4、p3。p6和p7即c6和c7,在c5的基礎(chǔ)上分別通過(guò)一次和兩次3×3卷積得到。多層預(yù)測(cè)可以更好地處理行人遠(yuǎn)近導(dǎo)致的尺度問(wèn)題。

表1 Resnet50結(jié)構(gòu)

卷積預(yù)測(cè)模塊包含分類(lèi)支路和回歸支路,分類(lèi)支路主要負(fù)責(zé)區(qū)分前景與背景,其通過(guò)多個(gè)卷積核大小為3×3,輸出通道數(shù)為256的卷積層對(duì)p3~p7進(jìn)行卷積,最終以通道數(shù)為K×A的3×3卷積輸出類(lèi)別概率。其中K為類(lèi)別數(shù)目,本文中設(shè)為2,即僅前景和背景兩個(gè)類(lèi)別,A表示輸出特征圖中每個(gè)網(wǎng)格的先驗(yàn)邊界框數(shù)目,本文中為9?;貧w支路除了尾部輸出卷積層以外結(jié)構(gòu)均與分類(lèi)支路相同,在此不再贅述。尾部輸出卷積層需輸出預(yù)測(cè)框相對(duì)于預(yù)設(shè)框的偏移程度,通過(guò)通道數(shù)為4A的3×3卷積實(shí)現(xiàn),4表示框的偏移量dx、dy、dw、dh。

本文在RetinaNet的基礎(chǔ)上對(duì)卷積預(yù)測(cè)模塊的分類(lèi)支路和回歸支路分別增加注意力機(jī)制子網(wǎng)絡(luò),同時(shí)引進(jìn)行人可見(jiàn)框信息對(duì)傳統(tǒng)的回歸損失函數(shù)進(jìn)行優(yōu)化,如圖1所示。除了以上兩點(diǎn)改進(jìn)之外,本文網(wǎng)絡(luò)所有參數(shù)設(shè)定均保持與基準(zhǔn)方法相同。

1.2 雙重注意力機(jī)制

本文通過(guò)注意力機(jī)制指導(dǎo)網(wǎng)絡(luò)重點(diǎn)關(guān)注行人未被遮擋的區(qū)域,增加行人關(guān)鍵部位的特征權(quán)重,從而避免背景遮擋等干擾信息的影響。針對(duì)檢測(cè)問(wèn)題中分類(lèi)和定位兩個(gè)方面采用不同的注意力機(jī)制:在定位支路采用空間注意力機(jī)制,在分類(lèi)支路采用通道注意力機(jī)制。同時(shí),利用數(shù)據(jù)集中提供的行人標(biāo)簽中的全身邊界框和可見(jiàn)邊界框來(lái)為空間注意力機(jī)制提供監(jiān)督信息,從而更加有效地指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)。

1.2.1 空間注意力機(jī)制

空間注意力機(jī)制的基本思想是通過(guò)網(wǎng)絡(luò)生成一個(gè)與原始特征圖相同尺寸的掩膜,掩膜中每個(gè)元素的值代表特征圖對(duì)應(yīng)位置像素的權(quán)重,經(jīng)過(guò)學(xué)習(xí)不斷調(diào)整各個(gè)權(quán)重,其本質(zhì)是告訴網(wǎng)絡(luò)應(yīng)該關(guān)注的區(qū)域。本文的空間注意力機(jī)制子網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。首先通過(guò)4個(gè)大小為3×3、通道數(shù)均為256的卷積核對(duì)回歸分支進(jìn)行卷積,再利用一個(gè)通道數(shù)為1的3×3卷積將特征圖壓縮成掩膜。為了保留原本的背景信息,以exp(掩膜參數(shù))乘到原來(lái)的特征圖上,從而調(diào)節(jié)原本特征圖各個(gè)位置的權(quán)重。本文為了指導(dǎo)空間注意力機(jī)制的學(xué)習(xí),使用行人的監(jiān)督信息生成一個(gè)像素級(jí)的目標(biāo)掩膜作為空間注意力機(jī)制的標(biāo)簽:將行人的全身邊界框和可見(jiàn)邊界框區(qū)域像素值分別設(shè)為0.8和1,其余背景區(qū)域像素值設(shè)為0。這樣的標(biāo)簽將會(huì)指導(dǎo)空間注意力機(jī)制關(guān)注圖片中行人區(qū)域,同時(shí)更加關(guān)注行人的可見(jiàn)區(qū)域。

圖2 空間注意力子網(wǎng)絡(luò)結(jié)構(gòu)

1.2.2 通道注意力機(jī)制

通道注意力機(jī)制基于對(duì)卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)基本認(rèn)識(shí):卷積特征圖的不同通道編碼了物體不同部位的特征。文獻(xiàn)[16,21]發(fā)現(xiàn)一些通道的特征圖對(duì)行人的特定部位如頭、上身和腳等有極高的響應(yīng)。通道注意力機(jī)制的基本思想就是通過(guò)網(wǎng)絡(luò)生成一個(gè)長(zhǎng)度等于通道數(shù)目的向量,向量中的每個(gè)元素對(duì)應(yīng)特征圖每個(gè)通道的權(quán)重,通過(guò)學(xué)習(xí)不斷調(diào)整各通道的權(quán)重,其本質(zhì)是告訴網(wǎng)絡(luò)應(yīng)該關(guān)注的行人部位。因此本文在分類(lèi)支路加入通道注意力機(jī)制,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,與文獻(xiàn)[16]中的結(jié)構(gòu)類(lèi)似:首先對(duì)分類(lèi)支路進(jìn)行池化;將池化后的權(quán)重向量送入全連接層FC1和FC2,對(duì)其進(jìn)行“壓縮”和“拉伸”操作;然后通過(guò)sigmoid函數(shù)將向量的分量限制在0~1之間,并將兩個(gè)向量相加融合為最終的權(quán)重向量。不同于文獻(xiàn)[16]中僅使用平均池化,本文同時(shí)采用全局池化和最大池化,這樣可以在保留每個(gè)通道平均特征的同時(shí)突出其主要特征,使得網(wǎng)絡(luò)更加關(guān)注行人的可見(jiàn)部位。

圖3 通道注意力子網(wǎng)絡(luò)結(jié)構(gòu)

1.3 損失函數(shù)

1.3.1 算法整體損失函數(shù)

λ2La(m,m*)

(1)

1.3.2 遮擋感知的回歸損失函數(shù)

在通用目標(biāo)檢測(cè)中,經(jīng)典的回歸損失函數(shù)為smoothL1函數(shù),其形式為

(2)

(3)

其中:A為所有參與計(jì)算的行人檢測(cè)框,tin為檢測(cè)的第n個(gè)行人框,ti*n則為其真實(shí)坐標(biāo),x、y、w、h分別為真值框的中心點(diǎn)坐標(biāo)以及寬高。

為了進(jìn)一步處理遮擋問(wèn)題,本文提出一種可以依據(jù)遮擋程度自主調(diào)整檢測(cè)框權(quán)重的回歸損失函數(shù)。其基本思路是:在計(jì)算回歸損失函數(shù)時(shí),通過(guò)預(yù)測(cè)行人邊界框與數(shù)據(jù)集提供的行人可見(jiàn)區(qū)域邊界框的IOG(intersection over ground truth)作為每個(gè)正樣本產(chǎn)生損失函數(shù)的權(quán)重,即若預(yù)測(cè)的正樣本邊界框與行人可見(jiàn)區(qū)域重疊較多,那么它產(chǎn)生的損失更為可信,分配較高的權(quán)重,反之則分配較低的權(quán)重。基于這個(gè)直觀的想法,設(shè)計(jì)出的改進(jìn)回歸損失函數(shù)具體形式為

(4)

(5)

其中:n為第n個(gè)預(yù)測(cè)框,bpred為判定為前景的行人預(yù)測(cè)框,bgtvis為其對(duì)應(yīng)的行人可見(jiàn)區(qū)域邊界框。

采用IOG而不是IOU的原因在于,期望的權(quán)重在0~1之間,而即使是完全正確的預(yù)測(cè)框,其與可見(jiàn)區(qū)域的IOU也可能是一個(gè)較小的數(shù)值,因此使用IOG更為合適。文獻(xiàn)[13]中同樣利用行人可見(jiàn)區(qū)域與預(yù)測(cè)框的重疊程度改善遮擋問(wèn)題,做法是當(dāng)預(yù)測(cè)框與行人全身邊界框和可見(jiàn)區(qū)域邊界框的IOU同時(shí)大于一個(gè)固定的閾值時(shí),才判定此預(yù)測(cè)框?yàn)檎龢颖尽_@種做法有兩個(gè)不足之處:一是閾值的大小不好設(shè)定,二是判定條件過(guò)嚴(yán)可能導(dǎo)致有真實(shí)框沒(méi)有對(duì)應(yīng)的預(yù)測(cè)框。本文提出的新型回歸損失函數(shù)則有效地解決了這兩個(gè)問(wèn)題,更加靈活地利用行人可見(jiàn)框來(lái)指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)設(shè)置

2.1.1 數(shù)據(jù)集

實(shí)驗(yàn)是在Caltech和CityPerson兩個(gè)行人數(shù)據(jù)集上進(jìn)行的。Caltech數(shù)據(jù)集[22]是目前最為常用的公開(kāi)數(shù)據(jù)集之一,原始圖片為640×480像素,提供行人全身邊界框和可見(jiàn)區(qū)域邊界框標(biāo)簽。預(yù)先劃分好訓(xùn)練集4 250張,測(cè)試集4 024張。CityPerson是目前較新的公開(kāi)行人檢測(cè)數(shù)據(jù)集,由文獻(xiàn)[23]于2017年提供,其包含了5 000張德國(guó)各地的實(shí)拍圖片。相比于Caltech數(shù)據(jù)集,其行人遮擋問(wèn)題更加嚴(yán)重。數(shù)據(jù)集預(yù)先將2 975張作為訓(xùn)練集,1 525張作為測(cè)試集,圖片為2 048× 1 024像素,提供行人全身邊界框和可見(jiàn)部分邊界框。

2.1.2 先驗(yàn)邊界框的設(shè)置

本文算法在5個(gè)不同的特征層進(jìn)行預(yù)測(cè),所以需要設(shè)計(jì)各特征層上的預(yù)設(shè)邊界框,預(yù)設(shè)邊界框的好壞直接影響到回歸的速度與精度。文獻(xiàn)[6,9]手工設(shè)計(jì)幾個(gè)固定尺寸和比例的邊界框,但其不夠靈活且效果稍差。文獻(xiàn)[24]提出了一種更為靈活的方法,通過(guò)對(duì)訓(xùn)練集進(jìn)行聚類(lèi)來(lái)確定預(yù)設(shè)邊界框的尺寸和比例。

本文采用聚類(lèi)的思想來(lái)設(shè)計(jì)預(yù)設(shè)邊界框,與文獻(xiàn)[24]不同的是,本文算法在5個(gè)特征層進(jìn)行預(yù)測(cè),所以需要根據(jù)不同特征圖的尺寸合理安排不同大小的預(yù)設(shè)邊界框。具體做法是:首先獲得訓(xùn)練集中所有真實(shí)框的寬高ball={b1,b2,…,bn},為了避免聚類(lèi)中心被數(shù)據(jù)量最大的中等尺寸的框主導(dǎo),預(yù)先按框的高度h從小到大將所有框劃分為5份,然后利用k-means聚類(lèi)基于每份邊界框生成9個(gè)預(yù)設(shè)的邊界框,最終共生成45個(gè)不同大小與比例的預(yù)設(shè)邊界框,分別配置到不同尺度的預(yù)測(cè)特征層上。聚類(lèi)中,考慮輸出行人邊界框的目的,距離度量采用如下形式:

d(box,ci)=1-IOU(box,ci)

(6)

(7)

其中:box為訓(xùn)練集中的行人邊界框,ci為第i個(gè)聚類(lèi)中心代表的邊界框。

2.1.3 訓(xùn)練細(xì)節(jié)

利用水平翻轉(zhuǎn)、裁剪等操作實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),增加訓(xùn)練樣本集的豐富程度。為了保證圖片放縮過(guò)程中物體不會(huì)變形,通過(guò)加padding縮放操作將Caltech和CityPerson數(shù)據(jù)集的輸入圖片尺寸分別調(diào)整為1 200×900像素和1 400×700像素,兼顧性能和速度。通過(guò)Adam算法對(duì)網(wǎng)絡(luò)各部分參數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率的初始值設(shè)為0.000 1,如果連續(xù)3個(gè)epoch整體損失函數(shù)值不發(fā)生明顯變化,學(xué)習(xí)率衰減為原來(lái)的1/10,總訓(xùn)練epoch數(shù)為80。主干網(wǎng)絡(luò)ResNet50采用在ImageNet上訓(xùn)練好的模型。batch大小為2,訓(xùn)練平臺(tái)為英偉達(dá)RTX 2080。

2.1.4 評(píng)估指標(biāo)

對(duì)數(shù)平均漏檢率(log-average miss rate)[22]是評(píng)估行人檢測(cè)算法最為常用的指標(biāo)之一。同時(shí)為了更好地體現(xiàn)算法對(duì)遮擋問(wèn)題的處理能力,利用數(shù)據(jù)集提供的行人可見(jiàn)邊界框和全身邊界框的比值(可見(jiàn)度,Vis)來(lái)衡量遮擋程度,將測(cè)試集按遮擋程度分為以下3類(lèi):1)輕微遮擋, Vis>0.65;2)嚴(yán)重遮擋,0.200.20。分別測(cè)試算法在不同遮擋測(cè)試集上的檢測(cè)效果。

2.2 實(shí)驗(yàn)結(jié)果

本文以RetinaNet為基本框架,分別添加雙重注意力機(jī)制子網(wǎng)絡(luò)和可感知遮擋的優(yōu)化回歸損失函數(shù),其余參數(shù)值均保持和RetinaNet相同。消融實(shí)驗(yàn)結(jié)果見(jiàn)表2、3。其中k-means_anchor、attention、weightloss分別表示是否用聚類(lèi)預(yù)測(cè)邊界框、是否加入注意力機(jī)制子網(wǎng)絡(luò)以及是否使用改進(jìn)的回歸損失函數(shù)。

表2 Caltech數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果

表3 CityPerson 數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果

由表2、3的消融實(shí)驗(yàn)結(jié)果可以看出,與基準(zhǔn)方法RetinaNet相比,增加注意力機(jī)制子網(wǎng)絡(luò)和感知遮擋的新型回歸損失函數(shù)在不同遮擋程度子集上均會(huì)帶來(lái)一定的性能提升,尤其是對(duì)于嚴(yán)重遮擋的子集,性能提升更加顯著。在Caltech的嚴(yán)重遮擋子集上二者分別提高了6.22%和7.35%,在CityPerson上分別提高了3.29%和3.37%。相較于基本框架RetinaNet,本文方法在Caltech和CityPerson的嚴(yán)重遮擋子集上分別提高了12.03%和4.56%,充分表明該方法對(duì)復(fù)雜交通場(chǎng)景下的遮擋問(wèn)題具有很好的處理能力,本文方法的整體性能與RetinaNet相比,同樣有較大的提升。此外,利用聚類(lèi)生成預(yù)設(shè)行人邊界框會(huì)給整體性能帶來(lái)一定提升,但對(duì)于遮擋問(wèn)題效果不明顯。

圖4展示了Caltech數(shù)據(jù)集下基準(zhǔn)方法RetinaNet與本文方法的檢測(cè)效果,可以看出,基準(zhǔn)方法無(wú)法檢出一些被汽車(chē)、草叢等遮擋的行人,而本文方法可以檢出這些目標(biāo);對(duì)于一些行人之間相互遮擋的現(xiàn)象,基準(zhǔn)方法只會(huì)給出一個(gè)大的邊界框,本文方法能分別將每個(gè)行人框出,表明本文方法對(duì)于類(lèi)內(nèi)遮擋和類(lèi)間遮擋均具有較好的魯棒性。

圖4 Caltech數(shù)據(jù)集上檢測(cè)效果圖

在中國(guó)的街道場(chǎng)景中,行人更加密集,極易發(fā)生遮擋現(xiàn)象,尤其是類(lèi)內(nèi)遮擋較為普遍。本文方法對(duì)于類(lèi)內(nèi)遮擋的魯棒性結(jié)論在國(guó)內(nèi)智能交通領(lǐng)域具有較高的應(yīng)用價(jià)值。

2.3 實(shí)驗(yàn)分析

2.3.1 檢測(cè)效果

表4對(duì)比了本文方法和其他8種方法(包括傳統(tǒng)的HOG[2]和ACF[4],基準(zhǔn)RetinaNet[18],新近提出的AdaptFasterRCNN[23]等)的檢測(cè)效果??紤]到CityPerson數(shù)據(jù)集較新,目前尚未有充足方法在其上進(jìn)行測(cè)試,且其Benchmark并未給出其他方法的原始檢測(cè)文件,難以客觀地與其對(duì)比算法性能。因此對(duì)比實(shí)驗(yàn)只在Caltech上進(jìn)行.

從表4中可以看出,本文方法在整體數(shù)據(jù)集上的平均對(duì)數(shù)漏檢率最低,僅為18.72%,與其他方法相比具有一定的優(yōu)勢(shì)。在輕微遮擋子集上,本文方法的檢測(cè)效果也處于前列,平均漏檢率為9.97%,略高于AdaptFastRCNN等4種方法,這可能是本文方法側(cè)重于遮擋問(wèn)題而導(dǎo)致一些小尺寸行人的漏檢。但在嚴(yán)重遮擋子集上,本文方法的性能十分突出,其平均對(duì)數(shù)漏檢率僅為45.69%,比其他方法小12%以上,遠(yuǎn)遠(yuǎn)領(lǐng)先其他方法。這表明本文針對(duì)遮擋問(wèn)題專(zhuān)門(mén)設(shè)計(jì)的雙重注意力機(jī)制和遮擋感知的新型回歸損失函數(shù)非常有效。從表4中還可以看出,對(duì)于行人檢測(cè)這樣的非剛體、背景復(fù)雜且存在遮擋的檢測(cè)問(wèn)題,包括本文方法在內(nèi)的基于卷積神經(jīng)網(wǎng)絡(luò)的方法遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的手工設(shè)計(jì)特征的方法。

表4 Caltech數(shù)據(jù)集上與其他8種方法對(duì)比結(jié)果

圖5進(jìn)一步給出了嚴(yán)重遮擋子集上幾種方法的漏檢率隨著每張圖誤檢數(shù)目變化的曲線(xiàn)圖,曲線(xiàn)下方的面積越小,行人檢測(cè)算法的性能更強(qiáng)。同樣可以看出,隨著每圖誤檢數(shù)量的變化,本文方法的漏檢率都處于最低水平,相比于其他行人檢測(cè)方法,整體優(yōu)勢(shì)明顯。

圖5 Caltech嚴(yán)重遮擋子集上的檢測(cè)效果對(duì)比

2.3.2 檢測(cè)速度

本文方法在Caltech(縮放至1 200×900像素)和CityPerson數(shù)據(jù)集(縮放至1 400×700像素)上的檢測(cè)速度分別為11.8幀/s(frames per second)和10.0幀/s,實(shí)現(xiàn)了準(zhǔn)實(shí)時(shí)的行人檢測(cè)。此外,也比較了本文方法和其他4種精度較高的檢測(cè)方法(包括RPN+BF[25], SA-FastRCNN[26]等)的檢測(cè)效率,實(shí)驗(yàn)在Caltech數(shù)據(jù)集上進(jìn)行。為進(jìn)行公平的比較,類(lèi)似于文獻(xiàn)[28],本文對(duì)比了各方法在單位算力(TFLOPS,每秒萬(wàn)億次單精度浮點(diǎn)計(jì)算)下的檢測(cè)速度,結(jié)果見(jiàn)表5(GPU計(jì)算能力來(lái)自NVIDIA官網(wǎng))。

表5 5種方法的檢測(cè)速度

從表5中可以看出,本文方法的檢測(cè)速度略慢于RetinaNet,比其他3種方法的快1倍以上。主要原因在于:本文方法采用單階段的檢測(cè)框架,可以實(shí)現(xiàn)端到端的快速檢測(cè);而SA-FastRCNN等3種方法采用雙階段的檢測(cè)框架,需要通過(guò)網(wǎng)絡(luò)生成候選區(qū)域然后再進(jìn)行檢測(cè);此外,由于注意力機(jī)制子網(wǎng)絡(luò)帶來(lái)了附加的計(jì)算量,因此本文方法的檢測(cè)效率略低于RetinaNet。

3 結(jié) 論

提出一種結(jié)合雙重注意力機(jī)制的遮擋感知方法來(lái)提高行人檢測(cè)算法在嚴(yán)重遮擋情況下的性能,降低遮擋對(duì)檢測(cè)造成的影響。該方法通過(guò)引入空間/通道雙重注意力機(jī)制,以及遮擋感知的新型損失函數(shù),能夠有效地處理遮擋問(wèn)題,在Caltech和CityPerson數(shù)據(jù)集上分別取得18.72%和41.95%的平均漏檢率,優(yōu)于RetinaNet等8種先進(jìn)的行人檢測(cè)算法;尤其在Caltech嚴(yán)重遮擋子集上,其平均漏檢率僅為45.69%,低于其他方法12%以上。并且,該方法可以實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)的行人檢測(cè),在Caltech和CityPerson上的檢測(cè)速度分別為11.8幀/s和10.0幀/s。

猜你喜歡
機(jī)制特征檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
破除舊機(jī)制要分步推進(jìn)
注重機(jī)制的相互配合
主站蜘蛛池模板: 国产亚洲视频播放9000| 凹凸精品免费精品视频| 国产地址二永久伊甸园| 国产情侣一区| 亚洲国产精品人久久电影| 国产对白刺激真实精品91| 浮力影院国产第一页| 成人国产精品2021| 亚洲欧美日韩成人高清在线一区| 亚洲天堂视频在线观看| 亚洲精品国产首次亮相| 中文国产成人精品久久| 国产JIZzJIzz视频全部免费| 四虎影视无码永久免费观看| 伊人国产无码高清视频| 国产激情在线视频| 色爽网免费视频| 国产永久在线观看| 欧美www在线观看| 操操操综合网| 国产在线视频自拍| 日本午夜影院| a毛片在线| 国产成人高清精品免费| 91精品啪在线观看国产60岁 | 亚洲天天更新| 在线播放国产一区| 青青草原偷拍视频| 亚洲经典在线中文字幕| 国产成人亚洲日韩欧美电影| 天堂成人在线| 色婷婷色丁香| 呦视频在线一区二区三区| 久久精品免费国产大片| 日本伊人色综合网| 国产一级α片| 免费无码AV片在线观看国产| 亚洲成人一区二区| 免费国产在线精品一区 | 色窝窝免费一区二区三区| 啦啦啦网站在线观看a毛片| 日韩欧美国产三级| 国产日韩精品一区在线不卡| yjizz视频最新网站在线| 亚洲男人的天堂网| 久久永久精品免费视频| 国产精品区视频中文字幕| 精品三级在线| 国产精品成| 国产精品9| 国产成人精品一区二区不卡| 国产高潮视频在线观看| 狼友视频国产精品首页| 97色伦色在线综合视频| 久久综合亚洲鲁鲁九月天| 国产欧美精品一区二区 | 天堂网国产| 精品欧美一区二区三区久久久| 欧美区一区| 久久中文字幕av不卡一区二区| 99人体免费视频| 亚洲天堂网在线播放| 永久免费精品视频| 嫩草国产在线| 99视频精品全国免费品| 四虎国产成人免费观看| 亚瑟天堂久久一区二区影院| 日本一本正道综合久久dvd| 国内精品自在欧美一区| 免费一级α片在线观看| 亚洲日韩在线满18点击进入| 國產尤物AV尤物在線觀看| 日韩一区精品视频一区二区| 日韩欧美国产中文| 四虎精品黑人视频| 亚洲高清在线天堂精品| 永久在线精品免费视频观看| 久久国产精品无码hdav| 91免费国产在线观看尤物| 国产91小视频在线观看| 九九精品在线观看| 成人国产小视频|