竇允沖,侯進(jìn),曾雷鳴,陳子銳
(1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院智能感知智慧運(yùn)維實(shí)驗(yàn)室,成都 611756;2.西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,成都 611756;3.西南交通大學(xué)綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室,成都 611756)
近年來(lái),深度學(xué)習(xí)的快速發(fā)展推動(dòng)了目標(biāo)檢測(cè)在汽車(chē)自動(dòng)駕駛領(lǐng)域的研究。汽車(chē)在行駛中采集到的高精度街景信息具有多樣性,同時(shí)當(dāng)汽車(chē)行駛的速度較快時(shí),在一次采集中遠(yuǎn)處行人、車(chē)輛、交通標(biāo)志及其他物體較小。因此,在自動(dòng)駕駛領(lǐng)域中,對(duì)小目標(biāo)的檢測(cè)準(zhǔn)確性與速度都有更高的要求。當(dāng)前對(duì)于小目標(biāo)[1]的定義有2 種:一種是尺寸小于原圖尺寸十分之一的目標(biāo);另一種是像素點(diǎn)數(shù)少于32×32 的目標(biāo)。目標(biāo)檢測(cè)技術(shù)在大、中目標(biāo)上取得了很大的進(jìn)步,但是在小目標(biāo)檢測(cè)中面臨極大的挑戰(zhàn)。
在利用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測(cè)前,普遍使用不同分辨率的圖像金字塔與不同分辨率的分類(lèi)器對(duì)不同尺度的物體進(jìn)行滑動(dòng)檢測(cè),實(shí)現(xiàn)在較小窗口檢測(cè)到小目標(biāo)的目的。由于之前方法效率低、耗時(shí)久,GHIASI 和LI等[2-3]提出特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),通過(guò)在不同特征層提取特征進(jìn)行預(yù)測(cè),SINGH等[4]借鑒多尺度訓(xùn)練的思想在一定程度上解決了FPN對(duì)于較小物體檢測(cè)效果不理想的問(wèn)題。為了進(jìn)一步提高精確度,PANet[5]優(yōu)化了FPN,增強(qiáng)了多尺度融合信息,F(xiàn)ocal Loss[6]網(wǎng)絡(luò)與Focal Loss V2[7]網(wǎng)絡(luò)則將困難樣本結(jié)合FPN 提高網(wǎng)絡(luò)的檢測(cè)性能,而R3Det[8]設(shè)計(jì)了特征精煉模塊提高檢測(cè)精度。
目前,基于深度學(xué)習(xí)有兩種具有代表性的目標(biāo)檢測(cè)方法。首先是兩階段的目標(biāo)檢測(cè)方法:第一階段生成候選區(qū)域,第二階段對(duì)候選區(qū)域進(jìn)行分類(lèi)和回歸,代表網(wǎng)絡(luò)有R-CNN 系列網(wǎng)絡(luò)[9-11]、Cascade R-CNN[12]、D2Det[13]等。D2Det 在R-CNN 的基礎(chǔ)上對(duì)分類(lèi)和回歸分支進(jìn)行改進(jìn),進(jìn)一步提高了精度。其次是單階段目標(biāo)檢測(cè)方法,這種方法不使用候選框,直接預(yù)測(cè)出類(lèi)別信息和位置信息,單次檢測(cè)直接得到最終的結(jié)果,如YOLO 系列[14-16]、SSD[17]、YOLOx[18]等網(wǎng)絡(luò)。YOLO 系列網(wǎng)絡(luò)直接對(duì)圖片進(jìn)行網(wǎng)格劃分,將檢測(cè)轉(zhuǎn)化為回歸;YOLOv4[19]是對(duì)YOLO 與當(dāng)時(shí)其他經(jīng)典網(wǎng)絡(luò)的一次借鑒;SSD 網(wǎng)絡(luò)同時(shí)借鑒了單階段和雙階段的思路,即具有雙階段類(lèi)似的先驗(yàn)框,也包括單階段的一次完成目標(biāo)定位與分類(lèi)的過(guò)程;YOLOx 網(wǎng)絡(luò)在YOLO 網(wǎng)絡(luò)基礎(chǔ)上對(duì)YOLO Head 解耦,同時(shí)采用了無(wú)錨框。
然而,單階段目標(biāo)檢測(cè)算法和兩階段目標(biāo)檢測(cè)算法的小目標(biāo)檢測(cè)效果都不如大目標(biāo)檢測(cè)。針對(duì)該問(wèn)題,本文選取YOLOv4[19]作為主要檢測(cè)網(wǎng)絡(luò),提出一種改進(jìn)的YOLOv4-RF 小目標(biāo)檢測(cè)算法。
YOLOv4 算法在YOLOv3[16]算法的基礎(chǔ)上進(jìn)行優(yōu) 化,主要優(yōu)化為:借 鑒CSPNet[20]思想設(shè)計(jì)CSPDarkNet53[19],在增加網(wǎng)絡(luò)深度的同時(shí)減少了參數(shù)量;為得到更豐富的多尺度信息,在主干網(wǎng)絡(luò)與Neck 部分增加空間池化金字塔SPP[21]模塊,同時(shí)不限制網(wǎng)絡(luò)的輸入尺寸;引入路徑綜合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[5]代替多層特征金字塔;同時(shí)使用當(dāng)時(shí)一些優(yōu)秀的優(yōu)化策略,如馬賽克數(shù)據(jù)增強(qiáng)、網(wǎng)絡(luò)訓(xùn)練方式、Mish 激活函數(shù)等。由此形成CSPDarkNet53+SPP+PANet+YOLO Head 的網(wǎng)絡(luò)結(jié)構(gòu),在效果上實(shí)現(xiàn)了速度與精度結(jié)合的最佳平衡。
空洞卷積的提出,使傳統(tǒng)深層網(wǎng)絡(luò)中下采樣過(guò)程的圖像分辨率降低、信息丟失等問(wèn)題得到了較好解決。在消耗相同計(jì)算量時(shí),達(dá)到擴(kuò)大感受野與信息不丟失的目的。與標(biāo)準(zhǔn)卷積相比,空洞卷積在卷積核之間增加間隔數(shù),增加的間隔數(shù)稱(chēng)為擴(kuò)張率。設(shè)置不同的擴(kuò)張率會(huì)得到不同的感受野,從而獲得多尺度信息。擴(kuò)張率為1,2,4 的空洞卷積示意圖如圖1 所示。在相同參數(shù)量的情況下,由圖1(a)可以看出擴(kuò)張率為1 的空洞卷積和標(biāo)準(zhǔn)卷積相同;圖1(b)的空洞卷積感受野為5×5;同理,經(jīng)過(guò)圖1(a)、圖1(b)和圖1(c)進(jìn)行卷積后,得到的感受野為15×15,比3 個(gè)標(biāo)準(zhǔn)卷積后得到的感受野要大。

圖1 擴(kuò)張率為1、2、4 的空洞卷積Fig.1 Cavity convolution with expansion rates of 1,2 and 4
遞歸特征金字塔[22]在特征金字塔和主干網(wǎng)絡(luò)之間建立反饋連接,將第i次提取的特征反饋到主干網(wǎng)絡(luò),作為主干網(wǎng)絡(luò)第i+1 次的部分輸入。多級(jí)遞歸特征金字塔可以遞歸地增強(qiáng)FPN,不斷提升FPN 的表示能力。FPN 的特征計(jì)算公式為:

其中:B為主干網(wǎng)絡(luò);Bi表示第i個(gè)階段;F函數(shù)為自頂向下的FPN,F(xiàn)i表示第i個(gè)特征層。得到第i層輸出特征fi,加入反饋連接后,得到的遞歸特征金字塔公式為:

其中:Ri(fi)為反饋后的輸出,然后送入自下而上的主干網(wǎng)絡(luò)。RFP 反饋特征示意圖如圖2 所示。

圖2 RFP 反饋特征圖Fig.2 RFP feedback characteristic diagram
本文主要從主干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)、損失函數(shù)、目標(biāo)框的聚類(lèi)分析等方面對(duì)YOLOv4算法進(jìn)行優(yōu)化,以提高面向自動(dòng)駕駛的小目標(biāo)檢測(cè)精度與速度。YOLOv4-RF 網(wǎng)絡(luò)整體結(jié)構(gòu)如圖3 所示,主干網(wǎng)絡(luò)部分由于反饋機(jī)制需要二次提取特征,考慮到原CSPDarkNet5 會(huì)使整個(gè)網(wǎng)絡(luò)架構(gòu)太復(fù)雜,參考YOLOv5 中BottleNeckCSP結(jié)構(gòu)對(duì)CSPDarkNet53 進(jìn)行輕量化減枝。為保留更多的小目標(biāo)信息,本文結(jié)合空洞卷積和遞歸特征金字塔,同時(shí)獲得了更加豐富的特征信息。通過(guò)對(duì)KITTI 數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)數(shù)據(jù)集中的小目標(biāo)及個(gè)數(shù)較少的目標(biāo)屬于困難樣本。受RetaiNet[6]網(wǎng)絡(luò)的啟發(fā),對(duì)原網(wǎng)絡(luò)中置信度損失和類(lèi)別損失均使用Focal Loss 損失函數(shù)。同時(shí)在錨框設(shè)定時(shí),發(fā)現(xiàn)KITTI 數(shù)據(jù)集的錨框與coco的有較大的差距。因此,本文采用K-means++自主生成的預(yù)測(cè)框尺寸,更好地適應(yīng)數(shù)據(jù)集。

圖3 YOLOv4-RF 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 YOLO4-RF network structure
本文目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)的具體設(shè)計(jì)如下:
1)為保留更多待檢測(cè)物體的特征信息,對(duì)特征圖進(jìn)行多尺度采樣。同時(shí),采用空洞卷積替代池化層來(lái)減少信息損失。基于以上,設(shè)計(jì)一個(gè)空洞卷積特征金字塔網(wǎng)絡(luò)ASPP 替換YOLOv4 中SPP 模塊。
2)為更好地提取多尺度的特征信息,在特征金字塔網(wǎng)絡(luò)與主干網(wǎng)絡(luò)之間引入反饋機(jī)制,使用二級(jí)遞歸特征金字塔對(duì)提取后的特征進(jìn)行處理。每個(gè)反饋層均由從上至下的特征層融合得出,同時(shí)在每個(gè)反饋分支都添加ASPP 模塊,對(duì)融合的特征信息做進(jìn)一步處理。此部分工作可使YOLOv4 處理小目標(biāo)的漏檢和誤檢問(wèn)題得到改善。
3)由于引入帶有反饋機(jī)制的特征金字塔網(wǎng)絡(luò),需要部分的主干網(wǎng)絡(luò)二次提取特征,訓(xùn)練與推理時(shí)間明顯增加。基于此,對(duì)YOLOv4 主干網(wǎng)絡(luò)CSPDarkNet53進(jìn)行輕量化。從深度和寬度對(duì)CSPDarkNet53 網(wǎng)絡(luò)進(jìn)行縮減:在主干網(wǎng)絡(luò)中減少BottleNeckCSP模塊的個(gè)數(shù),對(duì)于BottleNeckCSP 的卷積核個(gè)數(shù)也進(jìn)行縮減。同時(shí)針對(duì)減少主干網(wǎng)絡(luò)輕量化后帶來(lái)特征提取能力不足的問(wèn)題,在自頂向下的特征金字塔網(wǎng)絡(luò)中加入BottleNeckCSP 模塊。
隨著對(duì)行業(yè)的逐漸了解,何正偉開(kāi)始在田間做起了示范田。雖然撒可富在四川已經(jīng)有了一定的渠道基礎(chǔ),但由于近年來(lái)農(nóng)作物價(jià)格很不理想,農(nóng)戶(hù)們對(duì)于肥料價(jià)格十分敏感,對(duì)于走高端路線的撒可富來(lái)說(shuō),并不占優(yōu)勢(shì)。在何正偉看來(lái),撒可富過(guò)硬的質(zhì)量是打開(kāi)局面的突破口。利用撒可富肥效長(zhǎng)、同等用量肥效更強(qiáng)的特點(diǎn),何正偉與中阿公司商議在柑橘種植區(qū)推出40公斤小包裝產(chǎn)品,經(jīng)過(guò)試驗(yàn),不僅能保證肥效,甚至優(yōu)于同類(lèi)50公斤產(chǎn)品。真正幫助農(nóng)戶(hù)減肥增效,增產(chǎn)增收。
2.2.1 輕量化的CSPDarkNet53
YOLOv4 中CSPDarkNet53 實(shí)際含有73 層卷積層,而本文所使用的特征金字塔包含反饋連接,得到預(yù)測(cè)的特征圖時(shí),要經(jīng)過(guò)主干網(wǎng)絡(luò)兩次提取,這就顯得原來(lái)的特征網(wǎng)絡(luò)過(guò)深,耗時(shí)較長(zhǎng),不能滿(mǎn)足自動(dòng)駕駛領(lǐng)域?qū)δ繕?biāo)檢測(cè)的速度要求。因此,本文著重對(duì)CSPDarkNet53 中的BottleneckCSP 部分在寬度和深度方面進(jìn)行簡(jiǎn)化。對(duì)BottleNeckCSP 的輕量化分為兩種,分別為CSP1 和CSP2。其中,CSP1 包含多個(gè)殘差結(jié)構(gòu)(ResNet),CSP2 包含多個(gè)空洞卷積進(jìn)行采樣。對(duì)于兩種CSP 中的卷積核個(gè)數(shù)進(jìn)行相應(yīng)減少,從而達(dá)到寬度和深度的輕量化。具體在低目標(biāo)信息采用CSP2,同時(shí)在原SPP,現(xiàn)有的ASPP 后加一層CSP2,加深網(wǎng)絡(luò)而不增加較多的計(jì)算量,得到CSPDarkNet-Lite。
CSPDarkNet53 中CSP 模塊均是通過(guò)堆疊BottleNeck 殘差結(jié)構(gòu)以增加網(wǎng)絡(luò)深度。由表1 可以看出,本文對(duì)CSP模塊在深度和寬度方面進(jìn)行了輕量化。由于反饋網(wǎng)絡(luò)的存在,使得輕量化后的網(wǎng)絡(luò)仍能得到較好的精確度。

表1 CSPDarkNet-Lite 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 CSPDarkNet-Lite network structure
2.2.2 空洞卷積池化金字塔
當(dāng)前主流的目標(biāo)檢測(cè)網(wǎng)絡(luò)都使用一些比較深層的主干網(wǎng)絡(luò),如ResNet[23]、ResNext[24]、DenseNet[25]、CSPDarkNet53 等。這些網(wǎng)絡(luò)普遍的問(wèn)題是網(wǎng)絡(luò)模型的感受野會(huì)隨著深度的加深而擴(kuò)大,以及小目標(biāo)的位置信息在高層特征圖中缺失嚴(yán)重。在YOLOv4中,SPP 使用池化層在多個(gè)尺度進(jìn)行采樣,雖然會(huì)對(duì)主干網(wǎng)絡(luò)提取的特征進(jìn)行多尺度融合,但也會(huì)造成信息的損失。針對(duì)這一問(wèn)題,本文結(jié)合空洞卷積的特點(diǎn),使用不同空洞率的空洞卷積代替池化層形成空洞空間池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)[26],達(dá)到增大不同感受野同時(shí)保留大量目標(biāo)位置信息的目的。空洞率分別為1、3、3、1 的ASPP結(jié)構(gòu)如圖4 所示。

圖4 ASPP 結(jié)構(gòu)Fig.4 ASPP structure
2.2.3 二級(jí)遞歸特征金字塔網(wǎng)絡(luò)
YOLOv4 采用PANet 網(wǎng)絡(luò)進(jìn)行路徑增強(qiáng)和聚合,對(duì)來(lái)自FPN 的信息重復(fù)處理,使底層的定位信息更容易傳播。FPN 和PANet 網(wǎng)絡(luò)均反映了特征信息的重復(fù)使用和細(xì)化的重要性。為獲得更加豐富的定位信息,本文設(shè)計(jì)二級(jí)遞歸特征金字塔(Recurisive Feature Pyramid,RFP)網(wǎng)絡(luò),其結(jié)構(gòu)如圖5 所示。

圖5 二級(jí)遞歸特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Two-level recursive feature pyramid network structure
本文從FPN 層增加了FPN 到主干網(wǎng)絡(luò)的反饋連接,使主干網(wǎng)絡(luò)二次訓(xùn)練對(duì)應(yīng)的特征層,在反饋訓(xùn)練時(shí)也包含了PANet 的自底向上的傳播。為解決主干網(wǎng)絡(luò)輕量化后輸出特征表達(dá)能力不足的問(wèn)題,本文在特征金字塔每個(gè)特征層自頂向下傳播中增加一個(gè)CSP2 結(jié)構(gòu),即在反饋時(shí),每個(gè)特征層都先經(jīng)過(guò)CSP2模塊,經(jīng)過(guò)ASPP 獲得多尺度特征信息并調(diào)整輸出尺寸,然后送入原主干網(wǎng)絡(luò)。為減少參數(shù)量,本文在反饋時(shí)共享原卷積層的參數(shù),比PANet 少了一個(gè)特征金字塔層的參數(shù)。
2.2.4 K-means++與Focal Loss
在對(duì)KITTI 數(shù)據(jù)集進(jìn)行分析后,本文對(duì)原類(lèi)別進(jìn)行調(diào)整,除去雜項(xiàng)及其他項(xiàng)后,剩余7 個(gè)類(lèi)別。通過(guò)對(duì)處理后的類(lèi)別進(jìn)行分析,本文融合其中的一些類(lèi)別形成最終的3 個(gè)類(lèi)別。與COCO 數(shù)據(jù)集和Pascal Voc2012數(shù)據(jù)集相比,KITTI數(shù)據(jù)集的寬高比更大。由于K-means算法存在依賴(lài)初始值的缺點(diǎn),為獲得更加精確、穩(wěn)定的尺寸,本文采用K-means++自主生成的預(yù)測(cè)框尺寸。根據(jù)模型結(jié)構(gòu),對(duì)KITTI數(shù)據(jù)集標(biāo)簽進(jìn)行聚類(lèi),生成9組不同的寬高組合,聚類(lèi)結(jié)果如表2 所示。

表2 KITTI anchor 聚類(lèi)結(jié)果Table 2 KITTI anchor clustering result
由于小目標(biāo)含有像素少、易受干擾等原因,YOLOv4 的損失函數(shù)不能很好地表達(dá)小目標(biāo)的損失在所有損失中的占比,導(dǎo)致不能更好地訓(xùn)練小目標(biāo)。因此,在邊界框回歸損失上,本文和YOLOv4一致,采用CIoU 損失函數(shù)。但由于存在正負(fù)樣本比例失衡,以及困難樣本(小目標(biāo))等問(wèn)題,本文對(duì)YOLOv4 中的置信度損失和分類(lèi)損失均采用Focal Loss 損失函數(shù),利用Focal Loss 中的調(diào)節(jié)因子調(diào)整正負(fù)樣本以及困難樣本的權(quán)重。Focal Loss 損失函數(shù)(見(jiàn)式(5))是在標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)(見(jiàn)式(3))的基礎(chǔ)上進(jìn)行改進(jìn),增加了正負(fù)樣本權(quán)值αt與難易樣本權(quán)值(1-pt)γ。式(3)、式(4)中p表示預(yù)測(cè)樣本為1 的概率。
綜上,本文使用K-means++聚類(lèi)預(yù)測(cè)框,使用CIOU 損失函數(shù)對(duì)邊界框進(jìn)行回歸損失,使用Focal Loss 對(duì)置信度和類(lèi)別計(jì)算損失,加快回歸速度,增強(qiáng)網(wǎng)絡(luò)的魯棒性。


本文實(shí)驗(yàn)采用德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)辦的KITTI 數(shù)據(jù)集[27],其中包含8 個(gè)類(lèi)別,共有訓(xùn)練集7 481 張圖片、測(cè)試集7 518 張圖片。數(shù)據(jù)集中Misc 類(lèi)別為雜項(xiàng),圖6(a)為去除Misc 后訓(xùn)練集的類(lèi)別分布圖。從圖6(a)可以看出類(lèi)別數(shù)量具有較大差距,最少的僅有199 個(gè)目標(biāo),而最多的達(dá)到25 942 個(gè)目標(biāo)。為使圖片更好地應(yīng)用于自動(dòng)駕駛算法訓(xùn)練及驗(yàn)證,本文先通過(guò)隨機(jī)裁剪、放大、光度變化等方法對(duì)數(shù)量較少的類(lèi)別擴(kuò)增1.5 倍,再對(duì)數(shù)據(jù)集中不同類(lèi)別進(jìn)行融合為一類(lèi),最后分為Car、Person、Cyclist 這三個(gè)類(lèi)別。處理后的數(shù)據(jù)集類(lèi)別數(shù)量如圖6(b)所示。由于訓(xùn)練集的數(shù)量較少,本文在訓(xùn)練時(shí)采用Mosia 數(shù)據(jù)增強(qiáng),以增強(qiáng)網(wǎng)絡(luò)的魯棒性并減少類(lèi)別的不平衡。

圖6 KITTI 數(shù)據(jù)集類(lèi)別分布Fig.6 KITTI dataset category distribution
本文從準(zhǔn)確率、召回率、平均準(zhǔn)確率(mean Average Precision,mAP)以及各類(lèi)別的P-R曲線圖衡量模型的整體性能,其中:P表示正確檢測(cè)的目標(biāo)個(gè)數(shù)在所有檢測(cè)目標(biāo)中占有的比例,即準(zhǔn)確率;R表示正確檢測(cè)的目標(biāo)在全部目標(biāo)中占有的比例,即召回率。
由于置信度的影響,目標(biāo)檢測(cè)標(biāo)準(zhǔn)中單一的P或R都不能作為評(píng)價(jià)標(biāo)準(zhǔn),因此本文采用P-R曲線圖進(jìn)行定性分析,在數(shù)值上采用mAP 定量分析模型精度。公式如下:

在式(6)和式(7)中:TP表示對(duì)樣本中檢測(cè)正確的個(gè)數(shù)(True Positive);FP則與此相反,表示誤檢的個(gè)數(shù)(False Positive);FN為樣本中漏檢的個(gè)數(shù)(False Negative)。在式(8)中:樣本中類(lèi)別的數(shù)量表示為N;Pn為該類(lèi)的AP 值。
由于數(shù)據(jù)集的尺寸較大,本文網(wǎng)絡(luò)的輸入尺寸采用640×640,訓(xùn)練時(shí)對(duì)圖片進(jìn)行放縮處理,同時(shí)啟用馬賽克數(shù)據(jù)增強(qiáng)。訓(xùn)練時(shí)分為兩個(gè)階段:先進(jìn)行150 個(gè)epoch 凍結(jié)訓(xùn)練;再進(jìn)行200 個(gè)epoch 解凍訓(xùn)練。凍結(jié)階段凍結(jié)主干網(wǎng)絡(luò),占用的顯存較少,僅對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),此時(shí)設(shè)置batch_size 為8。解凍階段不凍結(jié)主干網(wǎng)絡(luò),網(wǎng)絡(luò)的所有參數(shù)都會(huì)發(fā)生改變,占用的內(nèi)存較大,此時(shí)設(shè)置batch_size 為4。學(xué)習(xí)率在凍結(jié)階段初始化為0.001,解凍階段初始化為0.000 1,兩階段均采取每個(gè)epoch 更新一次學(xué)習(xí)率,乘法因子為0.94。
本文實(shí)驗(yàn)環(huán)境為:Pytorch1.6 深度學(xué)習(xí)框架,Intel Core I7,NVIDIA GeForce GTX1080Ti,顯存32 GB。
為了更全面地評(píng)估本文的改進(jìn)部分,對(duì)YOLOv4 網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn),將改進(jìn)后的主干網(wǎng)絡(luò)以及特征金字塔分別加入到Y(jié)OLOv4 網(wǎng)絡(luò)中,其他的與YOLOv4 保持一致,YOLOv4 作為對(duì)照組,共組成3 組對(duì)照組合,消融實(shí)驗(yàn)結(jié)果如表3 所示。從表3中可以看出:僅使用改進(jìn)后的RFP 模塊對(duì)檢測(cè)的精確度有明顯提升,但是模型規(guī)模增大了55 MB;在對(duì)主干網(wǎng)絡(luò)進(jìn)行輕量化后,雖然精確度僅增加1.4,但模型規(guī)模縮小了138 MB。

表3 模塊消融實(shí)驗(yàn)結(jié)果Table 3 Result of module ablation experiment
通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn),本文算法在KITTI 數(shù)據(jù)集類(lèi)別上預(yù)測(cè)的結(jié)果要稍高于YOLOv4。為進(jìn)一步評(píng)價(jià)網(wǎng)絡(luò)的綜合性能,首先在KITTI 數(shù)據(jù)集上,針對(duì)各個(gè)類(lèi)別的準(zhǔn)確率和復(fù)雜街景的4 組預(yù)測(cè)圖,將本文提出的算法YOLOv4-RF 與YOLOv4[19]進(jìn)行對(duì)比。然后從KITTI 數(shù)據(jù)集各類(lèi)別的P-R曲線圖評(píng)價(jià)算法的預(yù)測(cè)能力。從表4 中可以看出,在Cyclist 類(lèi)別上本文算法與YOLOv4 算法的精確度保持一致,而在其余類(lèi)別上本文算法的精確度稍高于YOLOv4。再?gòu)膱D7(b)與圖7(a)中的4 組對(duì)照?qǐng)D片可以看出,在復(fù)雜街景中,本文算法對(duì)小目標(biāo)物體的檢測(cè)能力與定位能力要優(yōu)于YOLOv4。

表4 YOLOv4 與YOLOv4-RF 算法的精確度比較Table 4 Comparison of accuracy between YOLOv4 and YOLOv4-RF algorithms

圖7 KITTI 數(shù)據(jù)集測(cè)試結(jié)果對(duì)比Fig.7 Comparison of test results on KITTI data set
最后,在召回率R取值0,0.01,0.02,0.03,…,1時(shí),采用插值方法計(jì)算出精確度,畫(huà)出KITTI 數(shù)據(jù)集各類(lèi)別的P-R曲線圖。對(duì)比圖8(a)與圖8(b)可知,本文算法的各類(lèi)別曲線在相同的取值R下,精確度基本都高于YOLOv4,進(jìn)一步表明本文算法具有更強(qiáng)的預(yù)測(cè)能力。由此可見(jiàn)本文算法在性能上優(yōu)于YOLOv4 算法。

圖8 各類(lèi)別P-R 曲線Fig.8 P-R curve of various classes
本文選取YOLOv3、YOLOv4、RetinaNet50 這3 種經(jīng)典網(wǎng)絡(luò)作為對(duì)照組進(jìn)行性能對(duì)比。然后在KITTI 數(shù)據(jù)集上從準(zhǔn)確率、召回率以及mAP 上對(duì)比4 種算法的性能,如表5 所示,可以看出,YOLOv4-RF在精度上明顯優(yōu)于其他算法。

表5 YOLOv4-RF 與其他算法的綜合比較Table 5 Comprehensive comparison between YOLOv4-RF and other algorithms %
現(xiàn)有深度學(xué)習(xí)算法在自動(dòng)駕駛領(lǐng)域應(yīng)用時(shí)存在小目標(biāo)漏檢、誤檢、檢測(cè)精度及速度不高的問(wèn)題。對(duì)此,本文提出一種改進(jìn)算法YOLOv4-RF 對(duì)主干網(wǎng)絡(luò)進(jìn)行輕量化以增加推理速度。加入空洞卷積池化金字塔,獲得更加豐富的上下文信息,提高小目標(biāo)檢測(cè)的準(zhǔn)確性。此外,使用二級(jí)遞歸金字塔增加反饋機(jī)制,得到表達(dá)更好的輸出特征。實(shí)驗(yàn)結(jié)果表明,YOLOv4-RF 在綜合性能上具有較大優(yōu)勢(shì)。后續(xù)將部署高準(zhǔn)確度的輕量化模型到嵌入式設(shè)備,設(shè)計(jì)更輕量化和推理速度更快的模型。