999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向自動(dòng)駕駛的多模態(tài)信息融合動(dòng)態(tài)目標(biāo)識(shí)別

2024-05-20 22:17:21張明容喻皓呂輝姜立標(biāo)李利平盧磊
重慶大學(xué)學(xué)報(bào) 2024年4期

張明容 喻皓 呂輝 姜立標(biāo) 李利平 盧磊

doi:10.11835/j.issn.1000.582X.2024.04.012

收稿日期:2023-05-12

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(51975217)。

Foundation:Supported by National Natural Science Foundation of China(51975217).

作者簡(jiǎn)介:張明容(1983—),女,博士,副教授,主要從事智能網(wǎng)聯(lián)汽車方向研究,(E-mail)153155269@qq.com。

通信作者:喻皓,男,高級(jí)工程師,(E-mail)yuhao@gacne.com.cn。

摘要:研究提出一種面向自動(dòng)駕駛的多模態(tài)信息融合的目標(biāo)識(shí)別方法,旨在解決自動(dòng)駕駛環(huán)境下車輛和行人檢測(cè)問題。該方法首先對(duì)ResNet50網(wǎng)絡(luò)進(jìn)行改進(jìn),引入基于空間注意力機(jī)制和混合空洞卷積,通過選擇核卷積替換部分卷積層,使網(wǎng)絡(luò)能夠根據(jù)特征尺寸動(dòng)態(tài)調(diào)整感受野的大小;然后,卷積層中使用鋸齒狀混合空洞卷積,捕獲多尺度上下文信息,提高網(wǎng)絡(luò)特征提取能力。改用GIoU損失函數(shù)替代YOLOv3中的定位損失函數(shù),GIoU損失函數(shù)在實(shí)際應(yīng)用中具有較好操作性;最后,提出了基于數(shù)據(jù)融合的人車目標(biāo)分類識(shí)別算法,有效提高目標(biāo)檢測(cè)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該方法與OFTNet 、VoxelNet 和FasterRCNN網(wǎng)絡(luò)相比,在mAP指標(biāo)白天提升幅度最高可達(dá)0.05,晚上可達(dá)0.09,收斂效果好。

關(guān)鍵詞:自動(dòng)駕駛;ResNet50;YOLOv3;數(shù)據(jù)融合;注意力機(jī)制;損失函數(shù)

中圖分類號(hào):T391????????? 文獻(xiàn)標(biāo)志碼:A????? ???? 文章編號(hào):1000-582X(2024)04-139-18

Multimodal information fusion dynamic target recognition for autonomous driving

ZHANG Mingrong1, YU Hao2, LYU Hui3, JIANG Libiao3, LI Liping3, LU Lei4

(1. School of Automotive Technology, Guangdong Industry Polytechnic, Guangzhou 510000,

P. R. China; 2. GAC AION New Energy Automobile Co., Ltd., Guangzhou 511400, P. R. China;

3. School of Mechanical & Automotive Engineering, South China University of Technology,

Guangzhou 510641, P. R. China; 4. Engineering Research Institute, Guangzhou City

University of Technology, Guangzhou 510800, P. R. China)

Abstract: A multi-modal information fusion based object recognition method for autonomous driving is proposed to address the vehicle and pedestrian detection challenge in autonomous driving environments. The method first improves ResNet50 network based on spatial attention mechanism and hybrid null convolution. The standard convolution is replaced by selective kernel convolution, which allows the network to dynamically adjust the size of the perceptual field according to the feature size. Then, the sawtooth hybrid null convolution? is used? to enable the network to capture multi-scale contextual information and improve the network feature extraction capability. The localization loss function in YOLOv3 is replaced with the GIoU loss function, which has better operability in practical applications. Finally, human-vehicle target classification and recognition algorithm based on two kinds of data fusion is proposed, which can improve the accuracy of the target detection. Experimental results show that compared with OFTNet, VoxelNet and FASTERRCNN, the mAP index can be improved by 0.05 during daytime and 0.09 in the evening, and the convergence effect is good.

Keywords: autonomous driving; ResNet50; YOLOv3; data fusion; attention mechanism; loss function

隨著互聯(lián)網(wǎng)企業(yè)、造車新勢(shì)力以及傳統(tǒng)車企紛紛投入自動(dòng)駕駛市場(chǎng),自動(dòng)駕駛領(lǐng)域呈現(xiàn)火熱勢(shì)態(tài)。自動(dòng)駕駛汽車,又稱無人駕駛汽車、電腦駕駛汽車或輪式移動(dòng)機(jī)器人,其系統(tǒng)主要由感知、決策、控制3部分組成[1]。

自動(dòng)駕駛中用于環(huán)境感知的數(shù)據(jù)主要來源于圖像傳感器和激光雷達(dá),圖像傳感器作為一種被動(dòng)式傳感器,成像質(zhì)量受外界光照影響較大,無法在過曝、黑夜以及惡劣天氣如霧霾、暴雪等極端光照條件下完成感知任務(wù)[2]。激光雷達(dá)(light detection and ranging,LiDAR)作為一種主動(dòng)式光學(xué)傳感器,對(duì)光照具有較好魯棒性,具有精度高、范圍大、抗有源干擾能力強(qiáng)的特性。但受限于技術(shù)條件,激光雷達(dá)獲取的數(shù)據(jù)存在稀疏無序、難以直接利用的特點(diǎn),且缺乏顏色和紋理信息,單靠激光雷達(dá)數(shù)據(jù)很難完成如車輛識(shí)別、行人檢測(cè)等高級(jí)感知任務(wù)。由于駕駛環(huán)境復(fù)雜多變,單一傳感器存在自身缺陷,只依賴于LiDAR或圖像傳感器難以保證檢測(cè)的穩(wěn)定性和可靠性,因此,筆者提出基于多模態(tài)信息融合的交通態(tài)勢(shì)感知平臺(tái)主要包含以下模塊,如圖1所示。

結(jié)合激光雷達(dá)點(diǎn)云數(shù)據(jù)對(duì)環(huán)境的精準(zhǔn)定位和RGB圖像豐富的語義信息,可將這類方法分為早融合(Early Fusion)、深度融合(Deep Fusion)、晚融合(Late Fusion)三類[3]。

Early Fusion以Point Painting為代表,這是一種由Vora等人[4]提出用圖像語義分割的結(jié)果來給點(diǎn)云“著色”的方法。在Late Fusion中,多種模態(tài)一般都分別擁有各自骨干網(wǎng)進(jìn)行特征提取,隨后利用共享候選框進(jìn)行感興趣區(qū)域池化(ROI pooling)[5]。Chen等人提出的MV3D[3]則是這類方法的典型。MV3D是一種多視角的3D目標(biāo)檢測(cè)網(wǎng)絡(luò),該方法使用BEV點(diǎn)云、FV點(diǎn)云以及FV圖像作為輸入。由于BEV圖中遮擋情況最少,所以在BEV中進(jìn)行特征提取并送入RPN網(wǎng)絡(luò),將ROI向另外兩圖進(jìn)行映射,得到3組ROI使用Deep Fusion的方式進(jìn)行特征融合。Ku,Mozifian等人[6]則在MV3D基礎(chǔ)上進(jìn)一步提出了AVOD。區(qū)別于MV3D使用ROI pooling來處理多種視角特征圖尺寸的一致性問題,AVOD則直接使用裁剪與尺寸調(diào)整的方式。

1 相關(guān)內(nèi)容

近年來,國(guó)外激光雷達(dá)與視覺的目標(biāo)檢測(cè)研究取得了顯著進(jìn)展。Botha等人[7](2017年)提出一種先進(jìn)的數(shù)據(jù)融合方法,通過整合雷達(dá)和立體視覺數(shù)據(jù),成功實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)的高效檢測(cè)和跟蹤。這項(xiàng)研究充分利用雷達(dá)和視覺傳感器的互補(bǔ)性,有效提高目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性。Li等人[8](2020年)的研究集中于激光雷達(dá)點(diǎn)云在自動(dòng)駕駛中的應(yīng)用。通過深度學(xué)習(xí)技術(shù),研究人員能更精準(zhǔn)分析和理解激光雷達(dá)點(diǎn)云數(shù)據(jù),為自動(dòng)駕駛系統(tǒng)提供更可靠的感知能力。2017年研究者們基于2D激光掃描儀和機(jī)器視覺的信息融合,致力于葡萄藤sucker的識(shí)別與定位,為農(nóng)業(yè)領(lǐng)域的實(shí)際問題提供了解決方案[9]。Barrientos等人[10](2013年)提出一種移動(dòng)機(jī)器人上的人體檢測(cè)方法,通過激光和視覺信息融合,實(shí)現(xiàn)對(duì)人體的有效探測(cè)。這種技術(shù)在機(jī)器人應(yīng)用中具有廣泛潛在用途,特別是在導(dǎo)航和安全領(lǐng)域。也有學(xué)者使用了3D和2D視覺信息融合的方案,實(shí)現(xiàn)準(zhǔn)確定位和跟蹤[11],這一創(chuàng)新性方法為高精度計(jì)算機(jī)視覺應(yīng)用提供了可靠技術(shù)支持。

近幾年,基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)識(shí)別技術(shù)得到飛速發(fā)展,檢測(cè)性能也得到極大提高。Guda等人[12]提出了一階段目標(biāo)檢測(cè)算法的開篇之作YOLOv1,YOLO系列的目標(biāo)檢測(cè)算法受到高度關(guān)注,后出現(xiàn)了YOLOv2、YOLOv3的目標(biāo)檢測(cè)算法,通過在原始網(wǎng)絡(luò)的基礎(chǔ)上不斷找到創(chuàng)新技術(shù)并解決上一個(gè)版本遺留下來的問題,YOLO系列的目標(biāo)檢測(cè)算法不只是在理論研究上火熱,更被應(yīng)用到無數(shù)工業(yè)檢測(cè)任務(wù)中,取得令人滿意效果。

2 實(shí)驗(yàn)?zāi)P?/p>

2.1 基于注意力機(jī)制改進(jìn)的ResNet50道路目標(biāo)特征提取

網(wǎng)絡(luò)的性能受網(wǎng)絡(luò)深度、寬度和卷積核尺寸等因素的影響,擴(kuò)展網(wǎng)絡(luò)寬度和卷積核尺寸對(duì)硬件設(shè)備要求高,而通過堆疊卷積層來增加網(wǎng)絡(luò)深度,訓(xùn)練時(shí)會(huì)產(chǎn)生梯度消失現(xiàn)象,導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練,性能出現(xiàn)退化。在極端情況下,增加的網(wǎng)絡(luò)層即使學(xué)習(xí)不到有用信息,也可以將淺層網(wǎng)絡(luò)學(xué)習(xí)的特征傳遞給全連接層,保證訓(xùn)練時(shí)網(wǎng)絡(luò)性能不退化,這樣的新層具有恒等映射(Identitymapping)功能。何凱明等[13]根據(jù)此思想提出了基于殘差模塊的ResNet網(wǎng)絡(luò)。ResNet網(wǎng)絡(luò)在實(shí)驗(yàn)室中可訓(xùn)練的深度已超過1 000層,但常用深度共有18/34/50/101/152五種。何凱明等人在實(shí)現(xiàn)ResNet網(wǎng)絡(luò)時(shí),考慮到計(jì)算成本,設(shè)計(jì)了block和bottleneck兩種殘差模塊,分別對(duì)應(yīng)ResNet18/34和ResNet50/101/152。ResNet50對(duì)應(yīng)bottleneck殘差模塊,bottleneck使用1×1+3×3+1×1卷積結(jié)構(gòu)。先利用第一個(gè)尺寸為1×1的卷積進(jìn)行降維,然后在第二個(gè)尺寸為1×1的卷積中還原維度,達(dá)到計(jì)算精度不變,且能夠降低計(jì)算量的目的。bottleneck殘差模塊的參數(shù)量是block殘差模塊的1?16.94。

研究使用ResNet50進(jìn)行街道場(chǎng)景特征提取,對(duì)ResNet50網(wǎng)絡(luò)進(jìn)行改進(jìn)設(shè)計(jì),改進(jìn)部分集中在網(wǎng)絡(luò)的特征提取部分。ResNet50網(wǎng)絡(luò)由conv1、conv2_x、conv3_x、conv4_x、conv5_x和一個(gè)全連接層組成,下圖展示了ResNet50的網(wǎng)絡(luò)結(jié)構(gòu),其中conv1是卷積核大小為7×7的標(biāo)準(zhǔn)卷積,conv2_x、conv3_x、conv4_x和conv5_x部分由殘差模塊堆疊而成,數(shù)量分別為3、4、6、3,每一部分的殘差模塊都可以根據(jù)需要更改參數(shù),模型的模塊化性能優(yōu)越。

ResNet50是通過增加深度來提高模型的特征提取能力,它由bottleneck殘差模塊堆疊而成。bottleneck殘差模塊是通過三層標(biāo)準(zhǔn)卷積來實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的特征提取,其第一層與第三層卷積,卷積核大小均為1×1,在特征提取過程中起輔助作用。第一層1×1卷積對(duì)輸入數(shù)據(jù)進(jìn)行降維處理,第二層1×1卷積還原數(shù)據(jù)維度,使得bottleneck殘差模塊與block殘差模塊相比,運(yùn)算過程中既保證了計(jì)算精度,也降低了參數(shù)量。ResNet50網(wǎng)絡(luò)通過不同的步長(zhǎng)設(shè)計(jì),隨著網(wǎng)絡(luò)深度增加,卷積的感受野越來越大,提取的特征越來越具有全局性,在這個(gè)過程中,使用標(biāo)準(zhǔn)卷積的殘差模塊對(duì)圖片中每一部分關(guān)注度相同,固定的感受野大小只能學(xué)習(xí)到相應(yīng)尺寸的圖片特征。

2.1.1 注意力機(jī)制

注意力機(jī)制基本思想是關(guān)注重點(diǎn)信息、抑制無用信息,增強(qiáng)網(wǎng)絡(luò)提取特征的效率和準(zhǔn)確度。注意力機(jī)制根據(jù)作用域不同,可分為通道注意力機(jī)制、空間注意力機(jī)制和混合域注意力機(jī)制。選擇核卷積由分裂、融合、選擇3步組成。

1)分裂操作如圖4所示,對(duì)于給定的輸入特征映射,通過卷積核大小為3×3,擴(kuò)張率分別為1、2和3的3個(gè)分組卷積轉(zhuǎn)換,得到3個(gè)感受野大小不同的特征圖:,和。3條支流均由分組卷積、批量歸一化和ReLU激活函數(shù)共同組成。

2)融合操作如圖5所示,首先將3個(gè)特征圖相加

。??? (1)

然后使用全局平均池化層嵌入全局信息,得到通道尺度上具有全局信息的向量。

。??? (2)

最后再經(jīng)過一層全連接層,生成緊湊特征。

,??? (3)

其中:表示激活函數(shù),表示批量歸一化、。下式中和用來控制輸出向量的維度,一般情況下,。

。??? (4)

3)選擇操作如圖6所示,基于softmax方法,利用緊湊特征指導(dǎo)注意力機(jī)制動(dòng)態(tài)選擇不同感受野大小的信息。每條支流的權(quán)重向量計(jì)算方法如下

(5)

其中:、和分別表示特征圖、和的軟注意力機(jī)制向量。而表示的第個(gè)序列值,表示的第個(gè)序列值,表示的第個(gè)序列值,,表示的第行,表示的第行,表示的第行。通過將權(quán)重向量、和分別和特征圖、和進(jìn)行加權(quán)求和,獲得輸出向量,。

。??? (6)

在ResNet50網(wǎng)絡(luò)中引入空間注意力機(jī)制,即將選擇核卷積替換bottleneck殘差模塊中的標(biāo)準(zhǔn)卷積,圖7展示了使用選擇核卷積的bottleneck殘差模塊。在ResNet50網(wǎng)絡(luò)中使用選擇核卷積,可篩選特征信息,提高數(shù)據(jù)利用效率,且在選擇核卷積的融合操作部分,卷積核尺寸不同的3組分組卷積既可使網(wǎng)絡(luò)提取的特征更多樣,增加ResNet50網(wǎng)絡(luò)的寬度。選擇核卷積只對(duì)于卷積核>1的標(biāo)準(zhǔn)卷積改造有效,選擇使用選擇核卷積替換bottleneck殘差模塊中的第二層卷積,其卷積核大小為3×3。

在ResNet50網(wǎng)絡(luò)的conv2_x、conv3_x部分,使用選擇核卷積替換bottleneck殘差模塊中的3×3標(biāo)準(zhǔn)卷積。

2.1.2 空洞卷積

基于圖像特點(diǎn),網(wǎng)絡(luò)需要有感受野較小的卷積核來提取小尺寸特征,還有感受野較大的卷積核,來提取低像素特征??斩淳矸e的感受野可調(diào),能在不增加參數(shù)量的同時(shí),保留網(wǎng)絡(luò)圖像的細(xì)節(jié)信息,有利于提取特征圖中不同尺寸特征。解決等倍擴(kuò)張率序列的空洞卷積采樣時(shí)丟失大量局部信息問題,使用空洞卷積時(shí),采用混合空洞卷積[14](hybrid dilated convolution),它是根據(jù)擴(kuò)張率計(jì)算公式設(shè)計(jì)的空洞卷積序列,實(shí)現(xiàn)感受野內(nèi)信息全覆蓋,擴(kuò)張率小的空洞卷積提取基礎(chǔ)信息,擴(kuò)張率大的空洞卷積提取長(zhǎng)距離信息,獲取更大感受野范圍,又能保持運(yùn)算量大小不變。公式中是第層的膨脹率,是第層最大膨脹率

。??? (7)

利用上式計(jì)算,混合空洞卷積為連續(xù)3層卷積核大小均為3×3,擴(kuò)張率分別為1、2、3。ResNet50網(wǎng)絡(luò)的conv4_x部分由6個(gè)殘差模塊堆疊而成,第一個(gè)殘差模塊的輸入特征圖尺寸為28×28,其余5個(gè)殘差模塊的輸入特征圖為14×14。conv5_x部分由3個(gè)殘差模塊堆疊而成,第一個(gè)殘差模塊的輸入特征圖尺寸為14×14,其余2個(gè)殘差模塊的輸入特征圖為7×7,conv5_x部分的特征圖尺寸太小。因此在conv4_x部分引入混合空洞卷積,使用混合空洞卷積序列[1,2],conv4_x部分3×3標(biāo)準(zhǔn)卷積的擴(kuò)張率序列為[1,2,1,2,1,2]。

基于ResNet50進(jìn)行改進(jìn),一方面在conv2_x和conv3_x部分引入空間注意力機(jī)制,使用選擇核卷積替換bottleneck殘差模塊中3×3標(biāo)準(zhǔn)卷積;另一方面在conv4_x部分應(yīng)用鋸齒狀混合空洞卷積[1,2,1,2,1,2],即使用卷積核尺寸為3×3、擴(kuò)張率為2的空洞卷積替換conv4_x部分的第二、第四和第六個(gè)bottleneck殘差模塊的3×3標(biāo)準(zhǔn)卷積,圖8展示了改進(jìn)的ResNet50網(wǎng)絡(luò)結(jié)構(gòu)。

2.2 基于IoU優(yōu)化的YOLOv3的道路目標(biāo)邊框識(shí)別

YOLOv3是由Joseph Redmon 和 Ali Farhadi提出的,網(wǎng)絡(luò)的主體框架為Darknet-53結(jié)構(gòu),共有53個(gè)卷積層,代替了YOLOv2中的Darknet-19,與其相比,Darknet-53屬于全卷積網(wǎng)絡(luò),因?yàn)闆]有最大池化層,下采樣操作也是卷積層實(shí)現(xiàn),與其并肩的網(wǎng)絡(luò)ResNet相比,Darknet-53的卷積核個(gè)數(shù)、運(yùn)算量、速度都更強(qiáng)。卷積層、批量歸一化層以及LeakyReLU激活函數(shù)共同組成Darknet-53中的基本卷積單元DBL[15]。Darknet-53結(jié)構(gòu)圖及DBL如圖9?10所示(以輸入圖像尺寸為416×416為例)。Darknet-53 的特征提取部分借助了殘差網(wǎng)絡(luò)思想,殘差結(jié)構(gòu)如圖11所示。YOLOv3網(wǎng)絡(luò)共使用了5個(gè)殘差塊,對(duì)其中的第3、4、5個(gè)殘差塊所提取出的8倍、16倍和32倍下采樣特征圖進(jìn)行目標(biāo)識(shí)別。YOLOv3的結(jié)構(gòu)如圖12所示(以輸入圖像尺寸為41。YOLOv3中的定位損失使用差值平方的計(jì)算方法,也就是L2損失。但在實(shí)際情況中,即使2個(gè)目標(biāo)邊界框的重合程度不同,求得的L2損失可能相同,只有2個(gè)目標(biāo)邊界框重合程度越高,損失越小,L2損失的弊端因此顯現(xiàn)。IoU被廣泛使用是因?yàn)橄啾扔贚2損失,IoU損失能更好反映預(yù)測(cè)邊界框與真實(shí)邊界框的重合程度,且具有尺度不變性[16-17],即在整個(gè)空間中,2個(gè)目標(biāo)邊界框在不同尺度大小下可以保持不變,后來也被用到Y(jié)OLOv3的目標(biāo)檢測(cè)方法中,但其也有一些缺點(diǎn)。

1)IoU對(duì)于預(yù)測(cè)邊界框和真實(shí)框的位置要求較高,只有當(dāng)2個(gè)框有交集時(shí),其計(jì)算公式才奏效,對(duì)于完全沒有相交的2個(gè)框來說,IoU損失計(jì)算為0,無法將損失反饋到神經(jīng)網(wǎng)絡(luò)中,沒有梯度回傳,就無法進(jìn)行學(xué)習(xí)訓(xùn)練,影響更新網(wǎng)絡(luò)權(quán)重,使網(wǎng)絡(luò)一直處在局部最優(yōu)值附近,始終無法收斂到全局最優(yōu)。

2)在IoU損失計(jì)算過程中,無法判定預(yù)測(cè)邊界框和真實(shí)邊界框的關(guān)系,如方向關(guān)系,即當(dāng)目標(biāo)物和檢測(cè)框呈現(xiàn)不同水平方向,夾角無法進(jìn)行檢測(cè)。

針對(duì)IoU出現(xiàn)的問題,文中引入GIoU損失函數(shù),假定針對(duì)2個(gè)矩形A和B,能夠找到2個(gè)矩形的最小外接矩形C。GIoU計(jì)算方法如下式

,??? (8)

式中:IoU為預(yù)測(cè)邊界框和真實(shí)邊界框的交并比,Ac為2框的最小外接矩形C的面積,U為2框并集的面積,模型為ARIY3(Attention-ResNet50-IoU- YOLOv3)。

2.3 點(diǎn)云數(shù)據(jù)與RGB數(shù)據(jù)信息融合模型

由于16線激光雷達(dá)點(diǎn)云數(shù)目特別稀少,導(dǎo)致反射率不太穩(wěn)定,因?qū)c(diǎn)云數(shù)目過少、或未識(shí)別出的模糊數(shù)據(jù),在攝像頭的像素點(diǎn)與激光雷達(dá)的點(diǎn)云標(biāo)定之后,與16線激光雷達(dá)和相機(jī)傳輸回來的信息相互融合,獲取目標(biāo)物體的信息,實(shí)現(xiàn)目標(biāo)跟蹤。

為了將ResNet50輸出的特征融合到原有點(diǎn)云特征提高點(diǎn)云稀疏目標(biāo)的檢測(cè)精度,分別使用2個(gè)卷積核大小為1×1的卷積層,將圖像特征分別壓縮到1×1×p和1×1×q尺寸。YOLOv3與激光雷達(dá)網(wǎng)絡(luò)與3D邊界框估計(jì)網(wǎng)絡(luò)組成一個(gè)整體,進(jìn)行端到端訓(xùn)練,為后二者的任務(wù)篩選出最具價(jià)值信息,本文模型如圖13所示。

3 實(shí)? 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

文中使用的訓(xùn)練和測(cè)試數(shù)據(jù)基于KITTI[17]目標(biāo)檢測(cè)數(shù)據(jù)集中的激光點(diǎn)云和左彩色相機(jī)數(shù)據(jù),其中激光點(diǎn)云處理后全部進(jìn)行圖像化編碼,構(gòu)建為圖像化點(diǎn)云數(shù)據(jù)集。筆者將該數(shù)據(jù)集的7 481張訓(xùn)練圖像作為實(shí)驗(yàn)數(shù)據(jù),并根據(jù)需求預(yù)處理數(shù)據(jù)集原有的標(biāo)簽信息,處理后的整個(gè)數(shù)據(jù)集按照訓(xùn)練集:驗(yàn)證集:測(cè)試集=8:1:1的比例進(jìn)行隨機(jī)劃分,劃分后的訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集大小分別為5 984、748和749,數(shù)據(jù)集樣本如圖14所示。

實(shí)驗(yàn)使用的操作系統(tǒng)為Ubuntu16.04,GPU為NvidiaRTX2080Ti,顯存為11G。實(shí)驗(yàn)采用Pytorch1 5.0框架對(duì)模型進(jìn)行搭建、訓(xùn)練和測(cè)試,Python版本為3.7,CUDA版本為10.1。在訓(xùn)練階段,根據(jù)顯存大小將batchsize設(shè)置為8,每個(gè)批次中的輸入圖像尺寸都被固定至512×512大小。動(dòng)量配置為0.937,權(quán)重衰減配置為0.000 5,初始學(xué)習(xí)率為。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)程序運(yùn)行到60 000代之后,損失值出現(xiàn)震蕩不再下降,因此在第60 000代將學(xué)習(xí)率設(shè)置為原來的0.1實(shí)現(xiàn)損失值繼續(xù)小范圍下降,達(dá)到更好擬合效果。下圖為訓(xùn)練過程中的損失函數(shù)收斂曲線,從圖15中看出,訓(xùn)練次數(shù)達(dá)到100 000次時(shí)損失函數(shù)收斂曲線趨于平緩。

研究使用目標(biāo)檢測(cè)任務(wù)中常用的指標(biāo)P-R曲線和mAP(mean average precision)平均精度2項(xiàng)指標(biāo)對(duì)所提出的模型進(jìn)行評(píng)價(jià)。在繪制PR曲線時(shí),首先通過真正例(true positive,TP),真反例(true negative,TN),假正例(false positive,F(xiàn)P),假反例(false negative,F(xiàn)N)計(jì)算準(zhǔn)確率Precision和召回率Recall,公式如下

。??? (9)

針對(duì)某一類別,以召回率為橫軸,以準(zhǔn)確率為縱軸可以繪制P-R曲線,曲線所包含的面積即為該類別的AP。mAP則是對(duì)這多種類別的AP值求平均所得。AP值代表模型對(duì)某一類目標(biāo)的檢測(cè)效果,mAP則代表了對(duì)所有類別的檢測(cè)效果,值越大,檢測(cè)效果越好。實(shí)驗(yàn)設(shè)置初始IoU閾值為0.5,使用GIoU檢測(cè)預(yù)測(cè)框與真實(shí)框的交并比劃分樣本。

3.2 實(shí)驗(yàn)分析

3.2.1 消融實(shí)驗(yàn)

為了驗(yàn)證利用LiDAR-RGB-ARIY3進(jìn)行特征級(jí)融合的效果,研究采用圖像化點(diǎn)云數(shù)據(jù)和RGB圖像數(shù)據(jù),在ARIY3架構(gòu)下分別訓(xùn)練了3種模型,即ARIY3(RGB)、ARIY3(LiDAR)和LiDAR-RGB-ARIY3。通過對(duì)比單數(shù)據(jù)模型、融合數(shù)據(jù)模型以及不同融合方式,評(píng)估各模型性能。其中,ARIY3(RGB、LiDAR)是通過特征級(jí)融合訓(xùn)練得到的模型,它將2種數(shù)據(jù)直接進(jìn)行通道級(jí)聯(lián),將聯(lián)合的特征輸入到ARIY3進(jìn)行訓(xùn)練。這一方法旨在充分發(fā)揮LiDAR和RGB數(shù)據(jù)在特征級(jí)上的互補(bǔ)性,提高模型的性能和泛化能力。通過這一對(duì)比實(shí)驗(yàn),可以深入了解不同數(shù)據(jù)和融合方式對(duì)最終模型性能的影響,為L(zhǎng)iDAR與RGB數(shù)據(jù)融合的有效性提供實(shí)證支持。

網(wǎng)絡(luò)設(shè)定推理的目標(biāo)得分閾值為0.24,NMS閾值為0.5,計(jì)算AP和mAP時(shí)的IOU設(shè)定為50%,對(duì)訓(xùn)練好的模型在測(cè)試集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表1所示。

對(duì)比LiDAR-RGB-ARIY3、ResNet-YOLOv3(RGB、LiDAR)、ARIY3(RGB)和ARIY3(LiDAR)可以看出,相對(duì)于單數(shù)據(jù)模型,基于激光點(diǎn)云和RGB圖像的融合模型具有更好檢測(cè)效果。在白天視線較好條件下,ResNet-YOLOv3(RGB、LiDAR)比ARIY3(RGB)和ARIY3(LiDAR)分別提升0.04和0.06。在黑夜視線較差條件下,ResNet-YOLOv3(RGB、LiDAR)比ARIY3(RGB)和ARIY3(LiDAR)分別提升0.28和0.08。而在白天視線較好條件下,ARIY3(RGB、LiDAR)比ResNet-YOLOv3(RGB、LiDAR)的mAP提升0.11,在黑夜視線較差條件下,ARIY3(RGB、LiDAR)比ResNet-YOLOv3(RGB、LiDAR)的mAP提升0.12。實(shí)驗(yàn)結(jié)果表明,融合特征對(duì)目標(biāo)具有更強(qiáng)表征性,多模態(tài)融合無論白天還是夜晚,均有利于提高檢測(cè)網(wǎng)絡(luò)性能。其中多模態(tài)特征融合對(duì)于網(wǎng)絡(luò)提升效果較為明顯,特別是在低照度場(chǎng)景下。同時(shí),ARIY3(RGB、LiDAR)比ResNet-YOLOv3(RGB、LiDAR)的mAP有所提升,實(shí)驗(yàn)結(jié)果表明所提出的目標(biāo)識(shí)別方法在光照變化的場(chǎng)景依然表現(xiàn)出較好魯棒性。

在當(dāng)前的配置環(huán)境下,完成整個(gè)KITTI訓(xùn)練集上雙模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)的100 000次迭代大約需要15 h。損失函數(shù)(loss)在網(wǎng)絡(luò)模型訓(xùn)練過程中的演變?nèi)鐖D16所示。圖中綠色和紅色虛線分別代表訓(xùn)練單模態(tài)的雷達(dá)激光圖像目標(biāo)識(shí)別網(wǎng)絡(luò)和可見光圖像目標(biāo)識(shí)別網(wǎng)絡(luò)的損失,藍(lán)色實(shí)線表示雙模態(tài)目標(biāo)識(shí)別網(wǎng)絡(luò)在原ResNet-YOLOv3后進(jìn)行融合的模型訓(xùn)練損失,而黑色實(shí)線則表示雙模態(tài)目標(biāo)識(shí)別網(wǎng)絡(luò)在LiDAR-RGB-ARIY3進(jìn)行融合的模型訓(xùn)練損失。通過觀察圖16,可以得知在經(jīng)過100 000次迭代后,所有模型表現(xiàn)出良好的收斂效果。

通過局部放大圖中的細(xì)節(jié),相較于單模態(tài)網(wǎng)絡(luò)訓(xùn)練,多模態(tài)目標(biāo)識(shí)別網(wǎng)絡(luò)訓(xùn)練損失變化更加平緩,模型更快收斂。在給定的訓(xùn)練迭代次數(shù)內(nèi),多模態(tài)網(wǎng)絡(luò)在學(xué)習(xí)目標(biāo)識(shí)別任務(wù)上表現(xiàn)出更高的效率和穩(wěn)定性。這些結(jié)果進(jìn)一步驗(yàn)證了雙模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)在LiDAR和RGB數(shù)據(jù)融合方面的優(yōu)越性。

圖17所示是LiDAR-RGB-ARIY3在驗(yàn)證集數(shù)據(jù)上的檢測(cè)可視化結(jié)果,圖中紅色框?yàn)檎嬷悼?,藍(lán)色框?yàn)榫W(wǎng)絡(luò)的預(yù)測(cè)輸出,框中線條代表檢測(cè)框中心延伸出的方向向量。從圖中標(biāo)記的目標(biāo)看出:雖然目標(biāo)在圖像視角中像素面積小,以至于真值都未對(duì)其進(jìn)行標(biāo)注,但網(wǎng)絡(luò)通過融合點(diǎn)云和圖像特征將其檢測(cè)出來,表明使用多模態(tài)傳感器融合對(duì)遮擋、距離較遠(yuǎn)目標(biāo)識(shí)別具有一定優(yōu)勢(shì)。

KITTI的數(shù)據(jù)集根據(jù)目標(biāo)的檢測(cè)框大小、受遮擋情況和在視野中被截?cái)嗝娣e,對(duì)目標(biāo)識(shí)別的難易程度進(jìn)行劃分,劃分為簡(jiǎn)單(Easy)、適中(Moderate)和困難(Hard)。實(shí)驗(yàn)按照目標(biāo)識(shí)別的難易程度,對(duì)檢測(cè)性能進(jìn)一步評(píng)估。

將LiDAR-RGB-ARIY3以及提出的LiDAR-RGB-A-ResNet50(與LiDAR-RGB-ARIY3相比,僅優(yōu)化ResNet,不優(yōu)化YOLOv3的多模態(tài)信息融合模型)與LiDAR-RGB-IoU-YOLOv3(與LiDAR-RGB-ARIY3相比,僅優(yōu)化YOLOv3,不優(yōu)化ResNet的多模態(tài)信息融合模型)在KITTI數(shù)據(jù)集上分別進(jìn)行3種目標(biāo)類別的2種挑戰(zhàn)后,實(shí)驗(yàn)結(jié)果如圖18所示的P-R曲線圖。

從圖中可以看到,LiDAR-RGB-ARIY3在Car類別與Pedestrian類別都獲得了顯著提升,同時(shí)Cyclist類別總體來說相差細(xì)微。從圖(c)和(d)來看,LiDAR-RGB-ARIY3在Pedestrian類別的目標(biāo)識(shí)別上遠(yuǎn)超過LiDAR-RGB-A-ResNet50以及LiDAR-RGB-IoU-YOLOv3,僅在召回率較低時(shí)保持與原始方法的較大優(yōu)勢(shì)不同,LiDAR-RGB-ARIY3在所有召回率位置上取得顯著優(yōu)勢(shì)。對(duì)于Pedestrian類別的目標(biāo)定位,研究提出的2種方法對(duì)LiDAR-RGB-A-ResNet50及LiDAR-RGB-IoU-YOLOv3都取得了顯著優(yōu)勢(shì),其中引入通道注意力機(jī)制使LiDAR-RGB-A-ResNet50在前一章方法的效果上繼續(xù)擴(kuò)大優(yōu)勢(shì)。從圖18(a)和(b)來看,

LiDAR-RGB-ARIY3相對(duì)LiDAR-RGB-A-ResNet50以及LiDAR-RGB-IoU-YOLOv3方法同樣獲得提升。除了在簡(jiǎn)單難度以外,LiDAR-RGB-ARIY3在所有其它項(xiàng)中均取得領(lǐng)先。對(duì)于通道注意力的引入對(duì)于尺寸較小以及存在遮擋的目標(biāo)檢測(cè)具有明顯提升效果。

從圖(e)和(f)來看,LiDAR-RGB-A-ResNet50以及LiDAR-RGB-IoU-YOLOv3在Cyclist類別的檢測(cè)與定位方面差距細(xì)微。同時(shí),發(fā)現(xiàn)原始方法的優(yōu)勢(shì)出現(xiàn)在召回率較高時(shí),在召回率較低時(shí),LiDAR-RGB-ARIY3則有明顯優(yōu)勢(shì),這意味著LiDAR-RGB-ARIY3對(duì)于其檢測(cè)的高置信度目標(biāo)有更高的準(zhǔn)確率。

3.2.2 對(duì)比實(shí)驗(yàn)

車輛的點(diǎn)云與圖像區(qū)域如圖19所示。

為了評(píng)估所提出的多模態(tài)特征融合目標(biāo)識(shí)別網(wǎng)絡(luò)性能,筆者設(shè)計(jì)對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中將該方法與FasterRCNN、OFTNet和VoxelNet在2種光照環(huán)境下的性能展開對(duì)比。表2展現(xiàn)不同方法在KITTI數(shù)據(jù)集上目標(biāo)識(shí)別的對(duì)比結(jié)果。

從白天對(duì)比實(shí)驗(yàn)結(jié)果看出,相較與OFTNet 、VoxelNet 和FasterRCNN網(wǎng)絡(luò),提出的多模態(tài)特征融合檢測(cè)方法在AP指標(biāo)上均有提升,尤其是在Faster RCNN 模式上,mAP指標(biāo)提升0.04,較為明顯。該對(duì)比實(shí)驗(yàn)證明方法在光照良好場(chǎng)景具有較好的檢測(cè)性能。從夜間對(duì)比實(shí)驗(yàn)結(jié)果可以看出,相較與OFTNet 、VoxelNet 和FasterRCNN網(wǎng)絡(luò),提出的多模態(tài)特征融合檢測(cè)方法在AP指標(biāo)上均有提升,提升幅度最大可達(dá)到0.09,較為明顯。該對(duì)比實(shí)驗(yàn)證明了該方法在低照度場(chǎng)景具有較好的檢測(cè)性能。

各模型訓(xùn)練和驗(yàn)證過程中的損失函數(shù)變化曲線如圖20所示,每個(gè)Epoch進(jìn)行。由圖可知,提出的LiDAR-RGB-ARIY3模型訓(xùn)練集損失函數(shù)和驗(yàn)證集損失函數(shù)耗能最低,表明模型中每個(gè)樣本預(yù)測(cè)值和真實(shí)值的差最小,所建立的模型提供的結(jié)果最好[20]。

綜上所述,筆者提出的自適應(yīng)融合網(wǎng)絡(luò)LiDAR-RGB-ARIY3與常見的基于點(diǎn)云、基于多模態(tài)融合的網(wǎng)絡(luò)相比,檢測(cè)精度與速度有一定優(yōu)勢(shì),實(shí)現(xiàn)精度與速度的平衡,圖21為可視化結(jié)果。

4 結(jié)? 論

研究提出一種基于激光雷達(dá)和視覺傳感器信息融合的無人駕駛中目標(biāo)識(shí)別算法。該算法主要包括以下幾個(gè)改進(jìn)方面:

1)利用攝像頭的視覺方案識(shí)別目標(biāo)物體圖片,圖片經(jīng)過預(yù)處理,傳入卷積神經(jīng)網(wǎng)絡(luò)ResNet50進(jìn)行特征提取,使用yolov3改進(jìn)算法得到物體的類別與物體框位置信息。

2)使用注意力機(jī)制對(duì)ResNet50進(jìn)行改進(jìn),集中在網(wǎng)絡(luò)的特征提取部分。使用優(yōu)化的IoU對(duì)YOLOv3模型的目標(biāo)邊框提取進(jìn)行完善。

3)利用激光雷達(dá)進(jìn)行地面點(diǎn)距離標(biāo)定,將像素點(diǎn)與激光雷達(dá)的標(biāo)定點(diǎn)進(jìn)行對(duì)應(yīng),對(duì)點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行時(shí)間、空間同步,得到激光雷達(dá)和相機(jī)數(shù)據(jù)之間的轉(zhuǎn)換關(guān)系,找到同一時(shí)刻激光點(diǎn)云數(shù)據(jù)和圖像中對(duì)應(yīng)的像素點(diǎn),確保激光雷達(dá)識(shí)別出的物體與相機(jī)識(shí)別的物體是同一時(shí)刻同一物體。

該算法目的是解決無人駕駛環(huán)境下運(yùn)動(dòng)目標(biāo)檢測(cè)問題,通過多源數(shù)據(jù)融合的方式提高目標(biāo)檢測(cè)的準(zhǔn)確率。該算法在進(jìn)行數(shù)據(jù)融合時(shí),沒有進(jìn)行時(shí)間、空間同步,這個(gè)過程可能環(huán)境因素會(huì)影響數(shù)據(jù)的準(zhǔn)確性,如天氣、光照等。未來考慮加入時(shí)間、空間同步方法,以提高數(shù)據(jù)融合的準(zhǔn)確性。

參考文獻(xiàn)

[1]? 熊璐,吳建峰,邢星宇,等.自動(dòng)駕駛汽車行駛風(fēng)險(xiǎn)評(píng)估方法綜述[J/OL].汽車工程學(xué)報(bào):1-15 [2023-04-28]. 網(wǎng)址:http://kns.cnki.net/kcms/detail/50.1206.U.20230425.0916.002.html

Xiong L, Wu J F, Xing X Y, et al. Review of automatic driving vehicle driving risk assessment methods[J/OL]. Automotive Engineering Journal: 1-15[2023-04-28].http://kns.cnki.net/kcms/detail/50.1206.U.20230425.0916.002. html(in Chinese)

[2]? Nan Y L,Zhang H C, Zeng Y. Intelligent detection of Multi-Class pitaya fruits in target picking row based on WGB-YOLO network[J]. Computers and Electronics in Agriculture,2023,208: 107780.

[3]? Li J R, Cai R Y, Tan Y, et al. Automatic detection of actual water depth of urban floods from social media images[J]. Measurement,2023,216: 1-19.

[4]? Vora S, Lang A H, Helou B, et al. Pointpainting: sequential fusion for 3d object detection[C]//Proc of Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 4604-4612.

[5]? Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(6):1137-1149.

[6]? Ku J, Mozifian M, Lee J, et al. Joint 3d proposal generation and object detection from view aggregation【C]//Proc of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid: IEEE,? 2018, 1-8.

[7]? Botha F. Data fusion of radar and stereo vision for detection and tracking of moving objects[C]//Pattern Recognition Association of South Africa & Robotics & Mechatronics International Conference. Bloemfontein: IEEE, 2017.

[8]? Li Y, Ma L, Zhong Z, et al. Deep learning for lidar point clouds in autonomous driving: a review [J]. IEEE Transactions on Neural Networks and Learning Systems, 2020(99):1-21.

[9]? Wang Y X,Xu S S,Li W B, et al. Identification and location of grapevine sucker based on information fusion of 2D laser scanner and machine vision)[J]. International Journal of Agricultural and Biological Engineering, 2017,10(2), 84-93.

[10]? Barrientos A, Garzón M, Fotiadis P E .Human detection from a mobile robot using fusion of laser and vision information[J].Sensors,2013,13(9):11603-11635.

[11]? Huang Y, Xiao Y, Wang P,? et al.A seam-tracking laser welding platform with 3D and 2D visual information fusion vision sensor system[J].The International Journal of Advanced Manufacturing Technology,2013,67(1-4):415-426.

[12]? Ajayi O G, Ashi J, Guda B. Performance evaluation of YOLO v5 model for automatic crop and weed classification on UAV images[J]. Smart Agricultural Technology,2023,5: 1-10.

[13]? He K M,? Zhang X,? Ren S,? et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[14]? Li Z,Xu B L,Wu D, et al. A YOLO-GGCNN based grasping framework for mobile robots in unknown environments[J]. Expert Systems With Applications,2023, 225: 1-14.

[15]? Zhao C,? Shu X, Yan X, et al. RDD-YOLO: a modified YOLO for detection of steel surface defects[J]. Measurement,2023,214:1-12

[16]? 鄒承明,薛榕剛.GIoU和Focal loss融合的YOLOv3目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(24):214-222.

Zou C M, Xue R G. Improved YOLOv3 object detection algorithm:combining GIoU and Focal loss[J]. Computer Engineering and Applications, 2020, 56(24):214-222.(in Chinese) .

[17]? Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? the kitti vision benchmark suite[C]//2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012: 3354-3361.

[18]? Roddick T, Kendall A, Cipolla R. Orthographic feature transform for monocular 3d object detection[J]. arXiv preprint arXiv:1811.08188, 2018.

[19]? Zhou Y, Tuzel O. Voxelnet: end-to-end learning for point cloud based 3d object detection[C]//Proc of Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018, 4490-4499.

[20]? 吳喆.基于深度學(xué)習(xí)的動(dòng)態(tài)背景下船舶檢測(cè)和跟蹤的研究[D].宜昌: 中國(guó)三峽大學(xué),2019.

Wu Z. Research on ship detection and tracking in dynamic background based on deep learning[D]. Yichang: China Three Gorges University, 2019.(in Chinese)

(編輯? 侯湘)

主站蜘蛛池模板: 亚洲欧美一区在线| 日韩福利视频导航| 国产精品夜夜嗨视频免费视频| 71pao成人国产永久免费视频| 免费A∨中文乱码专区| 国产91视频免费| 人人91人人澡人人妻人人爽 | 欧美啪啪精品| 亚洲精品手机在线| 国产精品亚洲精品爽爽| 欧美日本二区| 国产精品视频a| 婷婷开心中文字幕| 亚洲人成色在线观看| 欧美日韩国产在线人成app| 伊人网址在线| 国产偷倩视频| 国产激情无码一区二区免费| 女人天堂av免费| 亚洲成a人片| www.91在线播放| 国产三区二区| 波多野结衣亚洲一区| 狠狠做深爱婷婷久久一区| 国产永久在线观看| 日韩成人在线视频| 免费在线看黄网址| 欧美福利在线播放| 国产成人综合日韩精品无码不卡| 美女黄网十八禁免费看| 天堂网亚洲综合在线| 日韩中文字幕免费在线观看| 一个色综合久久| 久久精品人妻中文视频| 欧美成人精品一级在线观看| 97se亚洲综合不卡| 国产麻豆福利av在线播放| 亚洲美女一区二区三区| 亚洲中文精品人人永久免费| 欧美激情伊人| 人人91人人澡人人妻人人爽| 免费国产高清视频| 国产高清不卡| 亚洲人成网站日本片| 久久亚洲美女精品国产精品| 青青久久91| 丁香亚洲综合五月天婷婷| 免费啪啪网址| 996免费视频国产在线播放| 亚洲中文无码h在线观看| 在线免费观看a视频| 国产精品美女在线| 一区二区三区国产精品视频| 欧美日韩精品一区二区在线线| 国产91小视频| 亚洲天堂视频在线播放| 久久免费视频6| 国产高清精品在线91| 91青青草视频在线观看的| 国产永久无码观看在线| 国产精品成| 成人第一页| 熟妇丰满人妻| 中文成人在线| 日韩免费无码人妻系列| 亚洲品质国产精品无码| 精品无码专区亚洲| 久久99国产综合精品1| 国产超薄肉色丝袜网站| 97se亚洲综合在线| 97影院午夜在线观看视频| 午夜人性色福利无码视频在线观看 | 国产伦精品一区二区三区视频优播 | 岛国精品一区免费视频在线观看| 亚洲国产综合第一精品小说| 无码粉嫩虎白一线天在线观看| 日本www色视频| 国产亚洲精品自在久久不卡 | 日韩欧美91| 精品国产免费观看| 国产一区二区福利| 亚洲精品大秀视频|