基于立體R-CNN的自動(dòng)駕駛中的路障識(shí)別與定位

2024-04-24 14:04:24劉啟盧林朱兆旻

時(shí)代汽車 2024年8期

劉啟　盧林　朱兆旻

摘要：基于深度學(xué)習(xí)的自動(dòng)駕駛技術(shù)是目前最為先進(jìn)和主流的自動(dòng)駕駛技術(shù)之一，它通過(guò)應(yīng)用深度學(xué)習(xí)算法來(lái)實(shí)現(xiàn)對(duì)駕駛場(chǎng)景的感知、路徑規(guī)劃、行為決策和運(yùn)動(dòng)控制，極大地提高了自動(dòng)駕駛汽車的安全性和可靠性。文章提出了一種新型的立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)自動(dòng)駕駛中的路障的識(shí)別與定位進(jìn)行研究。結(jié)果顯示，文章提出的方法在圖像識(shí)別精度和速度上要優(yōu)于Mono3D和VeloFCN等其它模型。

關(guān)鍵詞：深度學(xué)習(xí) R-CNN 自動(dòng)駕駛路障識(shí)別與定位

1 引言

如同互聯(lián)網(wǎng)工業(yè)革命，汽車的駕駛模式也正在經(jīng)歷著一場(chǎng)變革，駕駛方式由傳統(tǒng)的人工操作向無(wú)人化方向演進(jìn)。早在上世紀(jì)80年代美國(guó)國(guó)防高級(jí)研究計(jì)劃部署（DARPA）就提出了自動(dòng)駕駛的概念[1]。國(guó)內(nèi)以百度為首的公司和高校也在蓬勃發(fā)展著自動(dòng)駕駛[2]。自動(dòng)駕駛具有非常大的發(fā)展前景和意義，它可以增強(qiáng)道路安全，緩解交通擁堵，提高車輛通行效率，還可以緩解停車難的問(wèn)題，縮短消費(fèi)者停車和取車的時(shí)間，另外它還能減少空氣污染，改善環(huán)境質(zhì)量。美國(guó)機(jī)動(dòng)工程師協(xié)會(huì)（SAE）對(duì)自動(dòng)駕駛做了0-5級(jí)分級(jí)[3]。由于四級(jí)及以上對(duì)環(huán)境感知的準(zhǔn)確性和精確性要求很高，甚至超出了人類的認(rèn)知水平，所以還需要做更大的努力去發(fā)展自動(dòng)駕駛技術(shù)。自動(dòng)駕駛包括環(huán)境感知、智能決策和控制執(zhí)行三個(gè)階段，其中環(huán)境感知是最基礎(chǔ)的部分。無(wú)人駕駛中感知部分的主要功能涉及計(jì)算機(jī)視覺(jué)領(lǐng)域研究的相關(guān)問(wèn)題，適合采用CNN（Conventional neutral network，卷積神經(jīng)網(wǎng)絡(luò)）[4]技術(shù)。

由于計(jì)算機(jī)軟硬件技術(shù)在近幾年得到了巨大的發(fā)展，因此自動(dòng)駕駛中的路障識(shí)別與定位問(wèn)題的解決也有了很大的進(jìn)展。從最開(kāi)始的端到端[5]的檢測(cè)方法到后來(lái)的兩階段檢測(cè)方法再到現(xiàn)在的一階段檢測(cè)方法，隨著計(jì)算機(jī)網(wǎng)絡(luò)速度和算力的提高，實(shí)驗(yàn)所達(dá)到的路障識(shí)別速度和精度越來(lái)越好。但相對(duì)于自動(dòng)駕駛所要達(dá)到的實(shí)時(shí)速度和超高的精度來(lái)說(shuō)，未來(lái)還有很大的發(fā)展空間。本文主要工作是針對(duì)自動(dòng)駕駛中路障的識(shí)別與定位進(jìn)行研究，擴(kuò)展了RGB[6]等人提出的R-CNN（Region Conventional neural network）和faster R-CNN模型，提出了立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Stereo R-CNN）模型，其不僅可以用來(lái)識(shí)別自動(dòng)駕駛中的障礙物，還可以進(jìn)一步定位障礙物的位置。

2 CNN介紹

卷積神經(jīng)網(wǎng)絡(luò)（Conventional neural network， CNN）是一種適合使用在連續(xù)值輸入信號(hào)上的深度學(xué)習(xí)模型，主要仿造生物的神經(jīng)元機(jī)制設(shè)計(jì)。在2012年CNN一舉打破了ImageNet這個(gè)圖像識(shí)別競(jìng)賽的記錄后，計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)生了天翻地覆的變化，各種視覺(jué)任務(wù)都放棄了傳統(tǒng)的方法，啟用CNN構(gòu)建新的模型。經(jīng)典CNN的模型結(jié)構(gòu)如圖1所示：

這個(gè)卷積神經(jīng)網(wǎng)絡(luò)有11層，從輸入端開(kāi)始分別為輸入層和歸一化層，接著是5個(gè)卷積層，然后連接著3個(gè)全連接層，最后是輸出層。在5個(gè)卷積層中，前三層中采用2×2步長(zhǎng)和5×5內(nèi)核的卷積層，在后兩層中采用3×3為內(nèi)核大小的無(wú)步長(zhǎng)卷積層，即strides=1。在CNN模型基礎(chǔ)上，多個(gè)網(wǎng)絡(luò)模型相繼被提出，并且應(yīng)用于在自動(dòng)駕駛技術(shù)中的圖像識(shí)別與分割模塊，如區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（R-CNN）、Fast R-CNN、Faster R-CNN等。

3 立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Stereo R-CNN）

卷積神經(jīng)網(wǎng)絡(luò)在自動(dòng)駕駛中將道路中的障礙物簡(jiǎn)化成2D目標(biāo)并做出識(shí)別。本節(jié)將采用立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型，其不僅對(duì)3D障礙物做識(shí)別還會(huì)進(jìn)一步定位。首先，使用權(quán)重共享的殘差網(wǎng)絡(luò)（ResNet-101）和特征金字塔網(wǎng)絡(luò)（FPN）作為骨干網(wǎng)絡(luò)，提取左右圖像的一致特征。其次，將特征輸入連接到立體區(qū)域候選網(wǎng)絡(luò)（Stereo RPN）中，計(jì)算IOU （Intersection over Union，交并比）值。數(shù)據(jù)集分為正負(fù)標(biāo)簽。經(jīng)過(guò)立體RPN之后，得到相應(yīng)的左右提案對(duì)。將RoI Align[7]分別應(yīng)用于金字塔級(jí)別的左右特征圖。左和右RoI特征被連接并饋送到兩個(gè)連續(xù)的全連接層，以提取語(yǔ)義信息。經(jīng)過(guò)ROI Align之后，添加另外兩個(gè)分支，一個(gè)用來(lái)執(zhí)行關(guān)鍵點(diǎn)的預(yù)測(cè)，一個(gè)用來(lái)回歸精確的2D框，兩個(gè)分支的輸出形成用于3D框估計(jì)的稀疏約束。立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示：

在自動(dòng)駕駛中，車輛對(duì)周圍環(huán)境的感知是非常重要的。激光雷達(dá)能提供高精度的3D點(diǎn)云，但密集的3D信息就需要借助于雙目或多目攝像頭來(lái)獲取。本文接下來(lái)用雙目攝像頭驗(yàn)證立體圖片和位置的對(duì)應(yīng)關(guān)系。按照相機(jī)標(biāo)定得到內(nèi)外參數(shù)和單應(yīng)矩陣；根據(jù)標(biāo)定的結(jié)果對(duì)原始圖像進(jìn)行矯正，矯正后的兩張圖像位于統(tǒng)一平面且互相平行，然后對(duì)矯正后的圖像進(jìn)行像素點(diǎn)的匹配，最后根據(jù)匹配結(jié)果計(jì)算每個(gè)像素的深度，從而獲得深度圖。把同一場(chǎng)景在左右視圖上對(duì)應(yīng)的像點(diǎn)匹配起來(lái)，得到視圖差，根據(jù)公式計(jì)算出深度信息，進(jìn)一步精確3D障礙物的位置。雙目攝像頭實(shí)物圖及矯正后的示例圖如圖3所示：

雙目攝像頭的測(cè)距原理如圖4所示：

假設(shè)兩個(gè)攝像頭間距為，空間中一點(diǎn)到兩個(gè)攝像頭所成圖像上的偏移為，為視差，即從間隔一定距離的兩個(gè)點(diǎn)上觀察同一個(gè)目標(biāo)所產(chǎn)生的方向差異。攝像頭的焦距為，根據(jù)相似三角形原理：

可以看出視差與三維空間上的點(diǎn)到投影中心平面的距離成反比；距離平面越近的目標(biāo)，視差越大；距離平面越遠(yuǎn)的目標(biāo)，視差越小。因此，只要知道三位空間中某一點(diǎn)的視差，就可以知道該點(diǎn)的深度信息。本實(shí)驗(yàn)使用了雙目攝像頭做了圖片定位的驗(yàn)證，其中雙目攝像頭的標(biāo)定、矯正和匹配主要是在amcap和VS2019上進(jìn)行。

4 實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)硬件環(huán)境的處理器為Inter（R） Core（TM） i5-9400 CPU @2.90GHz、24GB內(nèi)存和RTX3090顯卡。使用的是公開(kāi)的KITTI數(shù)據(jù)集[8]，KITTI數(shù)據(jù)集是由KIT和TTIC在2012年開(kāi)始的一個(gè)合作項(xiàng)目，其網(wǎng)址為http：//www.cvlibs.net/datasets/kitti/。數(shù)據(jù)集包括真實(shí)室外場(chǎng)景下的RGB雙目圖像和雷達(dá)點(diǎn)云數(shù)據(jù)，其中有7481對(duì)訓(xùn)練圖像對(duì)和7518對(duì)測(cè)試圖像對(duì)。我們用搭建好的網(wǎng)絡(luò)來(lái)測(cè)試公開(kāi)數(shù)據(jù)集KITTI。本實(shí)驗(yàn)所用的是3D數(shù)據(jù)集，因此需要激光雷達(dá)數(shù)據(jù)、圖像數(shù)據(jù)、標(biāo)注數(shù)據(jù)以及標(biāo)定校準(zhǔn)數(shù)據(jù)。模型檢測(cè)結(jié)果如圖5所示。

圖片左邊從上到下分別是左圖像、右圖像、右邊是鳥(niǎo)瞰圖。使用鳥(niǎo)瞰圖平均精度（APbv）和三維空間平均精度（AP3d）來(lái)評(píng)估3D檢測(cè)和定位性能，結(jié)果如表1所示：

從表中可以看出，stereo R-CNN的精度優(yōu)于Mono3D和VeloFCN模型。本實(shí)驗(yàn)還測(cè)試了Stereo R-CNN模型的檢測(cè)性能與其它模型的對(duì)比，實(shí)驗(yàn)結(jié)果如表2所示：

由表可知，Stereo R-CNN模型檢測(cè)速度優(yōu)于CNN等模型。

通過(guò)表1和表2的結(jié)果，可以發(fā)現(xiàn)本文提出的方法在圖像識(shí)別精度和速度上要優(yōu)于Mono3D和VeloFCN等其它模型，更適合運(yùn)用于自動(dòng)駕駛中。

5 結(jié)語(yǔ)

為了實(shí)現(xiàn)自動(dòng)駕駛中的障礙物的識(shí)別與定位，本文提出了一種立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行實(shí)驗(yàn)與驗(yàn)證。實(shí)驗(yàn)結(jié)果表明立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)具有超高的識(shí)別精度與速度，優(yōu)于Mono3D和VeloFCN等其它模型，適合運(yùn)用于自動(dòng)駕駛中。在今后的研究中，會(huì)進(jìn)一步將立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)和YOLOv7結(jié)合起來(lái)，做出更加快速和精準(zhǔn)的障礙物的識(shí)別與定位。

基金項(xiàng)目：廣西省自然科學(xué)基金項(xiàng)目（2021GXNSFAA220048）。

參考文獻(xiàn)：

[1]Badue C， Guidolini R， Carneiro R V， et al. Self-driving cars： A survey[J]. Expert Systems with Applications， 2020： 113816.

[2]任柯燕，谷美穎，袁正謙，袁帥.自動(dòng)駕駛3D目標(biāo)檢測(cè)研究綜述[J/OL].控制與決策：1-24[2022-10-18].DOI：10.13195/j.kzyjc.2022.0618.

[3]石娟，田曉笛，王建培.自動(dòng)駕駛分級(jí)方法及測(cè)試技術(shù)[J].汽車工程師，2018（09）：18-21.

[4]Wanli Ye，Wei Jiang，Zheng Tong，Dongdong Yuan & Jingjing Xiao. Convolutional neural network for pothole detection in asphalt pavement，Road Materials and Pavement Design，（2021）22：1，42-58．

[5]BOJARSKI M，DEL TESTA D，DWORAKOW-SKI D，et al. End to End Learning for Self-Driving Cars[M/OL]. arXiv，2016[2022-08-11].

[6]LI P L，CHEN X Z，SHEN S J．Stereo R-CNN based 3D object detection for autonomous driving [C]. IEEE International Conference on Computer Vision and Pattern recognition. Piscataway： IEEE，2019：7636-7644.

[7]K. He，G. Gkioxari，P. Dollar，and R. Girshick. Mask R-CNN[C]. IEEE International Conference on Computer Vision （ICCV），2017，pages 2980–2988.

[8]Andreas Geiger，Philip Lenz，Christoph Stiller and Raquel Urtasun，Vision meets Robotics ;The KITTI Dataset. International Journal of Robotics Research （IJRR），2013.