劉啟 盧林 朱兆旻



摘 要:基于深度學(xué)習(xí)的自動(dòng)駕駛技術(shù)是目前最為先進(jìn)和主流的自動(dòng)駕駛技術(shù)之一,它通過(guò)應(yīng)用深度學(xué)習(xí)算法來(lái)實(shí)現(xiàn)對(duì)駕駛場(chǎng)景的感知、路徑規(guī)劃、行為決策和運(yùn)動(dòng)控制,極大地提高了自動(dòng)駕駛汽車的安全性和可靠性。文章提出了一種新型的立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)自動(dòng)駕駛中的路障的識(shí)別與定位進(jìn)行研究。結(jié)果顯示,文章提出的方法在圖像識(shí)別精度和速度上要優(yōu)于Mono3D和VeloFCN等其它模型。
關(guān)鍵詞:深度學(xué)習(xí) R-CNN 自動(dòng)駕駛 路障識(shí)別與定位
1 引言
如同互聯(lián)網(wǎng)工業(yè)革命,汽車的駕駛模式也正在經(jīng)歷著一場(chǎng)變革,駕駛方式由傳統(tǒng)的人工操作向無(wú)人化方向演進(jìn)。早在上世紀(jì)80年代美國(guó)國(guó)防高級(jí)研究計(jì)劃部署 (DARPA)就提出了自動(dòng)駕駛的概念[1]。國(guó)內(nèi)以百度為首的公司和高校也在蓬勃發(fā)展著自動(dòng)駕駛[2]。自動(dòng)駕駛具有非常大的發(fā)展前景和意義,它可以增強(qiáng)道路安全,緩解交通擁堵,提高車輛通行效率,還可以緩解停車難的問(wèn)題,縮短消費(fèi)者停車和取車的時(shí)間,另外它還能減少空氣污染,改善環(huán)境質(zhì)量。美國(guó)機(jī)動(dòng)工程師協(xié)會(huì)(SAE)對(duì)自動(dòng)駕駛做了0-5級(jí)分級(jí)[3]。由于四級(jí)及以上對(duì)環(huán)境感知的準(zhǔn)確性和精確性要求很高,甚至超出了人類的認(rèn)知水平,所以還需要做更大的努力去發(fā)展自動(dòng)駕駛技術(shù)。自動(dòng)駕駛包括環(huán)境感知、智能決策和控制執(zhí)行三個(gè)階段,其中環(huán)境感知是最基礎(chǔ)的部分。無(wú)人駕駛中感知部分的主要功能涉及計(jì)算機(jī)視覺(jué)領(lǐng)域研究的相關(guān)問(wèn)題,適合采用CNN(Conventional neutral network,卷積神經(jīng)網(wǎng)絡(luò))[4]技術(shù)。
由于計(jì)算機(jī)軟硬件技術(shù)在近幾年得到了巨大的發(fā)展,因此自動(dòng)駕駛中的路障識(shí)別與定位問(wèn)題的解決也有了很大的進(jìn)展。從最開(kāi)始的端到端[5]的檢測(cè)方法到后來(lái)的兩階段檢測(cè)方法再到現(xiàn)在的一階段檢測(cè)方法,隨著計(jì)算機(jī)網(wǎng)絡(luò)速度和算力的提高,實(shí)驗(yàn)所達(dá)到的路障識(shí)別速度和精度越來(lái)越好。但相對(duì)于自動(dòng)駕駛所要達(dá)到的實(shí)時(shí)速度和超高的精度來(lái)說(shuō),未來(lái)還有很大的發(fā)展空間。本文主要工作是針對(duì)自動(dòng)駕駛中路障的識(shí)別與定位進(jìn)行研究,擴(kuò)展了RGB[6]等人提出的R-CNN(Region Conventional neural network)和faster R-CNN模型,提出了立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Stereo R-CNN)模型,其不僅可以用來(lái)識(shí)別自動(dòng)駕駛中的障礙物,還可以進(jìn)一步定位障礙物的位置。
2 CNN介紹
卷積神經(jīng)網(wǎng)絡(luò)(Conventional neural network, CNN)是一種適合使用在連續(xù)值輸入信號(hào)上的深度學(xué)習(xí)模型,主要仿造生物的神經(jīng)元機(jī)制設(shè)計(jì)。在2012年CNN一舉打破了ImageNet這個(gè)圖像識(shí)別競(jìng)賽的記錄后,計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)生了天翻地覆的變化,各種視覺(jué)任務(wù)都放棄了傳統(tǒng)的方法,啟用CNN構(gòu)建新的模型。經(jīng)典CNN的模型結(jié)構(gòu)如圖1所示:
這個(gè)卷積神經(jīng)網(wǎng)絡(luò)有11層,從輸入端開(kāi)始分別為輸入層和歸一化層,接著是5個(gè)卷積層,然后連接著3個(gè)全連接層,最后是輸出層。在5個(gè)卷積層中,前三層中采用2×2步長(zhǎng)和5×5內(nèi)核的卷積層,在后兩層中采用3×3為內(nèi)核大小的無(wú)步長(zhǎng)卷積層,即strides=1。在CNN模型基礎(chǔ)上,多個(gè)網(wǎng)絡(luò)模型相繼被提出,并且應(yīng)用于在自動(dòng)駕駛技術(shù)中的圖像識(shí)別與分割模塊,如區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)、Fast R-CNN、Faster R-CNN等。
3 立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Stereo R-CNN)
卷積神經(jīng)網(wǎng)絡(luò)在自動(dòng)駕駛中將道路中的障礙物簡(jiǎn)化成2D目標(biāo)并做出識(shí)別。本節(jié)將采用立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型,其不僅對(duì)3D障礙物做識(shí)別還會(huì)進(jìn)一步定位。首先,使用權(quán)重共享的殘差網(wǎng)絡(luò)(ResNet-101)和特征金字塔網(wǎng)絡(luò)(FPN)作為骨干網(wǎng)絡(luò),提取左右圖像的一致特征。其次,將特征輸入連接到立體區(qū)域候選網(wǎng)絡(luò)(Stereo RPN)中,計(jì)算IOU (Intersection over Union, 交并比)值。數(shù)據(jù)集分為正負(fù)標(biāo)簽。經(jīng)過(guò)立體RPN之后,得到相應(yīng)的左右提案對(duì)。將RoI Align[7]分別應(yīng)用于金字塔級(jí)別的左右特征圖。左和右RoI特征被連接并饋送到兩個(gè)連續(xù)的全連接層,以提取語(yǔ)義信息。經(jīng)過(guò)ROI Align之后,添加另外兩個(gè)分支,一個(gè)用來(lái)執(zhí)行關(guān)鍵點(diǎn)的預(yù)測(cè),一個(gè)用來(lái)回歸精確的2D框,兩個(gè)分支的輸出形成用于3D框估計(jì)的稀疏約束。立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示:
在自動(dòng)駕駛中,車輛對(duì)周圍環(huán)境的感知是非常重要的。激光雷達(dá)能提供高精度的3D點(diǎn)云,但密集的3D信息就需要借助于雙目或多目攝像頭來(lái)獲取。本文接下來(lái)用雙目攝像頭驗(yàn)證立體圖片和位置的對(duì)應(yīng)關(guān)系。按照相機(jī)標(biāo)定得到內(nèi)外參數(shù)和單應(yīng)矩陣;根據(jù)標(biāo)定的結(jié)果對(duì)原始圖像進(jìn)行矯正,矯正后的兩張圖像位于統(tǒng)一平面且互相平行,然后對(duì)矯正后的圖像進(jìn)行像素點(diǎn)的匹配,最后根據(jù)匹配結(jié)果計(jì)算每個(gè)像素的深度,從而獲得深度圖。把同一場(chǎng)景在左右視圖上對(duì)應(yīng)的像點(diǎn)匹配起來(lái),得到視圖差,根據(jù)公式計(jì)算出深度信息,進(jìn)一步精確3D障礙物的位置。雙目攝像頭實(shí)物圖及矯正后的示例圖如圖3所示:
雙目攝像頭的測(cè)距原理如圖4所示:
假設(shè)兩個(gè)攝像頭間距為,空間中一點(diǎn)到兩個(gè)攝像頭所成圖像上的偏移為,為視差,即從間隔一定距離的兩個(gè)點(diǎn)上觀察同一個(gè)目標(biāo)所產(chǎn)生的方向差異。攝像頭的焦距為,根據(jù)相似三角形原理:
可以看出視差與三維空間上的點(diǎn)到投影中心平面的距離成反比;距離平面越近的目標(biāo),視差越大;距離平面越遠(yuǎn)的目標(biāo),視差越小。因此,只要知道三位空間中某一點(diǎn)的視差,就可以知道該點(diǎn)的深度信息。本實(shí)驗(yàn)使用了雙目攝像頭做了圖片定位的驗(yàn)證,其中雙目攝像頭的標(biāo)定、矯正和匹配主要是在amcap和VS2019上進(jìn)行。
4 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)硬件環(huán)境的處理器為Inter(R) Core(TM) i5-9400 CPU @2.90GHz、24GB內(nèi)存和RTX3090顯卡。使用的是公開(kāi)的KITTI數(shù)據(jù)集[8],KITTI數(shù)據(jù)集是由KIT和TTIC在2012年開(kāi)始的一個(gè)合作項(xiàng)目,其網(wǎng)址為http://www.cvlibs.net/datasets/kitti/。數(shù)據(jù)集包括真實(shí)室外場(chǎng)景下的RGB雙目圖 像和雷達(dá)點(diǎn)云數(shù)據(jù),其中有7481對(duì)訓(xùn)練圖像對(duì)和7518對(duì)測(cè)試圖像對(duì)。我們用搭建好的網(wǎng)絡(luò)來(lái)測(cè)試公開(kāi)數(shù)據(jù)集KITTI。本實(shí)驗(yàn)所用的是3D數(shù)據(jù)集,因此需要激光雷達(dá)數(shù)據(jù)、圖像數(shù)據(jù)、標(biāo)注數(shù)據(jù)以及標(biāo)定校準(zhǔn)數(shù)據(jù)。模型檢測(cè)結(jié)果如圖5所示。
圖片左邊從上到下分別是左圖像、右圖像、右邊是鳥(niǎo)瞰圖。使用鳥(niǎo)瞰圖平均精度(APbv)和三維空間平均精度(AP3d)來(lái)評(píng)估3D檢測(cè)和定位性能,結(jié)果如表1所示:
從表中可以看出,stereo R-CNN的精度優(yōu)于Mono3D和VeloFCN模型。本實(shí)驗(yàn)還測(cè)試了Stereo R-CNN模型的檢測(cè)性能與其它模型的對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示:
由表可知,Stereo R-CNN模型檢測(cè)速度優(yōu)于CNN等模型。
通過(guò)表1和表2的結(jié)果,可以發(fā)現(xiàn)本文提出的方法在圖像識(shí)別精度和速度上要優(yōu)于Mono3D和VeloFCN等其它模型,更適合運(yùn)用于自動(dòng)駕駛中。
5 結(jié)語(yǔ)
為了實(shí)現(xiàn)自動(dòng)駕駛中的障礙物的識(shí)別與定位,本文提出了一種立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行實(shí)驗(yàn)與驗(yàn)證。實(shí)驗(yàn)結(jié)果表明立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)具有超高的識(shí)別精度與速度,優(yōu)于Mono3D和VeloFCN等其它模型,適合運(yùn)用于自動(dòng)駕駛中。在今后的研究中,會(huì)進(jìn)一步將立體區(qū)域卷積神經(jīng)網(wǎng)絡(luò)和YOLOv7結(jié)合起來(lái),做出更加快速和精準(zhǔn)的障礙物的識(shí)別與定位。
基金項(xiàng)目:廣西省自然科學(xué)基金項(xiàng)目(2021GXNSFAA220048)。
參考文獻(xiàn):
[1]Badue C, Guidolini R, Carneiro R V, et al. Self-driving cars: A survey[J]. Expert Systems with Applications, 2020: 113816.
[2]任柯燕,谷美穎,袁正謙,袁帥.自動(dòng)駕駛3D目標(biāo)檢測(cè)研究綜述[J/OL].控制與決策:1-24[2022-10-18].DOI:10.13195/j.kzyjc.2022.0618.
[3]石娟,田曉笛,王建培.自動(dòng)駕駛分級(jí)方法及測(cè)試技術(shù)[J].汽車工程師,2018(09):18-21.
[4]Wanli Ye,Wei Jiang,Zheng Tong,Dongdong Yuan & Jingjing Xiao. Convolutional neural network for pothole detection in asphalt pavement,Road Materials and Pavement Design,(2021)22:1,42-58.
[5]BOJARSKI M,DEL TESTA D,DWORAKOW-SKI D,et al. End to End Learning for Self-Driving Cars[M/OL]. arXiv,2016[2022-08-11].
[6]LI P L,CHEN X Z,SHEN S J.Stereo R-CNN based 3D object detection for autonomous driving [C]. IEEE International Conference on Computer Vision and Pattern recognition. Piscataway: IEEE,2019:7636-7644.
[7]K. He,G. Gkioxari,P. Dollar,and R. Girshick. Mask R-CNN[C]. IEEE International Conference on Computer Vision (ICCV),2017,pages 2980–2988.
[8]Andreas Geiger,Philip Lenz,Christoph Stiller and Raquel Urtasun,Vision meets Robotics ;The KITTI Dataset. International Journal of Robotics Research (IJRR),2013.