董 軒,周 煒*,劉夢(mèng)雅
(1.交通運(yùn)輸部公路研究所,北京 100088;2.交通運(yùn)輸部車輛運(yùn)行安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100088)
隨著經(jīng)濟(jì)的發(fā)展,人們生活水平的提高,汽車的產(chǎn)量和銷量逐年遞增,與此同時(shí),行車安全對(duì)人們生命財(cái)產(chǎn)安全的影響越來(lái)越大[1]。由于駕駛員視覺(jué)盲區(qū)的存在,極易造成判斷和操作失誤,從而導(dǎo)致吞人卷車、汽車追尾等交通事故頻發(fā),駕駛員視野盲區(qū)成為獲取汽車周圍環(huán)境信息的最大障礙。尤其是大型客車與貨車,車身周圍存在許多視野盲區(qū),經(jīng)常發(fā)生車輛起步或泊車時(shí)碾壓視野盲區(qū)內(nèi)行人及非機(jī)動(dòng)車的事故,特別是公交車、城市物流車輛等在人員密集場(chǎng)所運(yùn)營(yíng)車輛的此類事故風(fēng)險(xiǎn)尤其嚴(yán)重,大型營(yíng)運(yùn)車輛車身周圍盲區(qū)面積可達(dá)70 m2[1]。為了解決這些問(wèn)題,車載環(huán)視系統(tǒng)萌芽并發(fā)展起來(lái),在無(wú)人駕駛和汽車電子安全駕駛領(lǐng)域具有廣闊的應(yīng)用前景。車載環(huán)視系統(tǒng)的概念由K.Kato等[2]人于2006年首先提出,并申請(qǐng)了美國(guó)專利。車載環(huán)視系統(tǒng)是一種基于機(jī)器視覺(jué)的車輛輔助駕駛系統(tǒng),是利用安裝在車輛四周的廣角攝像頭,通過(guò)圖像變換重構(gòu)車輛以及周圍場(chǎng)景的鳥瞰視角圖像,駕駛員可以安全泊車、避開(kāi)障礙物和消除視覺(jué)盲區(qū),達(dá)到安全行車的目的。
車載環(huán)視拼接相關(guān)技術(shù)研究已經(jīng)逐漸成為國(guó)內(nèi)外研究重點(diǎn)[3-6]。相對(duì)于圖像拼接方法的研究,目前國(guó)內(nèi)外文獻(xiàn)中對(duì)拼接圖像質(zhì)量評(píng)價(jià)的研究較少。圖像質(zhì)量評(píng)價(jià)是比較各種圖像拼接方案性能優(yōu)劣以及優(yōu)化系統(tǒng)參數(shù)的重要手段,因此建立有效的圖像質(zhì)量評(píng)價(jià)機(jī)制對(duì)評(píng)估全景拼接性能具有重要的意義。特別是全景環(huán)視系統(tǒng)的圖像質(zhì)量依賴于圖像的拼接算法,必然會(huì)存在重影、損失等情況。本文提出了用軟件檢測(cè)360度全景環(huán)視設(shè)備的圖像質(zhì)量,從而判定待檢360度全景環(huán)視設(shè)備成像系統(tǒng)質(zhì)量好壞,為360度全景環(huán)視設(shè)備成像質(zhì)量判斷提供科學(xué)的方法。
在安裝有360度全景環(huán)視設(shè)備的車輛的周圍布置黑白棋盤格,啟動(dòng)車輛和360度全景環(huán)視設(shè)備,360度全景環(huán)視設(shè)備拍攝清晰的全景圖像并將融合后的全景拼接圖像發(fā)送至360度全景環(huán)視設(shè)備成像質(zhì)量評(píng)估軟件。通過(guò)矩陣式光源系統(tǒng)對(duì)環(huán)境照度進(jìn)行精確控制,實(shí)現(xiàn)在地面2~3 000 lux的照顧調(diào)節(jié),試驗(yàn)設(shè)置為1 000 lux進(jìn)行采集,地面照度均勻性Min/Ave>0.9@Average≈1 000 lux。
黑白棋盤格符合ISO 16505的要求,布置方式:在車輛垂直地面投影外邊緣遠(yuǎn)離車輛方向5~20 cm處,即車輛的前后左右,布置單個(gè)方格尺寸大小30 cm*30 cm的棋盤格,前后左右布置的棋盤格形成方框型,且其排布前后、左右分別對(duì)稱。場(chǎng)景布置如圖1所示。

圖1 場(chǎng)景布置圖
車輛360度全景環(huán)視設(shè)備開(kāi)啟并拍攝清晰全景圖像,并將融合后的全景拼接圖像發(fā)至電腦端軟件;軟件方基于深度學(xué)習(xí),生成訓(xùn)練數(shù)據(jù)集合和測(cè)試數(shù)據(jù)集,構(gòu)建YOLOV3網(wǎng)絡(luò);根據(jù)YOLOV3網(wǎng)絡(luò)計(jì)算全景拼接圖像的拼接損失占比、拼接重影占比、拼接錯(cuò)位長(zhǎng)度以及拼接縫隙寬度,生成測(cè)試報(bào)告,并存儲(chǔ)數(shù)據(jù)。
獲取360度全景拼接圖像,生成圖像數(shù)據(jù)集,通過(guò)獲取的不同環(huán)境、車型和廠商的拼接合成圖像;對(duì)每張圖像進(jìn)行標(biāo)注,分別框出圖像中拼接重影,拼接損失,拼接錯(cuò)位、拼接縫隙的位置并標(biāo)注每個(gè)位置的類別;將圖像數(shù)據(jù)集按9∶1劃分為訓(xùn)練集和驗(yàn)證集,獲取測(cè)試數(shù)據(jù)集。
將生成訓(xùn)練數(shù)據(jù)集和獲取測(cè)試數(shù)據(jù)集作為圖像為輸入,生成一個(gè)YOLOV3網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型主要由輸入層、主干特征提取層、特征融合輸出層組成。
輸入層輸入416×416×3大小的圖像。
主干特征提取層由殘差卷積模塊和在殘差卷積模塊間實(shí)現(xiàn)下采樣的卷積模塊組成,用來(lái)提取圖像特征。首先,對(duì)輸入層輸入的圖像進(jìn)行32通道的卷積,再通過(guò)BN歸一化和LeakyReLU激活后得到特征層;卷積計(jì)算公式如下:

其中,xi為第i個(gè)像素值,n為圖像塊的像素點(diǎn)總數(shù),wi為權(quán)重矩陣第i個(gè)下標(biāo)的值。
BN歸一化函數(shù)如下:

其中,xout為歸一化結(jié)果,γ為縮放因子,u為均值,σ2為方差,β為偏置。
LeakyReLU激活函數(shù)如下:

其中,xi為BN歸一化后的輸出,ai為非零系數(shù)。
然后,對(duì)輸入的特征層進(jìn)行卷積核大小為3,步長(zhǎng)為2的下采樣,歸一化和激活函數(shù)后,進(jìn)行殘差網(wǎng)絡(luò)的堆疊,殘差網(wǎng)絡(luò)由兩組卷積標(biāo)準(zhǔn)化和激活函數(shù)組成,在前向傳播階段,將輸入的特征層分為2部分,一部分為主干卷積邊,對(duì)輸入的特征層進(jìn)行2組卷積標(biāo)準(zhǔn)化和激活操作,再與另一部分殘差邊相加得到殘差堆疊的結(jié)果。將結(jié)果又進(jìn)行卷積核大小為3,步長(zhǎng)為2的下采樣,歸一化和激活函數(shù)后,進(jìn)行2次殘差網(wǎng)絡(luò)的堆疊,得到第2次下采樣和殘差堆疊的結(jié)果,從第1次開(kāi)始分別對(duì)上一步結(jié)果進(jìn)行下采樣后進(jìn)行1次、2次、8次、8次、4次殘差堆疊,得到5次下采樣和殘差堆疊的結(jié)果,對(duì)后3層的特征層進(jìn)行保存,進(jìn)行下一層的處理。
特征融合層將上一層保存的3個(gè)尺度的特征層構(gòu)建特征金字塔,進(jìn)行分類和回歸預(yù)測(cè)。以416×416圖像作為輸入的特征融合層的3個(gè)尺度分別為13×13、26×26和52×52。在每個(gè)尺度內(nèi),通過(guò)卷積核的方式進(jìn)行局部特征交互,完成金字塔特征融合;首先,對(duì)13×13特征層的圖像進(jìn)行1×1的卷積調(diào)整通道數(shù),3×3的卷積進(jìn)行進(jìn)一步的特征提取,再進(jìn)行1×1的卷積調(diào)整通道數(shù),3×3的卷積進(jìn)行特征提取,以此來(lái)減少網(wǎng)絡(luò)的參數(shù)量進(jìn)行特征的提取,接著又通過(guò)一個(gè)1×1的卷積對(duì)通道數(shù)進(jìn)行調(diào)整,對(duì)5次卷積后的結(jié)果又進(jìn)行3×3和1×1的卷積進(jìn)行分類和回歸預(yù)測(cè);然后,對(duì)前5次卷積后的結(jié)果進(jìn)行1×1的卷積調(diào)整通道數(shù)后進(jìn)行上采樣操作,與上一層26×26的特征層進(jìn)行堆疊,堆疊結(jié)果進(jìn)行與13×13特征層相同的5次卷積提取特征以及3×3和1×1的卷積進(jìn)行分類和回歸預(yù)測(cè);最后,52×52特征層也進(jìn)行相同操作,最終獲得3個(gè)尺度的回歸預(yù)測(cè)結(jié)果。
輸出層對(duì)特征融合層輸出的3個(gè)尺度特征圖進(jìn)行分類和位置回歸,通過(guò)獲取的3個(gè)預(yù)測(cè)結(jié)果進(jìn)行先驗(yàn)框的調(diào)整,獲得最終的預(yù)測(cè)框。其中損失函數(shù)如下:

其中,Llocation(l,g)為目標(biāo)邊框定位偏移量損失,Lconfidence(o,c)為目標(biāo)邊框置信度損失,Lclass(O,C)為目標(biāo)邊框分類損失,λ1、λ2、λ3表示平衡系數(shù)。
Lconfidence(o,c)采用二值交叉熵?fù)p失,公式如下:

式中,oi∈{0,1},表示第i個(gè)預(yù)測(cè)框是否存在待檢測(cè)目標(biāo),其中0表示不存在,1表示存在。ci表示第i個(gè)預(yù)測(cè)框存在已知目標(biāo)的Sigmoid概率。
Lclass(O,C)采用二值交叉熵?fù)p失,公式如下:

式中,oij∈{0,1}表示第i個(gè)目標(biāo)預(yù)測(cè)框是否存在第j類待檢測(cè)目標(biāo),0表示不存在,1表示存在,Cij表示第i個(gè)目標(biāo)預(yù)測(cè)框存在第j類目標(biāo)的Sigmoid概率。
Llocation(l,g)采用真實(shí)值與預(yù)測(cè)偏差值差的平方和表示,公式如下:

其中,gi為預(yù)測(cè)框相對(duì)預(yù)設(shè)框坐標(biāo)偏移量,li為預(yù)測(cè)矩形框坐標(biāo)偏移量,(bx,by,bw,bh)為預(yù)測(cè)框參數(shù),(cx,cy,pw,ph)為預(yù)設(shè)框參數(shù),(gx,gy,gw,gh)表示映射在預(yù)測(cè)特征圖上真實(shí)目標(biāo)框參數(shù)。
最后,利用數(shù)據(jù)集訓(xùn)練YOLOV3網(wǎng)絡(luò)。
通過(guò)軟件指出損失圖像、拼接重影、拼接錯(cuò)位、以及拼接縫隙的位置并進(jìn)行計(jì)算損失占比、重影占比、錯(cuò)位長(zhǎng)度以及縫隙寬度。
損失占比計(jì)算公式如下:

其中,l為單個(gè)棋盤格的損失占比,sl為單個(gè)棋盤格損失的面積,sc為棋盤格本身的面積。
重影占比計(jì)算公式如下:

其中,g為單個(gè)棋盤格的損失占比,sg為單個(gè)棋盤格重影面積,sc為棋盤格本身的面積。
錯(cuò)位長(zhǎng)度計(jì)算公式如下:

其中,dd為2個(gè)棋盤格的錯(cuò)位距離(單位:cm),dx為2個(gè)棋盤格橫向錯(cuò)位距離,dy為2個(gè)棋盤格縱向錯(cuò)位距離。
縫隙寬度根據(jù)圖像像素距離與實(shí)際距離進(jìn)行縫隙寬度的計(jì)算。
某360度全景環(huán)視設(shè)備拼接圖像結(jié)果分析如圖2所示,該圖像共檢測(cè)出46處損失,11處重影和11個(gè)錯(cuò)位的地方,無(wú)拼接縫隙。

圖2 某360度全景環(huán)視設(shè)備拼接圖像分析
通過(guò)360度全景環(huán)視拼接圖像質(zhì)量評(píng)價(jià)軟件對(duì)360度全景環(huán)視設(shè)備的拼接圖像質(zhì)量進(jìn)行評(píng)價(jià)。軟件基于深度學(xué)習(xí),生成訓(xùn)練數(shù)據(jù)集合和測(cè)試數(shù)據(jù)集,構(gòu)建YOLOV3網(wǎng)絡(luò);根據(jù)YOLOV3網(wǎng)絡(luò)計(jì)算全景拼接圖像的拼接損失占比、拼接重影占比、拼接錯(cuò)位長(zhǎng)度以及拼接縫隙寬度的結(jié)果表明,360度全景環(huán)視設(shè)備圖像評(píng)價(jià)軟件能準(zhǔn)確地判斷拼接圖像的效果,代替繁瑣的、大量的人為統(tǒng)計(jì)評(píng)分,并且可以克服單因素評(píng)價(jià)指標(biāo)所帶來(lái)的局限性,有利于全自動(dòng)自適應(yīng)圖像拼接系統(tǒng)的實(shí)現(xiàn),具有非常重要的應(yīng)用價(jià)值。
同時(shí),該方法可以擴(kuò)展環(huán)視拼接的立體測(cè)試內(nèi)容,通過(guò)垂直于地面的棋盤格實(shí)現(xiàn)垂直方向的重影、損失等參數(shù)的量化分析,考察行人、車輛從盲區(qū)通過(guò)時(shí)候的圖像置信度與駕車風(fēng)險(xiǎn),后續(xù)工作正在持續(xù)開(kāi)展中。