999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MS-YOLOv3的車輛目標實時檢測算法

2021-10-15 12:48:50長春理工大學計算機科學技術(shù)學院吉林長春130022
計算機應用與軟件 2021年10期
關(guān)鍵詞:特征融合檢測

王 玲 張 松 王 鵬 陶 躍(長春理工大學計算機科學技術(shù)學院 吉林 長春 130022)

0 引 言

隨著道路上車輛的逐漸增多,交通路況越發(fā)復雜,檢測車輛目標已經(jīng)成為一項難題。同時,車輛檢測也是目標檢測領(lǐng)域中的一個重要研究方向,它在智能交通、無人駕駛、道路監(jiān)控等方面有廣泛的應用,可以為交通的管理和控制提供決策和支持,因此準確高效地檢測車輛目標具有重要的實際意義。

近年來,隨著深度學習的快速發(fā)展,大量基于卷積神經(jīng)網(wǎng)絡(luò)的方法被用于目標檢測,主要分為基于區(qū)域的方法和基于回歸的方法。基于區(qū)域的方法;先得到候選區(qū)域再對候選區(qū)域進行分類和邊框回歸。Yang等[1]使用改進的Faster R-CNN對航拍圖像中的車輛目標進行檢測,將交叉熵損失函數(shù)替換為焦點損失函數(shù),對復雜環(huán)境下的車輛目標有較好的適應性,但檢測速度慢,無法滿足實時檢測的要求。基于回歸的方法;通過單個卷積神經(jīng)網(wǎng)絡(luò)直接對各個邊界框進行回歸,并預測相應類別的概率,是一種端到端的目標檢測算法,比基于區(qū)域方法的檢測速度有了質(zhì)的提高,滿足實時檢測的要求。Tang等[2]在SSD網(wǎng)絡(luò)產(chǎn)生的特征圖上,使用一組具有各種比例的默認框生成檢測邊界框,以更好地匹配目標形狀。該方法取得了較快的檢測速度,達到了實時檢測的效果,提升了小目標檢測的效果,但檢測精度偏低。劉宏哲等[3]提出基于特征融合的人臉檢測算法,使用反卷積操作融合淺層特征,引入上下文信息,使目標檢測精度有顯著性的提高。薛麗霞等[4]提出一種特征融合的卷積神經(jīng)網(wǎng)絡(luò)模型,將中低層特征進行融合,產(chǎn)生更具區(qū)分性的特征。裴偉等[5]提出一種特征融合的航拍目標檢測算法,將深層特征與淺層特征融合,增強淺層的語義信息,提升了目標檢測效果。上述研究均使用特征融合的方法提升模型的檢測精度。YOLOv3[6]作為基于回歸的方法代表之一,具有較強的實時性(每秒傳輸幀數(shù)大于30即為實時檢測[7]),但相比基于區(qū)域的方法,在檢測精度上處于劣勢。綜上所述,現(xiàn)有的目標檢測算法對復雜場景中不同尺度的車輛目標,無法達到檢測精度與檢測速度兩者兼顧。在保留原有檢測速度的條件下,提升YOLOv3模型的檢測精度是本文研究的重點。

本文提出一種基于YOLOv3多尺度特征融合的檢測算法,稱為MS-YOLOv3。MS-YOLOv3的主網(wǎng)絡(luò)結(jié)構(gòu)是深度殘差網(wǎng)絡(luò)darknet-53,在特征提取時,將淺層位置信息豐富的特征與深層語義強的特征相結(jié)合,增強目標的特征表達,產(chǎn)生三種不同尺度的特征圖,作為預測階段的輸入。同時使用轉(zhuǎn)置卷積[8]替換上采樣的最近鄰插值法,增強網(wǎng)絡(luò)的學習性。在保留原有模型的檢測速度下,提升檢測精度,實現(xiàn)實時檢測車輛的目標。

1 YOLOv3

YOLOv3算法結(jié)構(gòu)如圖1所示。

圖1 YOLOv3框架結(jié)構(gòu)

YOLOv3使用深度殘差網(wǎng)絡(luò)darknet-53作為特征提取網(wǎng)絡(luò),它有5種類型殘差塊,對輸入圖片共進行5次下采樣。在多尺度預測階段,使用最近鄰插值作為上采樣方法,自深層向淺層融合成3種不同尺度的特征圖,形成特征金字塔結(jié)構(gòu)[9],在金字塔每層特征圖上進行邊界框預測,使用非極大值抑制篩選重復預測的邊界框,輸出最終預測的目標類別和位置,對不同尺度目標有良好的檢測效果。

1.1 上采樣方法

上采樣用于放大圖像,將低分辨率的圖像轉(zhuǎn)換成高分辨率的圖像。YOLOv3在上采樣階段使用最近鄰插值法,它輸出的像素灰度值等于距離它映射到的位置最近的輸入像素的灰度值。最近鄰插值法的縮放原理如圖2所示。

圖2 縮放原理

若幾何變換后輸出圖像上坐標為(x,y)的像素點在原圖像上的對應值坐標為(u,v),則:

x=u×ratiox

y=v×ratioy

(1)

式(1)水平的縮放比例ratiox和垂直的縮放比例ratioy計算公式如下:

(2)

式中:w1和h1為圖像縮放后的寬和高;w2和h2為圖像縮放前的寬和高。

1.2 特征金字塔

YOLOv3使用特征金字塔結(jié)構(gòu)來提升不同尺度目標的檢測效果,在縱向上對后兩層殘差塊產(chǎn)生的特征圖進行上采樣,與橫向尺度大小相同的特征圖融合,形成特征金字塔結(jié)構(gòu),特征金字塔的特征圖公式如下:

Yn=φf{Xi-1,ζ(Xi)}

Y={Y2,Y1,X1}

(3)

式中:Yn為每層特征金字塔融合后的特征圖,n∈[1,2],由上采樣操作ζ后的殘差塊特征圖Xi和前一層特征圖Xi-1進行特征融合φf后得到;Y為特征金字塔結(jié)構(gòu),包含3種尺度大小特征圖,即Y2、Y1和X1,X1未經(jīng)過融合故為殘差塊產(chǎn)生的特征圖。

2 MS-YOLOv3

YOLOv3在多尺度預測階段,使用特征金字塔結(jié)構(gòu),通過上采樣將語義信息豐富的深層與當前層融合,缺少淺層的位置信息,使融合后的特征圖信息不完整,影響目標的檢測精度;在上采樣階段,使用最近鄰插值法作為上采樣方法,在圖像中會產(chǎn)生明顯的人工痕跡,影響整個網(wǎng)絡(luò)的學習效果,導致檢測模型的精度下降。針對YOLOv3的缺點,本文提出一種融合多尺度特征的目標檢測算法MS-YOLOv3。實現(xiàn)框架如圖3所示。

在特征提取與多尺度融合階段,MS-YOLOv3使用darknet-53網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),將殘差塊②輸出的特征圖,分別與殘差塊③、④、⑤輸出的特征圖進行融合,形成3種不同尺度的特征圖,作為多尺度預測的輸入。在多尺度預測階段,對輸入的特征圖使用轉(zhuǎn)置卷積操作進行上采樣,與橫向尺度大小相同的特征圖融合,形成特征金字塔結(jié)構(gòu),在每一層特征圖上對目標的類別和位置進行預測。

2.1 特征提取與多尺度特征融合

在基礎(chǔ)特征提取網(wǎng)絡(luò)中,淺層的特征圖具有更高的分辨率和更準確的位置信息,但語義信息較少,深層特征圖有更豐富的語義信息,但分辨率低,刻畫目標的位置信息粗略,對小目標的感知能力較差。將兩者高效融合是提高檢測模型精度的關(guān)鍵。基于這一思想,在縱向上使用darknet-53網(wǎng)絡(luò)產(chǎn)生4種尺度大小不同的特征圖進行融合,以輸入416×416×3為例,詳細的特征提取與多尺度特征融合結(jié)構(gòu)如圖4所示。首先使用含有批歸一化和leaky ReLU激活函數(shù)的卷積操作,對darknet-53網(wǎng)絡(luò)產(chǎn)生的淺層特征圖(104×104)進行三次下采樣(①、②、③),其中卷積核為3×3,步長為2,得到3種特征圖(52×52、26×26、13×13)。然后使用含有批歸一化的concat操作與darknet-53網(wǎng)絡(luò)縱向產(chǎn)生3種特征圖(52×52、26×26、13×13)融合。最后使用卷積核為1×1的卷積操作,對融合后的特征圖進行降維,將最終輸出的3種特征圖(52×52、26×26、13×13)用作預測階段的輸入。

圖4 特征提取與多尺度特征融合結(jié)構(gòu)

本文使用concat操作融合特征,將兩種相同尺度大小的特征圖進行合并,擴充通道數(shù),融合后特征圖的通道數(shù)為融合前兩個特征圖通道數(shù)之和。concat計算公式如下:

(4)

式中:Xi、Yi為一組輸入中的一個通道;K為卷積核;C為融合前特征圖的通道數(shù)。

2.2 改進上采樣方法

MS-YOLOv3在上采樣階段使用轉(zhuǎn)置卷積。轉(zhuǎn)置卷積是一種在圖像特征空間進行的自主學習的上采樣方法,相比最近鄰插值法,轉(zhuǎn)置卷積的權(quán)重可以通過訓練網(wǎng)絡(luò)得到最優(yōu)的權(quán)重,進而提升檢測精度。多尺度預測詳細結(jié)構(gòu)如圖5所示。

將多尺度融合輸出的三種尺度特征圖作為多尺度預測階段的輸入,首先對輸入13×13的特征圖,使用轉(zhuǎn)置卷積操作進行2倍上采樣(①),與輸入26×26的特征圖融合,產(chǎn)生新的26×26的特征圖。再使用轉(zhuǎn)置卷積操作(②),對融合后26×26的特征圖進行2倍上采樣,與輸入52×52的特征圖融合,構(gòu)建3種尺度大小的特征金字塔結(jié)構(gòu),每一層金字塔特征包含不同層次的特征圖。最后對不同的特征進行預測,大中小目標都有良好的檢測效果。

3 實驗與結(jié)果分析

3.1 實驗環(huán)境

本文的實驗環(huán)境見表1。

3.2 評價指標

本文對車輛目標進行實時檢測,選擇平均精確度(AP)和每秒傳輸幀數(shù)(FPS)作為目標檢測模型的評價指標。AP是從精確率(Precision)和召回率(Recall)兩個角度來衡量檢測算法的準確性,是評價檢測模型準確性的直觀評價標準。精確率與召回率的計算公式如下:

(5)

式中:TP為檢測出正確的車輛;FP是檢測出錯誤的車輛;FN是指未檢測出的車輛。以召回率與精確率分別作為橫坐標與縱坐標,繪制出P-R曲線,曲線所圍成的面積即為AP的值,面積越大,檢測精度越高。

3.3 數(shù)據(jù)集

本文使用Udacity和KITTI兩種數(shù)據(jù)集對MS-YOLOv3模型進行驗證。

Udacity數(shù)據(jù)集是Udacity平臺為自動駕駛算法比賽準備的數(shù)據(jù)集,對連續(xù)視頻圖片進行標注。數(shù)據(jù)集包括在加利福尼亞和鄰近城市在白天拍攝的視頻,其中每幅圖像最多可達24輛車。

KITTI數(shù)據(jù)集由德國卡爾斯魯厄理工學院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦。包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每幅圖像中最多達15輛車,還有各種程度的遮擋與截斷。兩種數(shù)據(jù)集詳細的劃分情況見表2。

3.4 參數(shù)設(shè)置

本文提出的MS-YOLOv3模型在訓練過程中,需要先將原始圖像大小縮放到416×416,再進行特征提取和目標檢測。在錨點框的選取上,先將數(shù)據(jù)集圖像大小縮放到416×416,再使用K-means[10]算法對數(shù)據(jù)集的車輛目標大小進行聚類,在每個數(shù)據(jù)集中隨機選取9個目標框作為聚集中心,Udactiy和KITTI數(shù)據(jù)集經(jīng)過31次和27次迭代后,9個聚集中心不再變化。最后聚類出9種大小不同的錨點框,Udacity數(shù)據(jù)集和KITTI數(shù)據(jù)集上的9種錨點框的大小見表3。

通過上述兩種數(shù)據(jù)集錨點框大小的對比可知,圖片在相同大小下,Udacity數(shù)據(jù)集中的車輛目標要小于KITTI數(shù)據(jù)中的車輛目標。為了達到理想的檢測精度,分別在兩個數(shù)據(jù)集上進行訓練。MS-YOLOv3模型訓練時的參數(shù)設(shè)置見表4。

在Udacity和KITTI數(shù)據(jù)集上進行訓練,當?shù)螖?shù)為25 000次和35 000次時,將學習率分別設(shè)置為0.000 1和0.000 01。同時通過調(diào)整曝光度、飽和度和色調(diào)等數(shù)據(jù)增強方法對訓練集進行擴充,增加訓練集的多樣性。

MS-YOLOv3模型在訓練集上損失函數(shù)值曲線如圖6所示。

(a) Udacity

(b) KITTI圖6 損失函數(shù)值曲線

圖6顯示了MS-YOLOv3模型在Udacity訓練集和KITTI訓練集上的損失函數(shù)值曲線,經(jīng)過40 000次的迭代訓練后,損失值維持在一個穩(wěn)定范圍,不再繼續(xù)收斂,此時網(wǎng)絡(luò)模型已經(jīng)達到最優(yōu)狀態(tài),將訓練好的模型用于檢測數(shù)據(jù)集中的車輛目標。

在Udacity測試集和KITTI測試集上,將交并比(IOU)設(shè)置為0.5,置信度閾值設(shè)置為0.3,計算模型的AP。

3.5 實驗結(jié)果

本文選擇檢測速度較快的基于回歸思想的目標檢測算法YOLOv3、RefineDet[11]、RFB Net[12]、RetinaNet[13]和SSD[14]與MS-YOLOv3進行實驗對比。

3.5.1Udacity

不同方法在Udacity測試集上的實驗結(jié)果見表5。

可以看出,本文提出的MS-YOLOv3在Udacity測試集上的AP是90.78%,分別比RefineDet、RFB Net、RetinaNet、SSD和YOLOv3高2.64百分點、3.72百分點、5.75百分點、8.13百分點和1.69百分點。同時為了驗證模型不同改進方法的有效性,將使用轉(zhuǎn)置卷積的YOLOv3和增加特征融合的YOLOv3加入對比實驗。YOLOv3+轉(zhuǎn)置卷積和YOLOv3+特征融合的AP比YOLOv3提升了0.52百分點、1.31百分點;MS-YOLOv3的檢測速度比RefineDet、RFB Net、RetinaNet和SSD高11.96幀/s、14.46幀/s、27.45幀/s和12.4幀/s,但是比YOLOv3、YOLOv3+轉(zhuǎn)置卷積和YOLOv3+特征融合降低了4.69幀/s、3.52幀/s、0.86幀/s,這是因為MS-YOLOv3模型中增加的卷積操作,導致檢測速度有一定下降,但是仍然以較高的每秒傳輸幀數(shù)實現(xiàn)了實時檢測。

3.5.2KITTI

不同方法在KITTI測試集上P-R曲線如圖7所示。

圖7 KITTI測試集上的P-R曲線

可以看出,MS-YOLOv3模型P-R曲線下方圍成的面積大于其他算法,說明MS-YOLOv3模型的檢測性能優(yōu)于其他算法。YOLOv3和MS-YOLOv3在KITTI測試集上的檢測效果對比如圖8所示。

(b) MS-YOLOv3圖8 KITTI測試集上車輛目標檢測效果對比

可以看出,對相同圖像進行檢測時,MS-YOLOv3比YOLOv3有更少的漏檢和錯檢,對場景中不同大小的車輛目標取得了良好的檢測效果。

4 結(jié) 語

本文提出的MS-YOLOv3算法在特征提取時將位置信息明確的淺層特征與語義豐富的深層特征進行多尺度融合,使融合后的深層特征具有更加明確的位置信息,增強目標特征表示,提升模型的檢測精度。同時使用轉(zhuǎn)置卷積操作替換原有上采樣方法中的最近鄰插值法,增強模型的學習能力,進一步提升模型的檢測精度。在Udacity和KITTI數(shù)據(jù)集上的實驗表明,MS-YOLOv3在檢測精度與檢測速度上可以達到兩者兼顧,滿足對車輛目標進行實時檢測的要求,且對不同尺度目標也有較好的檢測效果。但MS-YOLOv3在檢測目標時,需要將圖片進行相應的縮放,導致大圖像中的小目標經(jīng)過縮小后變得更小,甚至與背景融合在一起,以至于無法檢測出來。解決此類問題,將是未來主要的研究方向。

猜你喜歡
特征融合檢測
村企黨建聯(lián)建融合共贏
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 亚洲男女在线| 色吊丝av中文字幕| 中文字幕欧美日韩| 一级爆乳无码av| 午夜精品久久久久久久99热下载 | 欧美中文字幕在线视频| 国产资源免费观看| 国产在线精彩视频二区| 这里只有精品在线| 欧美日韩亚洲国产| 亚洲人成网站在线观看播放不卡| 国产精品自在在线午夜| 白丝美女办公室高潮喷水视频| 精品第一国产综合精品Aⅴ| 国产精品视频观看裸模| 玖玖免费视频在线观看| 97se亚洲综合在线韩国专区福利| 欧美一区二区精品久久久| 精品视频免费在线| 国产成人1024精品| 日韩无码黄色| 国产麻豆精品久久一二三| 亚洲人成影院在线观看| 欧美一级视频免费| 亚洲国产成人综合精品2020 | 全部免费毛片免费播放| 九色在线观看视频| 日韩国产精品无码一区二区三区| 国内毛片视频| 精品少妇三级亚洲| 国产福利免费视频| 国产白浆一区二区三区视频在线| 一区二区午夜| 日韩视频精品在线| 日韩国产另类| 国产精品久久久久无码网站| 啪啪永久免费av| 国产va在线| 亚洲an第二区国产精品| 91精品啪在线观看国产91九色| 美女一级毛片无遮挡内谢| 亚洲第一页在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 欧美国产在线一区| 中文字幕 欧美日韩| 91精品国产综合久久香蕉922| 国产青青操| 亚洲一级毛片在线播放| 高清视频一区| 欧美自拍另类欧美综合图区| 91视频首页| 亚洲乱伦视频| 人妻丰满熟妇av五码区| 四虎影视永久在线精品| 欧美在线精品一区二区三区| 亚洲a级毛片| V一区无码内射国产| 成人小视频在线观看免费| 国产精品天干天干在线观看| 男女性色大片免费网站| 国产精品熟女亚洲AV麻豆| 亚洲a级在线观看| 麻豆国产精品一二三在线观看| 国产爽爽视频| 嫩草在线视频| 最新日韩AV网址在线观看| 国产成年女人特黄特色毛片免| 精品日韩亚洲欧美高清a | 中文字幕伦视频| 日本精品中文字幕在线不卡| 日本不卡在线视频| 日本欧美视频在线观看| 成人在线欧美| 91精品国产无线乱码在线| 人妻中文字幕无码久久一区| 国产在线观看91精品亚瑟| 精品福利视频网| 国产自在线拍| 波多野结衣的av一区二区三区| 亚欧成人无码AV在线播放| 国产美女主播一级成人毛片| 亚洲永久视频|