999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于無預訓練卷積神經網絡的紅外車輛目標檢測

2021-04-29 08:44:40王衛華林丹丹
紅外技術 2021年4期
關鍵詞:特征檢測

陳 皋,王衛華,林丹丹

(1.國防科技大學 電子科學學院 ATR 重點實驗室,湖南 長沙 410073;2.昆明物理研究所,云南 昆明 650233)

0 引言

通過卷積層、池化層、激活函數等模塊層層堆疊的結構設計,卷積神經網絡具有強大的特征提取和擬合能力,為計算機視覺領域帶來了翻天覆地的變化,已經在圖像分類、目標檢測、實例分割等任務上取得了優異成績。目標檢測需要在圖像中確定目標的位置和類別,對應著定位和分類兩個子任務。傳統方法將多種算法應用于檢測任務的不同階段,如閾值分割[1]用于目標定位、梯度直方圖特征[2]用于目標特性描述、支持向量機[3]用于特征分類。不同于傳統的處理思路,深度學習方法采用了一體化設計的卷積神經網絡,克服了手工設計特征難度大且適用范圍窄的缺陷,實現了圖像輸入和檢測結果輸出的端到端式處理流程,相較于傳統方法,檢測效果有著顯著提升,已經成為當前的主流研究方向。根據網絡設計思路的不同,基于卷積神經網絡的目標檢測算法可分為雙階段和單階段兩類,包括Faster RCNN[4]、Thunder Net[5]、YOLO[6]、Center Net[7]等。

雙階段算法也被稱為基于分類的檢測,Faster RCNN[4]首先通過區域建議網絡在圖像上獲取目標所在區域的建議,然后根據這些建議區域的特征進行分類和位置優化。Thunder Net[5]作為面向移動端的實時檢測網絡,采用輕量化的網絡設計,是第一個基于ARM 平臺的實時檢測算法。文獻[8]利用數據挖掘的方法從生成的anchor中篩選出難樣本(Hard negative),設計了用于檢測航拍圖像中車輛的卷積神經網絡。單階段算法也被稱為基于回歸的檢測。以YOLO[6]算法為例,整體網絡由骨架網絡和YOLO 網絡兩部分構成,前者用于提取圖像的特征,后者根據特征實現對目標位置、類別和置信度的預測,單階段算法計算量少,檢測速度快。Center Net[7]對于目標的檢測不再基于anchor,而是基于中心點,有效提高了目標遮擋時的檢測效果。

深度學習方法需要大量的圖像和標注用于訓練,訓練數據的不足容易導致過擬合,通常會使用Image Net[9]、MSCOCO[10]等大規模數據集預訓練的權重進行網絡的初始化,再在此基礎上用實驗數據進行訓練。在進行紅外目標檢測時,樣本獲取的成本高、難度大,少量的實驗樣本難以支撐網絡的從頭訓練,需要借助預訓練權重來初始化網絡。但在紅外領域并沒有公開的大規模數據集,因此不得不選擇可見光圖像預訓練的權重。然而網絡結構與權重是一一對應的,一旦結構發生改變,原本的權重就不再適用,而重新訓練來獲取預訓練權重的代價往往十分昂貴,需要消耗大量的人力物力,也就是說,預訓練權重嚴重制約了卷積神經網絡在紅外目標檢測中的實際應用,為了擺脫這種依賴,本文對無預訓練的卷積神經網絡展開研究。以紅外熱像儀拍攝的城市街道場景的車輛為檢測目標,基于YOLO v3[11]網絡進行實驗。在設計網絡時,為提升網絡的特征提取能力,在網絡結構中融入注意力模塊,包括SE(squeeze excitation)[12]和CBAM(convolution block attention module)[13],使其能從有限的訓練樣本中獲取更多的有用信息。實驗結果表明,改進后網絡的檢測能力得到大幅提升,結合訓練次數的調整,最終實現了對有預訓練網絡的超越,檢測精度可達86.3 mAP。

1 YOLO v3算法原理

YOLO算法將目標檢測看作是回歸問題,輸入圖像后,同時得到目標位置和類別的預測,計算量小,處理速度快。改進版本YOLO v3[11]中,加入了anchor機制,并采用殘差設計加深骨架網絡,根據目標的大小在3個尺度上進行預測,有效提升了對于小目標的檢測精度。

網絡深度的加深在一定程度上使網絡特征提取的能力得到增強,但在梯度反向傳播時,過深的網絡容易導致梯度彌散,使訓練難以進行。YOLO v3 在設計骨架網絡時借鑒了Res Net[14]的設計思想,在卷積模塊的輸入和輸出之間加入短接(Shortchut)結構,卷積層輸出的是期望特征與輸入之間的殘差,降低了數據擬合的難度,再利用短接結構與輸入相加,最終得到期望的特征輸出。該骨架網絡包含53個卷積層,被稱為DarkNet-53。

為了提升對目標位置預測的精度,YOLO v3中加入了anchor 機制。事先對訓練集中的目標位置信息進行K-Means[15]聚類,即緊密貼合目標的矩形框中心點坐標、寬度和長度,聚類中心作為anchor的默認設置。在YOLO v3中,一共得到9個聚類結果,并根據面積大小分配到3個不同的預測分支。面積較小的anchor 負責對小目標的檢測,對應于較為淺層的特征輸出;面積較大的anchor 負責對大目標的檢測,對應了深層的特征輸出。通過在多個尺度的特征圖進行目標檢測,大幅提升了小目標檢測的精度,補足了原有方法的缺陷。

YOLO 將圖像劃分為s×s個網格,對應骨架網絡輸出的大小為s×s的特征圖,每個網格負責預測3個邊界框。網絡并不直接預測邊界框的位置信息,而是預測邊界框與anchor之間的偏移量,具體的對應關系如圖1所示。其中,(tx,ty,tw,th)為網絡輸出,(cx,cy)為所在網格左上點的坐標,σ(·)為sigmoid函數,(pw,ph)為對應anchor的寬度和高度,(bx,by,bw,bh)為預測的目標位置坐標。

圖1 YOLO v3中目標位置的預測Fig.1 The prediction of the target location in the YOLO v3

2 注意力機制

2.1 卷積神經網絡中的注意力

在人眼接觸某一場景信息時,為了及時準確地做出應對措施,在快速搜索過后,我們的注意力會重點關注場景中的某些區域。在注意力的指導下,后續“資源”會被更高效合理地調度。換句話說,人注意力的分布是不均勻的,并且這種分布會朝著獲取更有用信息的方向移動,而這些有用信息會最終服務于人的自然反應或主觀意志[12]。

多數基于卷積神經網絡的目標檢測算法可以看作是一種編碼-解碼模型,輸入一幅圖像進行編碼,再從中解碼出目標的位置和類別信息作為輸出。在這一過程中,可以加入注意力機制。通過對編碼信息加權處理,模擬人注意力的不均勻分布,偏向性分配可利用的計算資源,從而獲得更加有用的編碼信息。訓練中,權值分布朝著損失函數下降的方向不斷移動,網絡學習到不同信息的重要程度,直至收斂,最終完成目標檢測任務。

目標檢測網絡中卷積層輸出的特征圖即為編碼信息,除了寬度和高度外,還有深度,一般的網絡對于特征圖的所有維度均勻對待。SE[12]模塊在通道維度上添加了注意力機制,對于不同通道的特征圖進行權值重標定,學習不同通道的重要程度,突出重要的特征,抑制無用的特征。CBAM[13]則在通道注意力的基礎上,添加了空間注意力,對同一特征圖的不同位置進行加權。在注意力模塊的幫助下,網絡能夠提取圖像中更具信息量的成分,并最終提升目標檢測的精度。

2.2 SE模塊

SE[12]模塊全稱squeeze-and-excitation,包含了壓縮(squeeze)和激勵(excitation)兩步操作,能夠有效增強深度網絡的性能。傳統卷積層輸出的特征圖是由各通道直接相加得到的,有學者認為這時通道之間的相關性是隱含的,且卷積核的局部感受野導致了對全局信息的忽視。通過SE模塊中壓縮和激勵兩步操作,可以提取全局信息,并完成卷積響應的重校準,增強網絡對有效特征的敏感度。具體的流程如圖2所示。

圖2 SE模塊的結構Fig.2 The structure of SE module

圖中,Fsq表示壓縮,Fex表示激活。對于卷積層輸出的特征圖U,(C×W×H)分別表示深度、寬度、高度,在空間維度上,利用全局平均池化對每一幅特征圖進行壓縮,得到維度為(C×1×1)的通道描述符Z,這樣可以提供感受野以外的全局信息,該過程可用下式表示:

在激活過程中,包含了bottleneck 結構的兩個全連接層和兩個激活函數,可由下式表示:

式中:fc1(·)表示維度的全連接層;δ(·)表示ReLU激活函數;fc2(·)表示維度的全連接層;σ(·)表示sigmoid激活函數,得到的結果S可以認為是不均勻分布的注意力,體現了不同通道的重要程度。通過這些操作,通道之間的相關性被更充分地挖掘出來。最后S與U相乘,完成通道校準。

2.3 CBAM模塊

CBAM[13]模塊全稱 convolution block attention module,與SE[12]模塊相比,對于卷積層輸出的特征圖,不僅生成一維的通道注意力,同時生成二維的空間注意力,進一步提升網絡對有效特征的提取能力。

通道注意力生成的具體步驟如圖3所示。對于卷積層輸出的特征圖,在空間維度上,對每一幅特征圖進行全局最大池化和平均池化,結果分別輸入權值共享的多層感知器,共有3層,進行的維度變化,輸出結果的各元素相加,經過激活函數后得到最終的通道注意力。整體流程可由下式表示:

式中:avg(·)表示全局平均池化;max(·)表示全局最大池化;fc1(·)表示維度的全連接層;δ(·)表示ReLU函數;fc2(·)表示維度的全連接層;σ(·)表示sigmoid函數。

空間注意力生成的具體步驟如圖4所示。對于卷積層的輸出,在通道維度上進行最大池化和平均池化,得到二維的中間結果,將兩者在通道維度上相連,輸入卷積層,結果經過損失函數,得到單通道二維的空間注意力。整體流程由下式表示:

式中:AVG(·)表示通道維度上的平均池化;MAX(·)表示通道維度上的最大池化;conv2,1,k(·)表示輸入通道為2,輸出通道為1,卷積核為k的卷積;σ(·)表示sigmoid函數。

通道注意力Sc和空間注意力Ss先后與U相乘得到優化后的輸出特征圖,整體流程如圖5所示。

圖3 CBAM模塊中的通道注意力Fig.3 The channel attention in the CBAM

圖4 CBAM模塊中的空間注意力Fig.4 The spatial attention in the CBAM

圖5 CBAM模塊的結構Fig.5 The structure of CBAM

3 改進的YOLO v3 網絡

卷積神經網絡中的注意力模塊模仿了人接觸外界信息時注意力的不均勻分布,計算量略微提升,但能夠有效增強網絡對有效特征的敏感度。同時,作為一個即插即用模塊,注意力模塊能夠十分方便地嵌入已有網絡。

預訓練權重初始化的YOLO v3算法對可見光通用目標有著優越的檢測效果,但對于紅外目標檢測來說,目前沒有類似的大規模紅外數據集可供預訓練,多數情況下,不得不利用可見光數據預訓練的權重進行網絡初始化。但紅外圖像與可見光圖像的成像機理截然不同,兩種圖像中目標的特性也有著顯著差別,往往需要修改原有的檢測可見光目標的網絡,從而更好地適應紅外場景。但是網絡結構與網絡權重是一一對應的,一旦根據紅外目標檢測的特點進行了修改,已有的預訓練權重不再適用。如果利用MSCOCO 數據集重新進行預訓練,有著巨大的人力、物力和時間成本。如果直接在實驗數據上訓練,檢測效果將十分依賴數據量的大小,而收集并標注大量的紅外數據也是費時費力的。為解決卷積神經網絡檢測紅外目標時遇到的上述困難,我們改進了YOLO v3算法,將注意力模塊嵌入原始網絡中。在不進行預訓練的情況下,有效提升網絡的特征提取能力,從有限的訓練樣本中挖掘出更多的有用信息,最終提高檢測性能。

如圖6所示,在骨架網絡DarkNet-53的每一個殘差塊中加入注意力模塊,3個預測分支中,最后一個卷積層之前也加入注意力模塊。改進后的YOLO v3網絡結構如表1、2所示。

圖6 改進前后的殘差塊Fig.6 The residual block before and after improvement

4 實驗

4.1 實驗設置

實驗數據由一臺長波紅外熱像儀拍攝,目標為城市街道場景中的車輛,包括轎車、卡車和公交車3類目標。考慮到不同的外界環境,分別在中午11點、下午4點和晚上7點3個時間段采集數據,每個時間段的數據包括了大小兩個視場,涵蓋了目標不同的角度和尺寸。圖像分辨率為1024×768,共630張,為考察訓練樣本稀少時的網絡性能,不進行數據增廣,并按照7:3的比例隨機劃分訓練集441張,測試集189張。

實驗平臺為Linux 操作系統,CPU為Intel Xeon E5-2678 v3,GPU為Nvidia RTX 2080ti,內存128 G。實驗基于Pytorch,訓練的初始學習率為0.01,隨著訓練輪次的增加,按照余弦函數進行學習率衰減。采用SGD(stochastic gradient descent)算法進行參數更新,動量為0.937,權重衰減為0.0005。

表1 改進的DarkNet-53 結構Table1 The structure of improved DarkNet-53

實驗指標包括IoU 閾值為0.5時的mAP,置信度閾值為0.4時的準確率(Precision)和召回率(Recall)。其中mAP@0.5為主要指標,綜合考慮了所有的置信度閾值。

表2 改進的預測分支結構Table2 The structure of improved prediction subnet

4.2 實驗結果

訓練120個輪次后,不同網絡的實驗結果如表3所示,使用MSCOCO 預訓練權重進行初始化的YOLO v3算法實現了84.7 mAP。一旦不進行預訓練,檢測結果會出現劇烈的下降,僅為38.9 mAP,加入注意力模塊后,下降的幅度得到了緩解,說明注意力模塊能夠提高網絡對圖像中有用信息的敏感度,幫助提升檢測性能,證明了所提方法的合理性。對比兩個不同的注意力模塊,CBAM的效果要好于SE,這歸功于空間注意力的加入,進一步提升了網絡的檢測性能。圖7展示了不同訓練輪次時的測試結果。

表3 訓練120輪次的實驗結果對比Table3 The comparison of results when epoch=120

圖7 訓練120輪次的測試結果Fig.7 The results on the test dataset when epoch=120

在訓練120個輪次時,即使加入了注意力模塊,不進行預訓練帶來的檢測性能下降也不能被完全消除。因此,將訓練輪次調整到300,實驗結果如表4所示。

訓練300個輪次后,在測試集上,3個不經過預訓練的網絡的檢測表現都有了明顯提升,但對于未經改動的YOLO v3 來說,80.6 mAP的結果依然要低于預訓練的網絡。而加入注意力模塊后,即使不進行預訓練,通過訓練次數的增加,網絡最終的檢測結果為86.3 mAP,超過了預訓練網絡。對于兩個不同的注意力模塊,CBAM 結合了通道注意力和空間注意力,效果要好于只加入了通道注意力的SE模塊。不同訓練輪次時的測試結果如圖8所示。測試集上的部分檢測結果如圖9所示。

表4 訓練300輪次的實驗結果對比Table4 The comparison of results when epoch=300

圖8 訓練300輪次的測試結果Fig.8 The results on test dataset when epoch=300

圖9 測試集的部分檢測結果Fig.9 Part of detection results on the test dataset

5 結論

當卷積神經網絡檢測紅外圖像中的目標時,預訓練權重扮演著十分重要的角色,但也嚴重限制了實際的使用。一旦預訓練權重對于網絡不再適用或不可獲得,網絡的檢測性能會出現大幅的衰減。為擺脫對預訓練權重的過度依賴,本文基于YOLO v3算法,將SE和CBAM 兩種注意力模塊嵌入原始的網絡中,提高網絡對有用特征的敏感度,緩解了不進行預訓練所帶來的檢測性能下降,并通過訓練輪次的調整,最終使無預訓練網絡的檢測表現超越了預訓練網絡,對于城市街道場景中的車輛目標有著良好的檢測效果。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 国产特级毛片| AV网站中文| 高清欧美性猛交XXXX黑人猛交| 在线观看免费人成视频色快速| 国产尤物jk自慰制服喷水| 亚洲欧美日韩久久精品| 亚洲第一区欧美国产综合| 欧美中出一区二区| 农村乱人伦一区二区| 91偷拍一区| 亚洲国产成人精品无码区性色| 囯产av无码片毛片一级| 欧美性爱精品一区二区三区 | 2019国产在线| 国产91色| 成AV人片一区二区三区久久| 亚洲aaa视频| 久久大香香蕉国产免费网站| 午夜在线不卡| 亚洲成人免费看| 亚洲性视频网站| 国产视频一二三区| 国产女人喷水视频| 国产精品无码一区二区桃花视频| 国产精品白浆无码流出在线看| 欧美成人午夜视频免看| 伊人欧美在线| 国产精品国产主播在线观看| 中文字幕av一区二区三区欲色| 国产亚洲高清视频| 91精品久久久无码中文字幕vr| 亚洲精品无码专区在线观看| 鲁鲁鲁爽爽爽在线视频观看| 久久性妇女精品免费| 精品无码视频在线观看| 亚洲无限乱码| 自拍亚洲欧美精品| 免费无码一区二区| 99久久精品视香蕉蕉| 国产丝袜无码一区二区视频| 欧美综合区自拍亚洲综合天堂 | 成人福利在线免费观看| 99视频精品在线观看| 国产欧美日韩免费| 日韩精品毛片| 91成人试看福利体验区| 亚洲嫩模喷白浆| 蜜臀AVWWW国产天堂| 日韩精品一区二区三区免费| 免费在线播放毛片| 国产欧美视频在线观看| 久久婷婷五月综合97色| 精品国产成人国产在线| 青青青草国产| 国产麻豆精品在线观看| 亚洲人精品亚洲人成在线| 在线精品亚洲一区二区古装| 亚洲欧美日韩成人在线| 成人在线第一页| 五月婷婷中文字幕| 国产又大又粗又猛又爽的视频| 国国产a国产片免费麻豆| 91亚洲免费| 毛片免费网址| 亚洲一区二区日韩欧美gif| 国产在线观看第二页| 欧美国产在线看| 亚洲精品麻豆| 99久久精品无码专区免费| 91精品国产综合久久香蕉922 | 一本视频精品中文字幕| 又黄又湿又爽的视频| 国产一级小视频| 欧美一区二区三区香蕉视| 亚洲二三区| 激情国产精品一区| 国产成人做受免费视频| 中文字幕永久视频| 国产经典在线观看一区| 国产日韩丝袜一二三区| 呦女亚洲一区精品| 青草娱乐极品免费视频|