999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于YOLO 的多模態加權融合行人檢測算法

2021-08-20 04:54:24政,毛力,孫
計算機工程 2021年8期
關鍵詞:模態特征融合

施 政,毛 力,孫 俊

(江南大學人工智能與計算機學院,江蘇無錫 214122)

0 概述

行人檢測[1-3]作為目標檢測中的重要任務,在無人駕駛、視頻監控等領域得到廣泛應用。傳統的行人檢測方法主要使用人工設計的梯度方向直方圖(Histogram of Oriented Gradients,HOG)[4]、小波變換(Haar)[5]、聚合通道特征(Aggregated Channel Features,ACF)[6]等特征提取器來提取行人特征,并使用支持向量機(Support Vector Machines,SVM)[7]、自適應提升(Adaptive Boosting,AdaBoost)[8]等分類器來判斷區域是否有目標。隨著深度學習的不斷發展,Faster-RCNN(Faster Region-based Convolutional Neural Networks)[9]、SSD(Single Shot Detection)[10]、YOLO(You Only Look Once)[11]等目標檢測算法相繼被提出,使得行人檢測方法得到較快發展[12-14]。但是,此類可見光單模態檢測算法無法應對光照不足的情況,從而導致行人檢測模型在夜間表現效果不佳。如何提高行人檢測模型在光照不足情況下的魯棒性是亟待解決的問題。

紅外相機基于紅外光反射成像,在夜間光照不足條件下也能獲取到圖片的特征,其能夠對可見光模態進行信息補充,使得夜間行人檢測[15]成為可能。但是,由于紅外光圖像的紋理信息較少,在光照良好的條件下,可見光模態行人檢測模型效果更優。因此,近年來有大量紅外光與可見光多模態相融合的行人檢測算法被提出。文獻[16]提出KAIST 數據集,其包括一一匹配的可見光和紅外光圖片,該文提出可見光與紅外光融合的ACF+T+THOG(Aggregated Channel Features+Thermal+Thermal Histogram of Oriented Gradients)行人檢測器,實驗結果表明,融合后的行人檢測器在性能上優于可見光或紅外光的單模態行人檢測器,但是,因為其使用傳統方法,檢測準確率依然太低。文獻[17]使用深度卷積神經網絡,并提出前期融合(Early Fusion)和后期融合(Late Fusion)2種特征融合策略。文獻[18]進一步探討基于深度卷積神經網絡的可見光與紅外光圖像特征融合結構,并提出比前期融合和后期融合更好的中層融合(Halfway Fusion),再次提升了檢測性能。文獻[19]在Halfway Fusion 的基礎上使用區域推薦網絡(Region Proposal Network,RPN)作為特征提取模塊,并使用BDT(Boosted Decision Trees)進行分類,提升了行人檢測器的性能。但是,上述多模態行人檢測算法在進行特征提取時忽略了行人圖像的多尺度問題,只對單獨的特征層進行融合,這使得算法對多尺度行人尤其是小目標行人的檢測效果不佳。此外,這些算法所使用的融合方案為簡單的concat 級聯融合,忽略了白天和夜晚不同光照條件下各模態的特征信息差異,導致檢測效果較差。

本文在YOLO 算法的基礎上,提出針對可見光和紅外光雙模態輸入的行人檢測算法,并對其他算法模態融合時所使用的concat 級聯融合進行改進,設計結合注意力機制的模態加權融合方法。

1 YOLO 算法

本節對YOLO 算法進行介紹,包括其進行目標檢測的基本原理和用于特征提取的Darknet53 框架網絡結構。基于YOLO 網絡的檢測方法直接從圖像中提取特征,再端到端地回歸以得到結果。Darknet53 通過1×1 和3×3 卷積核的交替堆疊來完成特征提取,通過步長為2 的卷積核完成下采樣過程。

1.1 YOLO 算法原理

YOLO 將輸入圖片縮放為416×416,再分成S×S的網格,待檢測目標的中心落入某個網格時,由該網格預測出B個邊框。若有C類的待檢測物體,則每個邊框輸出的向量大小為C+5,5 代表形如T=(x,y,w,h,S)的五元組,(x,y)為物體中心的橫縱坐標,(w,h)為物體的寬高,S代表預測框的置信度評分,其計算方式為:

當預測框中存在物體時,P(O)=1;否則,P(O)=0。I代表預測框和真實框的交并比,P(Ci)代表物體存在時該物體屬于C類物體中的第i個的概率。在獲得每個邊框的置信度評分之后設置閾值,使用非極大性抑制算法(NMS)進行處理,將得分小于閾值的置為0,將置信度評分S較高的預測框作為檢測框。

1.2 Darknet53 網絡

Darknet53 是REDMON J 在YOLOv3[20]中提出的用于特征提取的主干網絡,網絡的基本單元由卷積層、批歸一化層(Batch Normalization)和Leaky ReLU 激活函數組成,其加深了網絡層數,增強了特征提取能力,又借鑒了殘差網絡residual network[21],能夠避免由于網絡層數過深導致的模型退化問題。網絡結構中有5 個殘差模塊,分別為{Block1,Block2,Block3,Block4,Block5},每個殘差模塊記為Resn,其中,包含n個殘差單元。Darknet53 網絡參數如圖1 所示。

圖1 Darknet53 網絡結構Fig.1 Network structure of Darknet53

2 行人檢測模型構建

在本文所提基于YOLO 的多模態加權融合行人檢測算法模型中,先進行多模態特征提取,再對提取后的特征進行特征加權融合和注意力機制加強,最后使用多尺度的特征圖進行目標檢測,以預測出行人目標的位置和概率。

行人檢測算法模型整體流程框架如圖2 所示。選取一一對應的可見光與紅外光圖片作為輸入,分別送入特征提取網絡Darknet53 中,提取出2 個模態的多尺度特征圖,并將提取后的特征依次送入模態加權融合層MAM中進行模態加權融合,再將融合結果送入CBAM(Convolutional Block Attention Module)模塊進行注意力機制加強。在完成以上2 個步驟后,可以獲得多尺度的加權融合特征圖,最后將多尺度的加權融合特征圖依次級聯并送入YOLO 層完成目標檢測任務。本文算法對YOLO 的輸入端進行修改,使得模型可以使用一一對應的多模態圖像對作為輸入,為了對不同模態的特征圖進行加權融合,使用模態加權融合模塊MAM和注意力機制模塊CBAM。

圖2 基于YOLO 的多模態加權融合行人檢測算法流程Fig.2 Procedure of YOLO-based multi-modal weighted fusion pedestrian detection algorithm

2.1 多模態特征提取

本文使用雙路Darknet53 作為特征提取網絡,提取可見光圖片特征的部分記為Darknet-V,提取紅外光圖片特征的部分記為Darknet-I。對于大小為416×416 的輸入圖片,特征提取網絡的2 個分支分別在Block3、Block4、Block5 后獲得3 個多尺度特征圖,可見光模態的特征圖記為{V1,V2,V3},紅外光模態的特征圖記為{I1,I2,I3}。將所得的可見光模態特征和紅外光模態特征送入特征融合模塊Fusion 中進行融合,融合結果為{M1,M2,M3},特征提取模塊架構如圖3 所示。

圖3 特征提取模塊架構Fig.3 Architecture of feature extraction module

2.2 特征融合模塊

從圖4 的白天可見光-紅外光行人圖像對和圖5的夜晚可見光-紅外光行人圖像對可以看出,白天可見光圖片中行人目標紋理清晰,特征豐富,紅外光行人目標僅具有輪廓信息,而夜晚在光照不充分的條件下,可見光圖片行人目標難以辨認,紅外光圖片行人特征明顯易于識別。在白天、夜晚不同的光照環境下,2 個模態的數據呈現出不同的特點,因此,要針對不同模態的數據設置加權特征融合模塊。

圖4 白天場景中行人目標的可見光和紅外光圖像Fig.4 Visible and infrared images of pedestrian targets in daytime scenes

圖5 夜晚場景中行人目標的可見光和紅外光圖像Fig.5 Visible and infrared images of pedestrian targets in nighttime scenes

其他的多模態融合行人檢測算法采用直接concat的級聯融合方式[17-19],這種做法默認了2 個模態提供的信息相等。本文先通過NIN(Network in Network)[22]層對可見光模態特征圖與紅外光模態特征圖進行維度壓縮,然后使用圖6 所示的MAM(Modal Attention Module)模塊對2 個模態的特征圖進行加權,再對加權后的2 個模態特征圖實現級聯,以在賦予不同模態權重的情況下保證融合特征圖的通道數和單模態特征圖的通道數相等,使得模型可以重用后續目標檢測模塊中的參數。可見光多尺度特征圖記為{V1,V2,V3},紅外光多尺度特征圖記為{I1,I2,I3},MAM 層的2個輸入Vnin和Inin分別代表可見光模態和紅外光模態經過NIN 層壓縮后的特征圖。fnin是NIN 函數,即通過1×1 卷積核對特征圖進行降維,完成各模態在不同通道上的信息整合。fcat是concat融合函數。模態注意力機制獲得了可見光模態的特征描述符Aν和紅外光模態的特征描述符Ai,相加后記為Am,將2 個模態的特征描述符分別除以特征描述符之和Am,作為各自模態的權重,與特征圖相乘后再級聯融合,作為加權融合特征圖,3 個尺度的加權融合特征圖記為{M1,M2,M3},則每個尺度的加權融合特征圖為:

圖6 MAM 注意力機制結構Fig.6 The structure of MAM attention mechanism

2.3 CBAM 注意力機制

在通過MAM 層對特征圖進行加權融合之后,加入CBAM 注意力機制[23],以優化特征融合模塊,對特征圖的通道和空間進行選擇。CBAM 層的輸入為多尺度加權融合特征圖{M1,M2,M3},經過注意力機制加強后輸出的多尺度加權融合注意力特征圖記為{MA1,MA2,MA3},每個尺度的特征圖為:

其中,fsam代表空間注意力機制,fcam代表通道注意力機制。上述特征圖用于后續的多尺度目標檢測。如圖7所示,CBAM是一種結合通道(Channel)和空間(Spatial)的注意力機制模塊,加在每個特征融合模塊之后。

圖7 CBAM 注意力機制結構Fig.7 The structure of CBAM attention mechanism

加權融合特征圖的通道分別來自可見光特征圖和紅外光特征圖,通道注意力機制(Channel Attention Module)可以利用通道間的關系學習一個權重,將其乘以對應的通道,以實現在不同模態之間的特征選擇。在通道注意力機制中,輸入的多模態融合特征圖F的通道數為C,高為H,寬為W,記為F∈?C×H×W。通道注意力機制先對F進行全局平均池化(Avgpool)和最大池化(Maxpool),得到2 個大小為C×1×1 的特征描述符,將其分別送入一個2 層的神經網絡MLP 中,將輸出的特征相加后獲得通道注意力權重,與原來的特征圖F相乘得到新特征F′:

空間注意力機制(Spatial Attention Module)利用不同空間位置之間的關系學習空間權重圖,并將其與對應的空間位置相乘,可以加強圖像對中的目標遮擋、光照不足等特征較弱部分的學習。以經過通道注意力機制加強的特征圖F′∈?C×H×W作為輸入,進行通道維度的平均池化和最大池化,得到2 個1×H×W的特征描述,將其拼接在一起之后經過7×7的卷積核獲得空間注意力權重,與輸入的特征圖F′相乘得到F″,F″即為融合特征圖,如下:

完整的特征融合模塊如圖8 所示,其中,V代表可見光特征圖,I代表紅外光特征圖,M代表融合特征圖,MA代表經過注意力機制加強后的融合特征圖。

圖8 特征融合模塊結構Fig.8 Feature fusion module structure

2.4 多尺度目標檢測

在獲得了經過注意力機制加強后的可見光與紅外光融合的多尺度特征圖之后,將特征圖依次融合并送入YOLO 層進行目標檢測。{MA1,MA2,MA3}代表3 個尺度的注意力加權融合特征圖,在獲得MA1之后,經過數個卷積層,將大小為13×13 的特征圖送入YOLO1,感受野較大,應用于大尺度目標的檢測;隨后進行上采樣,并與經過數個卷積層的MA2特征圖結果進行concat,再經過卷積獲得大小為26×26 的特征圖,此特征圖送入YOLO2,用于中等尺度目標的檢測;最后再將特征圖上采樣并和經過數個卷積層的MA3進行concat,經過數個卷積層之后獲得大小為52×52 的特征圖并送入YOLO3,此特征圖感受野較小,用于小目標的檢測。經過以上過程,模型針對多尺度行人的檢測能力有所提升,多尺度目標檢測網絡整體架構如圖9 所示,DBL 即1.2 節所述的網絡基本單元,UP 為上采樣模塊,Conv 為卷積層。

圖9 多尺度目標檢測網絡結構Fig.9 Multi-scale target detection network structure

3 實驗結果與分析

本文實驗環境設置如下:CPU 型號為I7-5930k,內存為32 GB,顯卡為GeForce 1080 Ti,顯存為11 GB。在該實驗環境下本文檢測器的檢測速度達到19.8 frame/s,具有一定的實時性。

3.1 數據集與評價標準

本文使用KAIST 公開數據集訓練和評價行人檢測模型,KAIST[16]數據集是由HWANG 等人建立的可見光圖片與紅外光圖片一一對應的數據集,圖片尺寸為640 像素×512 像素,有白天、夜晚2 種場景,其中包含多尺度、被遮擋、光照條件不足等復雜環境下的行人目標。實驗過程中使用平均精度(Average Precision,AP)作為評價指標,當檢測框和任一標簽框的IOU 大于等于50%時記為正確檢測樣本,IOU小于50%時則記為誤檢樣本,若標簽框與任一檢測框的IOU 都不大于50%時記為漏檢樣本。

3.2 實驗參數設置

本文基于深度學習框架pytorch 構建網絡結構,設置每批訓練可見光-紅外光圖片對數為B=4,采用隨機梯度下降法(SGD)進行訓練。初始學習率設為0.001,隨著訓練輪次的增加,減小學習率為0.000 1以接近模型最優解。由于YOLO 算法默認anchor 的尺寸是在COCO 數據集中得到的,不適用于行人檢測任務,行人目標多為狹長的個體,因此本文通過聚類算法得到尺寸分別為[48,157][34,104][84,50]、[27,80][26,63][25,40]、[18,54][16,44][13,24]的anchor 并作為大、中、小行人目標的檢測框。

3.3 不同融合策略對比實驗結果

不同融合策略的精度對比實驗結果如表1 所示,其中,concat 代表其他多模態行人檢測算法常用的直接concat 融合方法,MAM 代表本文融合模塊所使用的模態加權融合方法,MAM+CBAM 代表在MAM 算法中加入了CBAM 注意力機制。

表1 不同融合模塊對比實驗結果Table 1 Comparison experiment results of different fusion modules %

通過表1 可以看出,本文使用的加權融合機制較其他算法使用的直接concat 方法有較大性能提升,CBAM 注意力機制也對多模態行人檢測任務有所幫助。

白天部分檢測效果如圖10 所示,夜晚部分檢測效果如圖11 所示,上排為直接concat 的檢測結果,下排為MAM+CBAM 的檢測結果,圖中矩形為檢測結果框,橢圓形為漏檢的行人目標。圖10 中因為目標過小和互相遮擋而難以檢測的目標被準確檢測,圖11 中因為行人目標過于密集、衣服顏色與背景顏色過于接近而導致的特征較弱的目標也都被檢測出來,證明本文算法所進行的特征加權融合和注意力機制能夠提升行人檢測器的性能。

圖10 不同融合方法在白天時的檢測結果對比Fig.10 Comparison of detection results of different fusion methods in daytime

圖11 不同融合方法在夜晚時的檢測結果對比Fig.11 Comparison of detection results of different fusion methods at night

本文算法與其他可見光與紅外光融合的行人檢測算法的對比結果如表2 所示,其中,各對比算法的結果來自文獻[24]。通過表2 可以看出,本文算法的精度較對比算法有所提升,且在準確率接近的算法中本文算法的速度有較大優勢。

表2 不同多模態算法的檢測結果對比Table 2 Comparison of detection results of different multi-modal algorithms

3.4 與單模態行人檢測算法的對比實驗結果

將僅使用可見光進行行人檢測的算法記為YOLOVis,在面對光照不足的問題時,有學者通過曝光增強[25-26]的方式對低照度圖像進行預處理,將對圖片曝光增強后再進行行人檢測的算法記為YOLO-Enhancement。將本文多模態加權融合行人檢測算法與上述2 種算法進行對比,結果如表3 所示。

表3 3 種算法性能對比結果Table 3 Performance comparison results of three algorithms

從表3 可以看出,可見光單模態行人檢測算法在速度上具備優勢,但在精度上不如本文多模態加權融合算法,尤其是在夜晚,其表現效果較差。在對圖片進行曝光增強的預處理后算法精度有所提高,但精度仍然低于利用了紅外光信息作為補充的本文算法。

本文算法與單模態算法的部分實驗結果如圖12所示。其中,第1排為YOLO-Vis及YOLO-Enhancement 的檢測結果,第2 排為本文算法的檢測結果。圖中矩形為檢測結果框,橢圓形為漏檢的行人目標。從檢測結果可看出,對于白天由于陰影而導致目標亮度不足的行人,曝光增強后有效提升了其辨識度。在夜晚圖片中,曝光增強雖然提升了亮度,使得最左方黑衣行人區別于黑夜背景,變得更加清晰,但最右方靠近車燈的小目標行人由于車燈亮度干擾而無法有效提高辨識度,然而利用了紅外光信息作為補充的本文多模態行人檢測算法可以有效識別出目標。

圖12 3 種算法檢測結果對比Fig.12 Comparison of detection results of three algorithms

3.5 算法泛化能力分析

為驗證本文算法的泛化能力,使用僅在KAIST 數據集上訓練得到的模型,在OTCBVS Benchmark Dataset數據集[27]的子數據集OSU Color-Thermal Database 上進行驗證,該數據集中包含一一對應的可見光與紅外光圖像對,圖像尺寸為320 像素×240 像素,由2 組固定的監控攝像頭拍攝所得。部分實驗結果如圖13 所示,從檢測結果可以看出,對于被樹枝遮擋和陰影中的行人,本文算法依然可以將其檢測出來,證明本文算法具備一定的泛化能力。但是,由于未在驗證集中進行訓練,且驗證集使用的圖片大小僅為訓練所用圖片的23%,導致部分小目標檢測效果不佳。

圖13 OTCBVS 數據集上的檢測結果Fig.13 Detection results on the OTCBVS dataset

4 結束語

為解決可見光圖片在光照不足、信息缺失情況下檢測效果不佳的問題,本文基于YOLO 算法提出一種可見光與紅外光融合的行人檢測算法。對傳統檢測算法常用的級聯融合方式進行改進,引入模態加權融合層MAM 和CBAM 注意力機制。實驗結果表明,在KAIST 多模態行人檢測數據集上使用級聯融合時,AP值為82.78%(全天)、83.31%(白天)和82.24%(夜晚),在使用本文結合注意力機制的模態加權融合時,AP 值達到92.60%(全天)、93.39%(白天)和91.54%(夜晚)。本文算法在1080Ti上的檢測速度可達19.8FPS,但與單模態行人檢測算法的檢測速度(35.7FPS)之間仍然存在一定的差距,因此,下一步將對模型進行壓縮,構造更好的輕量級網絡結構用于模型訓練,從而提升網絡模型的實時性。

猜你喜歡
模態特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 无码视频国产精品一区二区| 国产玖玖视频| 一区二区三区成人| 国产黄网站在线观看| 网友自拍视频精品区| 欧美一级专区免费大片| 九色视频在线免费观看| 国产男人天堂| 亚洲视频在线观看免费视频| 久久久久久尹人网香蕉| 国产极品美女在线观看| 亚洲成人动漫在线观看| 国产门事件在线| 97超级碰碰碰碰精品| 亚洲午夜国产精品无卡| 久久精品人人做人人综合试看 | 国产人人射| 国产精品视频猛进猛出| 国产丝袜91| 欧美成人区| 色老头综合网| 欧美天堂久久| 97se亚洲综合不卡| 欧洲成人在线观看| 免费看a毛片| 日韩精品专区免费无码aⅴ| 国产三级精品三级在线观看| 国产成人禁片在线观看| 黄色片中文字幕| 久久久精品国产亚洲AV日韩| 日本亚洲欧美在线| 婷婷激情亚洲| 亚洲欧美日韩天堂| 亚洲成人77777| 少妇高潮惨叫久久久久久| 亚洲中文字幕23页在线| 九色91在线视频| 色综合中文综合网| 亚洲天堂在线视频| 精品免费在线视频| 在线视频97| 日韩在线视频网站| 久久综合婷婷| 性做久久久久久久免费看| 成人福利在线视频免费观看| www.91中文字幕| 国产sm重味一区二区三区| 日韩无码视频播放| 97国内精品久久久久不卡| 成人免费黄色小视频| 国产精品久久精品| 亚洲第一区精品日韩在线播放| 特黄日韩免费一区二区三区| 欧美三级不卡在线观看视频| 天天摸夜夜操| 国产精品播放| 国产视频a| 午夜毛片福利| 中日无码在线观看| 99伊人精品| 99久久这里只精品麻豆| 国产激爽大片高清在线观看| 91免费精品国偷自产在线在线| 国产91小视频| 欧美日韩国产在线人成app| 日韩精品毛片| 亚洲欧美另类久久久精品播放的| 99热最新网址| 国产色爱av资源综合区| 亚洲精品国产首次亮相| 国产成本人片免费a∨短片| a亚洲天堂| 久一在线视频| 亚洲一区二区在线无码| 亚洲成人精品| 欧美一级夜夜爽| 亚洲婷婷在线视频| 第一区免费在线观看| 国产在线精品网址你懂的| 国产欧美视频在线| av午夜福利一片免费看| 国产va在线观看|