










關鍵詞:目標檢測;模型輕量化;YOLOv5;Varifocal loss;SIoU
中圖分類號:TP391. 4 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)11-2558-08
0引言
近些年圖像處理技術發展突飛猛進,目標檢測作為其中的一個分支被廣泛應用在各領域中。在汽車制造領域,自動駕駛技術是當今熱門。行駛中的車輛通過攝像頭對行人或障礙物的識別效率關乎駕駛員的行車安全。利用更加高效的算法構建安全與智能的無人車輛駕駛系統是目前最重要的問題。紅外熱成像技術常常被部署在視頻監控系統中,能實現全天候探測、跟蹤和識別人類活動。熱成像儀在夜間監控有明顯的優勢,其在監測、執法等方面都有應用。可見光目標檢測器在光線充足的環境中可以達到很好的檢測效果,但在如復雜天氣、黑夜和炫光等環境下則無法勝任,而紅外圖像是通過測量物體向外輻射的熱量而生成的,在很多場景下作用比可見光圖像更為重要,但其常常面臨紋理細節缺乏、分辨率差、對比度低、信噪比低和視覺效果模糊等諸多問題,這些特性都極大影響目標檢測算法識別的準確度。因此,快速、精準地從紅外圖像中識別各類目標是接下來的重要研究內容。
紅外圖像目標檢測技術一直是國內外計算機視覺領域研究的熱點,針對紅外圖像分辨率差、成像模糊和目標輪廓不清晰等檢測難點可以選擇利用深度學習來解決。目前主流的目標檢測算法大多基于深度學習模型,其大致能分為四大類:第一類是基于候選區域的R-CNN系列[1-3]算法。將目標檢測劃分為2 步,先進行候選區域生成,再對樣本進行分類。檢測從粗到細,選擇性地提取圖像上的所有候選區域,用分類器判斷其中是否含有待檢測目標。第二類是基于回歸的YOLO 系列[4-6]和SSD[7]算法,這類算法沒有選擇滑窗或提取候選區域的方法,直接利用整圖訓練模型,在一個神經網絡中完成回歸與分類[8],直接回歸目標的類別概率和位置信息。雙階段算法精確度高但速度慢,單精度算法速度快但精度遜色。第三類是基于Anchor Free 的目標檢測算法CenterNet[9-10],該算法將錨框機制剔除,目前主要分為基于關鍵點的和基于中心區域的檢測算法。第四類是基于注意力機制的Transformer[11]算法,模型使用自注意力機制,完全拋棄了傳統循環神經網絡(Recurrent Neural Network,RNN)[12]在水平方向的傳播,只在垂直方向上傳播,只需要不斷疊加Self-Attention 層即可。相比于傳統目標檢測算法,深度學習為目標檢測提供了一條更加高效的路徑[13-14]。
為解決紅外圖像目標檢測過程中的各種難點,顧星等[15]提出了一種基于注意力機制的紅外目標檢測方法,設計了一種并行注意力機制模塊以增強模型特征提取能力。劉智嘉等[16]基于YOLOv3 算法進行改進,重新選擇骨干網絡以及增加三通道優化YOLO 層。朱惠玲等[17]針對紅外圖像的特點,使用了基于Retinex 圖像增強的算法以改善圖像質量,使目標檢測精度進一步提高。以上改進能夠有效地進行紅外目標檢測,但存在檢測精度不高,計算量、模型體積大的問題。
為解決紅外圖像目標檢測中的多種難題,提高檢測效率,助力紅外成像技術的行業應用,本文做了如下工作:
① 設計了輕量化紅外目標檢測(Lightweight In-frared Target Detection-YOLO,LITD-YOLO)網絡結構,從調節感受野和多尺度融合關系兩方面思考,提升淺層網絡特征的權重,調整特征提取網絡和特征融合網絡。
② 引入Varifocal loss 來解決訓練過程中出現的正負樣本不平衡問題,使模型在訓練時增加對正樣本的關注,而不是負樣本,提升密集目標的檢測能力。
③ 使用SIoU 優化訓練過程中錨框定位能力,更加適配重構后的網絡結構,加速模型的收斂,提高錨框回歸精度。
④ 在FLIR 熱成像數據集與OSU 熱力行人數據集上對本文提出的LITD-YOLO 算法進行驗證。
1 LITD-YOLO
YOLOv5 自發行以來就備受關注。相比于YOLOv4,它添加自適應錨框機制、修改激活函數以及縮減模型尺寸等,使訓練速度和精度都得到一定程度提升。但在針對紅外圖像中的目標進行精準識別與定位時,YOLOv5 算法的檢測性能仍存在很大的進步空間,故本文設計輕量化紅外目標檢測器——LITD-YOLO。
針對紅外圖像檢測目標的特點,在YOLOv5 基礎網絡結構上改進與優化,輕量化處理原網絡模型,合理地對網絡中的模塊關系進行調整和冗余模塊刪除,使網絡結構更能適應紅外圖像中的目標檢測任務。LITD-YOLO將輕量化網絡結構、EIoU 和Varifocal loss三個關鍵點進行融合。首先,優化特征提取網絡架構,針對檢測目標調節感受野權重,輕量化裁剪特征提取網絡;根據重構后的Backbone 層網絡重設計特征融合網絡架構,剔除冗余的Neck 層模塊。然后,引入SIoU 來更好地提升邊界框回歸過程中預測框的定位準確度,使神經網絡更快地收斂。最后,修改分類損失函數為Varifocal loss,用于訓練密集目標檢測器來預測IoU 感知分類評分(IoU-Aware Classification Score,IACS),借用Focal loss 中的樣本加權思想處理正負樣本不平衡問題,在提升訓練速度、模型精度等方面效果優異。LITD-YOLO 系統架構如圖1所示。
改進后得到的LITD-YOLO算法明顯降低了模型參數量和計算量,模型體積縮減明顯,推理速度得到進一步提高,目標識別與定位效果有巨大提升。
2LITD-YOLO架構
2.1網絡結構重設計
為了使算法與紅外目標檢測任務相適應,LITDYOLO 對原模型設計進行調整。YOLOv5 預測端輸出3 個不同的尺度特征圖,大小分別為20 pixel ×20 pixel、40 pixel×40 pixel、80 pixel ×80pixel。其中80 pixel×80 pixel 特征圖用于檢測小目標,20 pixel×20 pixel 特征圖用于檢測大目標。本模型選擇剔除對應大感受野的20 pixel×20 pixel 尺寸特征圖。
考慮紅外圖像的特點,大量無效的背景信息在圖像中占據空間最多,而行人、車輛等僅占據其中較小的比例。輸入圖片經過復雜的網絡會導致小目標特征信息與位置信息逐漸丟失,難以被網絡檢測。因而可以考慮降低網絡卷積次數和突出淺層特征圖來達到提升檢測效果的目的,利用較淺層的特征圖來檢測較小的目標。針對紅外圖像的特點,為了提高目標檢測的效率。LITD-YOLO 對主干特征提取網絡CSP-DarkNet 的架構進行重構,去除20 pixel×20 pixel 尺寸的特征圖。重構CSPDarkNet結構如表1所示。
重構CSPDarkNet 結構優勢如下:
① 刪除冗余模塊,以實現淺層小目標特征感受野權重提高,將模型化繁為簡且易實現。
② 極大降低了主干網絡結構復雜度和計算量,減小了模型體積,降低了推理時間。
③ 改進主干網絡參數量降低至YOLOv5 原模型的31.54% ,由4 171 456 降至1 315 776。
LITD-YOLO 特征圖大小為40 pixel×40 pixel 與80 pixel×80 pixel,原特征融合網絡已經不再匹配新的特征提取網絡,改進后特征融合網絡結構如圖2 所示。融合過程分為兩部分,先進行淺層向深層語義的融合,然后實現深層與淺層語義的融合。增加淺層語義的權重,減少卷積帶來的特征信息丟失問題。
2.2錨框參數優化
錨框的設定存在著較大的人為因素。LITD-YOLO 經過網絡重構和輕量化處理后需要重新確定錨框大小。YOLOv5 中新增了以往YOLO 系列沒有的自適應錨框機制,采用k 均值聚類和遺傳學習算法對數據集進行分析,通過計算得到適合的錨定框。大大提高了LITD-YOLO 算法的訓練效果與檢測精度。
2.6LITD-YOLO結構
LITD-YOLO算法結構如圖3所示。紅外圖像背景復雜,為了能夠準確地識別目標區域、增強算法檢測效果,對模型網絡結構進行重構和輕量化處理。為了實現主干網絡CSPDarkNet 的輕量化目標,剔除掉20 pixel×20 pixel 尺度的特征提取,提高小感受野權重,以達到降低模型計算量與體積的目的。經過網絡重構后,模型平均檢測精度、推理速度提高,而且計算量、模型體積大幅下降。
3實驗及結果分析
3.1實驗環境及參數設置
實驗使用深度學習框架Pytorch,GPU 為NVIDIAGeForce RTX 3060,顯存為6 GB,CPU 為AMD Ryzen75800H,實驗環境為Python3.9,Pytorch1. 12. 0,CUDA11. 6. 0。batchsize 為8,訓練輪數為300,訓練模型為YOLOv5s。
3.2實驗數據集
為驗證原算法經過改進后的效果,選擇使用FLIR 數據集與OSU 數據集進行算法驗證。
FLIR 熱成像數據集是由美國俄勒岡州的傳感器系統開發商FLIR 公司推出的一款自動駕駛開源熱數據集。數據集專為高級駕駛輔助系統(Advanced Driving Assiatance System,ADAS)和自動駕駛汽車研究人員、開發人員、汽車制造商而設計。匯集了10 000 多個白天和夜間場景的注釋熱圖像,圖像尺寸均為640 pixel×512 pixel,包括日間和夜間場景,包含汽車、行人和自行車的注釋。熱成像傳感器可以檢測行人、動物和其他車輛,最大距離可達到傳統前燈照明的4 倍,這對于推動目標檢測技術在自動駕駛領域的應用具有重大意義。
OSU 熱力行人數據集來自俄亥俄州立大學的科研團隊。圖像取材自大學校園內行人十字路口,共計284 張,總共有984 人被手動標記在圖像中,平均每張3 ~ 4 人。圖像尺寸均為360 pixel×240 pixel。
3.3評價指標
為了驗證和評估改進算法LITD-YOLO 的性能,實驗選擇以精確度(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)作為評價指標。
3.4消融實驗
為了驗證LITD-YOLO 中各模塊在紅外目標檢測中的有效性,本文在FLIR 熱成像數據集與OSU數據集上進行消融實驗,以YOLOv5 為基準算法對比,主要以P、R、mAP、模型體積、參數量和計算量為評價指標。消融實驗結果如表3 所示。
根據表中數據可以看出,模型經過網絡重構和輕量化處理后,模型體積得到大幅度降低,僅有3. 9 MB。模型在添加Varifocal loss后,模型精度相比之前有明顯提高,而在引入SIoU 后,召回率也有不小提升。由此可見,Varifocal loss 和SIoU 可以在不增加模型體積和參數量的條件下,小幅提高算法精確度。在LITD-YOLO 算法模型下體積縮小71.53% ,參數量降低68.46% ,計算量降低29.11% 。其中FLIR數據集平均精度提升33.3% ,OSU 數據集平均精度提升3% ,印證了LITD-YOLO 算法的優越性,其各項指標相比于基準算法均有明顯進步,能夠高效地完成紅外目標檢測的任務。
3.5對比實驗
為驗證LITD-YOLO 算法對紅外圖像目標檢測的有效性,在FLIR 熱成像數據集與OSU 數據集上與當前各種先進的目標檢測算法做對比,實驗選擇模型體積、mAP 和推理時間為評價指標。對比結果如表4 和表5 所示,在FLIR 數據集上,LITD-YOLO算法的mAP 為88.8% ,在所有模型中最高。從模型體積上對比,LITD-YOLO 僅有3.9 MB,相比于YOLOv5、YOLOX-s、YOLOv7和SSD 算法體積分別降低了71.5% 、88.6% 、94.5% 、95.7% 。從模型推理時間上來看LITD-YOLO是4.7 ms,優于其余4 個算法,與其最接近的YOLOv5 雖然僅有1.1 ms 的差距,但是其在模型體積和mAP 上卻遠遠不如LITD-YOLO。而在OSU 數據集上的對比結果依舊遙遙領先。綜上所述,LITD-YOLO 算法在模型體積、mAP和推理時間上均有明顯提升,可以很好地勝任紅外圖像中的目標檢測任務。
3.6實驗效果與分析
為驗證LITD-YOLO 算法在實際應用環境下的檢測效果,分別從檢測難度較大的FLIR 熱成像數據集與OSU 數據集測試集圖片中隨機選取進行檢測。最終檢測效果對比如圖4 所示,上2 行為FLIR數據集圖片,下2 行為OSU 數據集圖片。左列為YOLOv5 算法檢測效果,右列為LITD-YOLO 檢測效果。由圖4 可以看出,原始YOLOv5 算法漏檢、錯檢現象嚴重,而本文所闡述的方法在背景復雜且檢測目標密集時表現出優異的檢測性能。可以得出結論,LITD-YOLO 算法有效地對YOLOv5 進行了改進,提高了算法在復雜環境下的檢測能力。而且在模糊背景下,模型展現出優異的抗干擾能力,誤檢率與漏檢率都得到下降。
4結束語
在夜間以及惡劣氣候條件下,采用紅外熱成像監控設備可以對各種目標,如人員、車輛等進行24 h不間斷監控。為了實現高質量的識別與定位,本文將目標檢測技術應用到紅外圖像目標的檢測中。針對紅外圖像紋理細節信息少、信噪比低、受背景影響大和檢測目標小等問題,設計了一種輕量化目標檢測器——LITD-YOLO。通過在數據集上進行的大量實驗得出結論,LITD-YOLO 算法相比基準算法在FLIR 數據集上精確度提升了11.1% ,召回率提升了39. 9% ,平均精度均值提高了33. 3% 。在OSU 數據集上精確度提升了2.3% ,召回率提升了9.9% ,平均精度均值提高了3. 0% 。LITD-YOLO 將原網絡結構進行重構,對原網絡模型進行輕量化處理。對于行人和車輛目標小而密集的特點,引入了Varifocalloss與SIoU,提高了模型檢測性能。最終得到的模型體積僅為3.9 MB,相比于基準算法下降了71.53% 。輕量化的特點允許其被輕易地部署在一些條件有限的平臺上,且在檢測精度和速度上也有很大優勢,LITD-YOLO 算法具有較高的研究潛力和應用價值。
作者簡介 張上 男,(1979—),博士,副教授。主要研究方向:物聯網、計算機應用、圖像處理。
陳永麟 男,(1999—),碩士研究生。主要研究方向:目標檢測。
(*通信作者)王恒濤 男,(1996—),博士研究生。主要研究方向:計算機視覺。
黃俊鋒 男,(1999—),碩士研究生。主要研究方向:目標檢測。