輕量級紅外目標檢測算法研究

2024-11-15 00:00:00張上陳永麟王恒濤黃俊鋒

無線電工程 2024年11期

關鍵詞：目標檢測；模型輕量化；ＹＯＬＯｖ５；Ｖａｒｉｆｏｃａｌｌｏｓｓ；ＳＩｏＵ

中圖分類號：ＴＰ３９１．４文獻標志碼：Ａ開放科學（資源服務）標識碼（ＯＳＩＤ）：

文章編號：１００３－３１０６（２０２４）１１－２５５８－０８

０引言

近些年圖像處理技術發展突飛猛進，目標檢測作為其中的一個分支被廣泛應用在各領域中。在汽車制造領域，自動駕駛技術是當今熱門。行駛中的車輛通過攝像頭對行人或障礙物的識別效率關乎駕駛員的行車安全。利用更加高效的算法構建安全與智能的無人車輛駕駛系統是目前最重要的問題。紅外熱成像技術常常被部署在視頻監控系統中，能實現全天候探測、跟蹤和識別人類活動。熱成像儀在夜間監控有明顯的優勢，其在監測、執法等方面都有應用。可見光目標檢測器在光線充足的環境中可以達到很好的檢測效果，但在如復雜天氣、黑夜和炫光等環境下則無法勝任，而紅外圖像是通過測量物體向外輻射的熱量而生成的，在很多場景下作用比可見光圖像更為重要，但其常常面臨紋理細節缺乏、分辨率差、對比度低、信噪比低和視覺效果模糊等諸多問題，這些特性都極大影響目標檢測算法識別的準確度。因此，快速、精準地從紅外圖像中識別各類目標是接下來的重要研究內容。

紅外圖像目標檢測技術一直是國內外計算機視覺領域研究的熱點，針對紅外圖像分辨率差、成像模糊和目標輪廓不清晰等檢測難點可以選擇利用深度學習來解決。目前主流的目標檢測算法大多基于深度學習模型，其大致能分為四大類：第一類是基于候選區域的Ｒ-ＣＮＮ系列［１－３］算法。將目標檢測劃分為２步，先進行候選區域生成，再對樣本進行分類。檢測從粗到細，選擇性地提取圖像上的所有候選區域，用分類器判斷其中是否含有待檢測目標。第二類是基于回歸的ＹＯＬＯ系列［４－６］和ＳＳＤ［７］算法，這類算法沒有選擇滑窗或提取候選區域的方法，直接利用整圖訓練模型，在一個神經網絡中完成回歸與分類［８］，直接回歸目標的類別概率和位置信息。雙階段算法精確度高但速度慢，單精度算法速度快但精度遜色。第三類是基于ＡｎｃｈｏｒＦｒｅｅ的目標檢測算法ＣｅｎｔｅｒＮｅｔ［９－１０］，該算法將錨框機制剔除，目前主要分為基于關鍵點的和基于中心區域的檢測算法。第四類是基于注意力機制的Ｔｒａｎｓｆｏｒｍｅｒ［１１］算法，模型使用自注意力機制，完全拋棄了傳統循環神經網絡（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，ＲＮＮ）［１２］在水平方向的傳播，只在垂直方向上傳播，只需要不斷疊加Ｓｅｌｆ-Ａｔｔｅｎｔｉｏｎ層即可。相比于傳統目標檢測算法，深度學習為目標檢測提供了一條更加高效的路徑［１３－１４］。

為解決紅外圖像目標檢測過程中的各種難點，顧星等［１５］提出了一種基于注意力機制的紅外目標檢測方法，設計了一種并行注意力機制模塊以增強模型特征提取能力。劉智嘉等［１６］基于ＹＯＬＯｖ３算法進行改進，重新選擇骨干網絡以及增加三通道優化ＹＯＬＯ層。朱惠玲等［１７］針對紅外圖像的特點，使用了基于Ｒｅｔｉｎｅｘ圖像增強的算法以改善圖像質量，使目標檢測精度進一步提高。以上改進能夠有效地進行紅外目標檢測，但存在檢測精度不高，計算量、模型體積大的問題。

為解決紅外圖像目標檢測中的多種難題，提高檢測效率，助力紅外成像技術的行業應用，本文做了如下工作：

① 設計了輕量化紅外目標檢測（ＬｉｇｈｔｗｅｉｇｈｔＩｎ-ｆｒａｒｅｄＴａｒｇｅｔＤｅｔｅｃｔｉｏｎ-ＹＯＬＯ，ＬＩＴＤ-ＹＯＬＯ）網絡結構，從調節感受野和多尺度融合關系兩方面思考，提升淺層網絡特征的權重，調整特征提取網絡和特征融合網絡。

② 引入Ｖａｒｉｆｏｃａｌｌｏｓｓ來解決訓練過程中出現的正負樣本不平衡問題，使模型在訓練時增加對正樣本的關注，而不是負樣本，提升密集目標的檢測能力。

③ 使用ＳＩｏＵ優化訓練過程中錨框定位能力，更加適配重構后的網絡結構，加速模型的收斂，提高錨框回歸精度。

④ 在ＦＬＩＲ熱成像數據集與ＯＳＵ熱力行人數據集上對本文提出的ＬＩＴＤ-ＹＯＬＯ算法進行驗證。

１ＬＩＴＤ-ＹＯＬＯ

ＹＯＬＯｖ５自發行以來就備受關注。相比于ＹＯＬＯｖ４，它添加自適應錨框機制、修改激活函數以及縮減模型尺寸等，使訓練速度和精度都得到一定程度提升。但在針對紅外圖像中的目標進行精準識別與定位時，ＹＯＬＯｖ５算法的檢測性能仍存在很大的進步空間，故本文設計輕量化紅外目標檢測器——ＬＩＴＤ-ＹＯＬＯ。

針對紅外圖像檢測目標的特點，在ＹＯＬＯｖ５基礎網絡結構上改進與優化，輕量化處理原網絡模型，合理地對網絡中的模塊關系進行調整和冗余模塊刪除，使網絡結構更能適應紅外圖像中的目標檢測任務。ＬＩＴＤ-ＹＯＬＯ將輕量化網絡結構、ＥＩｏＵ和Ｖａｒｉｆｏｃａｌｌｏｓｓ三個關鍵點進行融合。首先，優化特征提取網絡架構，針對檢測目標調節感受野權重，輕量化裁剪特征提取網絡；根據重構后的Ｂａｃｋｂｏｎｅ層網絡重設計特征融合網絡架構，剔除冗余的Ｎｅｃｋ層模塊。然后，引入ＳＩｏＵ來更好地提升邊界框回歸過程中預測框的定位準確度，使神經網絡更快地收斂。最后，修改分類損失函數為Ｖａｒｉｆｏｃａｌｌｏｓｓ，用于訓練密集目標檢測器來預測ＩｏＵ感知分類評分（ＩｏＵ-ＡｗａｒｅＣｌａｓｓｉｆｉｃａｔｉｏｎＳｃｏｒｅ，ＩＡＣＳ），借用Ｆｏｃａｌｌｏｓｓ中的樣本加權思想處理正負樣本不平衡問題，在提升訓練速度、模型精度等方面效果優異。ＬＩＴＤ-ＹＯＬＯ系統架構如圖１所示。

改進后得到的ＬＩＴＤ-ＹＯＬＯ算法明顯降低了模型參數量和計算量，模型體積縮減明顯，推理速度得到進一步提高，目標識別與定位效果有巨大提升。

２ＬＩＴＤ-ＹＯＬＯ架構

２．１網絡結構重設計

為了使算法與紅外目標檢測任務相適應，ＬＩＴＤＹＯＬＯ對原模型設計進行調整。ＹＯＬＯｖ５預測端輸出３個不同的尺度特征圖，大小分別為２０ｐｉｘｅｌ ×２０ｐｉｘｅｌ、４０ｐｉｘｅｌ×４０ｐｉｘｅｌ、８０ｐｉｘｅｌ ×８０ｐｉｘｅｌ。其中８０ｐｉｘｅｌ×８０ｐｉｘｅｌ特征圖用于檢測小目標，２０ｐｉｘｅｌ×２０ｐｉｘｅｌ特征圖用于檢測大目標。本模型選擇剔除對應大感受野的２０ｐｉｘｅｌ×２０ｐｉｘｅｌ尺寸特征圖。

考慮紅外圖像的特點，大量無效的背景信息在圖像中占據空間最多，而行人、車輛等僅占據其中較小的比例。輸入圖片經過復雜的網絡會導致小目標特征信息與位置信息逐漸丟失，難以被網絡檢測。因而可以考慮降低網絡卷積次數和突出淺層特征圖來達到提升檢測效果的目的，利用較淺層的特征圖來檢測較小的目標。針對紅外圖像的特點，為了提高目標檢測的效率。ＬＩＴＤ-ＹＯＬＯ對主干特征提取網絡ＣＳＰ-ＤａｒｋＮｅｔ的架構進行重構，去除２０ｐｉｘｅｌ×２０ｐｉｘｅｌ尺寸的特征圖。重構ＣＳＰＤａｒｋＮｅｔ結構如表１所示。

重構ＣＳＰＤａｒｋＮｅｔ結構優勢如下：

① 刪除冗余模塊，以實現淺層小目標特征感受野權重提高，將模型化繁為簡且易實現。

② 極大降低了主干網絡結構復雜度和計算量，減小了模型體積，降低了推理時間。

③ 改進主干網絡參數量降低至ＹＯＬＯｖ５原模型的３１．５４％，由４１７１４５６降至１３１５７７６。

ＬＩＴＤ-ＹＯＬＯ特征圖大小為４０ｐｉｘｅｌ×４０ｐｉｘｅｌ與８０ｐｉｘｅｌ×８０ｐｉｘｅｌ，原特征融合網絡已經不再匹配新的特征提取網絡，改進后特征融合網絡結構如圖２所示。融合過程分為兩部分，先進行淺層向深層語義的融合，然后實現深層與淺層語義的融合。增加淺層語義的權重，減少卷積帶來的特征信息丟失問題。

２．２錨框參數優化

錨框的設定存在著較大的人為因素。ＬＩＴＤ-ＹＯＬＯ經過網絡重構和輕量化處理后需要重新確定錨框大小。ＹＯＬＯｖ５中新增了以往ＹＯＬＯ系列沒有的自適應錨框機制，采用ｋ均值聚類和遺傳學習算法對數據集進行分析，通過計算得到適合的錨定框。大大提高了ＬＩＴＤ-ＹＯＬＯ算法的訓練效果與檢測精度。

２．６ＬＩＴＤ-ＹＯＬＯ結構

ＬＩＴＤ-ＹＯＬＯ算法結構如圖３所示。紅外圖像背景復雜，為了能夠準確地識別目標區域、增強算法檢測效果，對模型網絡結構進行重構和輕量化處理。為了實現主干網絡ＣＳＰＤａｒｋＮｅｔ的輕量化目標，剔除掉２０ｐｉｘｅｌ×２０ｐｉｘｅｌ尺度的特征提取，提高小感受野權重，以達到降低模型計算量與體積的目的。經過網絡重構后，模型平均檢測精度、推理速度提高，而且計算量、模型體積大幅下降。

３實驗及結果分析

３．１實驗環境及參數設置

實驗使用深度學習框架Ｐｙｔｏｒｃｈ，ＧＰＵ為ＮＶＩＤＩＡＧｅＦｏｒｃｅＲＴＸ３０６０，顯存為６ＧＢ，ＣＰＵ為ＡＭＤＲｙｚｅｎ７５８００Ｈ，實驗環境為Ｐｙｔｈｏｎ３．９，Ｐｙｔｏｒｃｈ１．１２．０，ＣＵＤＡ１１．６．０。ｂａｔｃｈｓｉｚｅ為８，訓練輪數為３００，訓練模型為ＹＯＬＯｖ５ｓ。

３．２實驗數據集

為驗證原算法經過改進后的效果，選擇使用ＦＬＩＲ數據集與ＯＳＵ數據集進行算法驗證。

ＦＬＩＲ熱成像數據集是由美國俄勒岡州的傳感器系統開發商ＦＬＩＲ公司推出的一款自動駕駛開源熱數據集。數據集專為高級駕駛輔助系統（ＡｄｖａｎｃｅｄＤｒｉｖｉｎｇＡｓｓｉａｔａｎｃｅＳｙｓｔｅｍ，ＡＤＡＳ）和自動駕駛汽車研究人員、開發人員、汽車制造商而設計。匯集了１００００多個白天和夜間場景的注釋熱圖像，圖像尺寸均為６４０ｐｉｘｅｌ×５１２ｐｉｘｅｌ，包括日間和夜間場景，包含汽車、行人和自行車的注釋。熱成像傳感器可以檢測行人、動物和其他車輛，最大距離可達到傳統前燈照明的４倍，這對于推動目標檢測技術在自動駕駛領域的應用具有重大意義。

ＯＳＵ熱力行人數據集來自俄亥俄州立大學的科研團隊。圖像取材自大學校園內行人十字路口，共計２８４張，總共有９８４人被手動標記在圖像中，平均每張３～４人。圖像尺寸均為３６０ｐｉｘｅｌ×２４０ｐｉｘｅｌ。

３．３評價指標

為了驗證和評估改進算法ＬＩＴＤ-ＹＯＬＯ的性能，實驗選擇以精確度（Ｐｒｅｃｉｓｉｏｎ，Ｐ）、召回率（Ｒｅｃａｌｌ，Ｒ）、平均精度（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ，ＡＰ）和平均精度均值（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ，ｍＡＰ）作為評價指標。

３．４消融實驗

為了驗證ＬＩＴＤ-ＹＯＬＯ中各模塊在紅外目標檢測中的有效性，本文在ＦＬＩＲ熱成像數據集與ＯＳＵ數據集上進行消融實驗，以ＹＯＬＯｖ５為基準算法對比，主要以Ｐ、Ｒ、ｍＡＰ、模型體積、參數量和計算量為評價指標。消融實驗結果如表３所示。

根據表中數據可以看出，模型經過網絡重構和輕量化處理后，模型體積得到大幅度降低，僅有３．９ＭＢ。模型在添加Ｖａｒｉｆｏｃａｌｌｏｓｓ后，模型精度相比之前有明顯提高，而在引入ＳＩｏＵ后，召回率也有不小提升。由此可見，Ｖａｒｉｆｏｃａｌｌｏｓｓ和ＳＩｏＵ可以在不增加模型體積和參數量的條件下，小幅提高算法精確度。在ＬＩＴＤ-ＹＯＬＯ算法模型下體積縮小７１．５３％，參數量降低６８．４６％，計算量降低２９．１１％。其中ＦＬＩＲ數據集平均精度提升３３．３％，ＯＳＵ數據集平均精度提升３％，印證了ＬＩＴＤ-ＹＯＬＯ算法的優越性，其各項指標相比于基準算法均有明顯進步，能夠高效地完成紅外目標檢測的任務。

３．５對比實驗

為驗證ＬＩＴＤ-ＹＯＬＯ算法對紅外圖像目標檢測的有效性，在ＦＬＩＲ熱成像數據集與ＯＳＵ數據集上與當前各種先進的目標檢測算法做對比，實驗選擇模型體積、ｍＡＰ和推理時間為評價指標。對比結果如表４和表５所示，在ＦＬＩＲ數據集上，ＬＩＴＤ-ＹＯＬＯ算法的ｍＡＰ為８８．８％，在所有模型中最高。從模型體積上對比，ＬＩＴＤ-ＹＯＬＯ僅有３．９ＭＢ，相比于ＹＯＬＯｖ５、ＹＯＬＯＸ-ｓ、ＹＯＬＯｖ７和ＳＳＤ算法體積分別降低了７１．５％、８８．６％、９４．５％、９５．７％。從模型推理時間上來看ＬＩＴＤ-ＹＯＬＯ是４．７ｍｓ，優于其余４個算法，與其最接近的ＹＯＬＯｖ５雖然僅有１．１ｍｓ的差距，但是其在模型體積和ｍＡＰ上卻遠遠不如ＬＩＴＤ-ＹＯＬＯ。而在ＯＳＵ數據集上的對比結果依舊遙遙領先。綜上所述，ＬＩＴＤ-ＹＯＬＯ算法在模型體積、ｍＡＰ和推理時間上均有明顯提升，可以很好地勝任紅外圖像中的目標檢測任務。

３．６實驗效果與分析

為驗證ＬＩＴＤ-ＹＯＬＯ算法在實際應用環境下的檢測效果，分別從檢測難度較大的ＦＬＩＲ熱成像數據集與ＯＳＵ數據集測試集圖片中隨機選取進行檢測。最終檢測效果對比如圖４所示，上２行為ＦＬＩＲ數據集圖片，下２行為ＯＳＵ數據集圖片。左列為ＹＯＬＯｖ５算法檢測效果，右列為ＬＩＴＤ-ＹＯＬＯ檢測效果。由圖４可以看出，原始ＹＯＬＯｖ５算法漏檢、錯檢現象嚴重，而本文所闡述的方法在背景復雜且檢測目標密集時表現出優異的檢測性能。可以得出結論，ＬＩＴＤ-ＹＯＬＯ算法有效地對ＹＯＬＯｖ５進行了改進，提高了算法在復雜環境下的檢測能力。而且在模糊背景下，模型展現出優異的抗干擾能力，誤檢率與漏檢率都得到下降。

４結束語

在夜間以及惡劣氣候條件下，采用紅外熱成像監控設備可以對各種目標，如人員、車輛等進行２４ｈ不間斷監控。為了實現高質量的識別與定位，本文將目標檢測技術應用到紅外圖像目標的檢測中。針對紅外圖像紋理細節信息少、信噪比低、受背景影響大和檢測目標小等問題，設計了一種輕量化目標檢測器——ＬＩＴＤ-ＹＯＬＯ。通過在數據集上進行的大量實驗得出結論，ＬＩＴＤ-ＹＯＬＯ算法相比基準算法在ＦＬＩＲ數據集上精確度提升了１１．１％，召回率提升了３９．９％，平均精度均值提高了３３．３％。在ＯＳＵ數據集上精確度提升了２．３％，召回率提升了９．９％，平均精度均值提高了３．０％。ＬＩＴＤ-ＹＯＬＯ將原網絡結構進行重構，對原網絡模型進行輕量化處理。對于行人和車輛目標小而密集的特點，引入了Ｖａｒｉｆｏｃａｌｌｏｓｓ與ＳＩｏＵ，提高了模型檢測性能。最終得到的模型體積僅為３．９ＭＢ，相比于基準算法下降了７１．５３％。輕量化的特點允許其被輕易地部署在一些條件有限的平臺上，且在檢測精度和速度上也有很大優勢，ＬＩＴＤ-ＹＯＬＯ算法具有較高的研究潛力和應用價值。

作者簡介張上男，（１９７９—），博士，副教授。主要研究方向：物聯網、計算機應用、圖像處理。

陳永麟男，（１９９９—），碩士研究生。主要研究方向：目標檢測。

（*通信作者）王恒濤男，（１９９６—），博士研究生。主要研究方向：計算機視覺。

黃俊鋒男，（１９９９—），碩士研究生。主要研究方向：目標檢測。