中圖分類號:TP3191.4;TP301.6 文獻標識碼:A
文章編號:2096-4706(2025)08-0046-09
Abstract:To address theisues of low detection accuracy and highcomputational load in infrared smalltarget detection from UAVaerial perspectives,a lightweight infrared smalltargetdetectionmodel,YOLO-IRLight,is proposed basedon YOLOv8s.Thismodelintroduces theEMA(EffcientMultiscaleAttention)Atention Mechanism toenhancefeatureextraction capabilities.APConv-C2f module isadded tothe neck of the network toreducecomputationalloadand fuse scale sequence features,andaP2detectionlayerisincorporatedtootimizethenetworkstructure,therebyimprovingsmaltargetdetection performance.Aovellgtweightdetectionead,Goup-Detect,isesigned,andtheNWD(NoaledussnWten Distance)lossfunctionisincorpoatedintothelossfunctionof themodelinalinearcombination maer.Experimentalresults on the open dataset show that compared to the original YOLOv8s, the proposed model improves detection accuracy ( m A P@ 0 . 5 ) ( by 1 . 7 % ,reduces the number of parameters by 4 5 . 9 % ,decreases computational complexity (GFLOPs) by 3 3 . 5 % ,and increases F1 score by 0 . 9 % .The improved algorithm significantly outperforms traditional algorithms,with notable improvements in detection accuracy compared to current mainstream algorithms.
Keywords: Small Target Detection; infrared target; lightweight; YOLOv8; network optimization
0 引言
目標檢測是計算機視覺的重要任務,在各種領域如搜索救援、智能監控中都有廣泛的使用。而無人機近年來不斷發展,因其能夠無視地形因素進行拍攝和定位,將目標檢測技術應用于無人機上,能提升功能性從而為社會提供應用價值。無人機拍攝的紅外圖像相較于可見光(Visible,VIS)圖像,能更好地反應圖像的熱目標特性。但在大部分應用場景中,紅外小目標缺少相對明顯的顏色、形狀、紋理等特征信息,且邊界模糊,環境噪聲與雜波導致紅外圖像的信噪比降低,進一步加大了復雜環境下的紅外小目標檢測難度。所以對于紅外小目標的檢測過程仍面臨諸多挑戰[1]。實時性和準確性對于無人機目標檢測任務至關重要,將深度學習模型部署到小型設備上具有挑戰性,而輕量化模型又難以在提高準確度的同時滿足實時性要求。基于這一點,本文提出設計一種模型復雜度較低的無人機航拍紅外小目標圖像目標檢測算法。
目前,傳統的檢測方法和基于深度學習的檢測方法都能完成紅外圖像小目標檢測。傳統的目標檢測算法通過特定的圖像處理技術,建立背景模型來消除或降低背景噪聲,從而突出目標信號完成目標檢測。宋[2]等人提出一種基于改進加權局部對比度的檢測方法,利用目標的各向同性采用六方向梯度法選擇目標點進行決策,判斷出目標的位置。但是對于變化劇烈的背景或光照條件敏感,容易產生虛假目標。Younsi[3]等人在采用高斯混合模型(GaussianMixtureModel,GMM)背景差分法提取圖像序列中所有目標后,引入基于形狀、外觀等組合相似函數來檢測目標。但是背景中的小物體容易干擾主體目標的檢測,導致目標信息的丟失。
目前卷積神經網絡和深度學習技術都在不斷進步,基于深度學習的目標檢測算法層出不窮,而紅外小目標檢測是重要的研究方向之一。Qi等人將Transformer和CNN的網絡架構融合,CNN獲取局部細節,Transformer用自注意機制來學習上下文依賴關系,增強了紅外圖像的目標特征。文獻[5]中 Jiang等人基于Transformer針對可見光(visible,VIS)和熱紅外(thermalinfrared,TIR)圖像設計了目標檢測模型。Liang等以FasterR-CNN為網絡結構,利用空間自適應模塊的特征金字塔網絡(FeaturePyramidNetwork,FPN)結構,減少了紅外小目標圖像中特征融合信息的損失。這類方法對于目標檢測的精度提升較大,但檢測速度較慢,計算量偏高,不適合以無人機為載體進行目標檢測。近年來還出現許多基于單次檢測器(Single ShotDetector,SSD)的網絡結構[7-9],在文獻[10]中,Zheng等在融合單次檢測器(FusionSingleShotMultiBoxDetector,FSSD)的淺層網絡中添加了一個特征增強模塊,用于檢測紅外目標,提高了檢測精度,且速度明顯優于上面的二階段網絡。但同為一階檢測網絡的YOLO目前對小目標的檢測精度已經超越了單次檢測器(Single ShotDetector,SSD)類網絡,文獻[11]中基于YOLOv5改進了上下采樣,減少采樣階段小目標特征的損失,文獻[12]改進YOLOv7網絡使高級和低級語義之間能夠線性融合,克服了紅外小目標檢測中噪聲引起的誤報問題,文獻[13]通過融合多個輸入的多幀信息對YOLOv8進行改進。這些基于YOLO的網絡結構都在紅外小目標檢測方面表現出色。這表明YOLO系列算法在紅外目標檢測上優勢很大。以上算法對紅外目標的檢測精度都有大幅提升,但對于無人機的紅外小目標檢測來說,兼顧模型的參數量和檢測精度仍是一個挑戰。
1基于改進Y0L0v8s的紅外小目標檢測
YOLOv8是一種實時目標檢測算法,其相較于其他算法表現出色。但它目前的損失函數未能充分對全局感知能力的充分利用,并且其特征融合策略限制了其對小目標的檢測能力。YOLOv8有五個模型版本:n、s、m、1和x;模型的尺寸和精度是依次遞增的。為了保證一定的精度,又追求輕量化,選擇其中的YOLOv8s模型進行改進。實驗結果表明,改進后的模型有效地提高了對地面密集小目標的檢測精度。改進方法主要包括以下幾點:
1)針對網絡模型參數量大、計算速度慢的問題,在C2f模塊中引入FasterBlock[14模塊,形成新的PConv-C2f模塊替換進頸部網絡中。在PConv-C2f的基礎上添加EMA注意力機制,形成PConv-C2f-EMA模塊替換主干網絡中。這一改進讓網絡融合時運算速度更快,提取特征時對紅外模糊小目標更有針對性。
2)在頸部引入ASF-YOLO[15]中的 SSFF(ScaleSequence Feature Fusion)和 TFE(Triple FeatureEncoder,TFE)模塊,并融合P2檢測層改進,對網絡結構進行優化,形成新結構SSFF-P2-TFE。原本的三尺度檢測升級為四尺度檢測,提高了小目標的檢測精度。
3)在模型中引入NWD[16](Normalized GaussianWassersteinDistance)損失函數,更好地平衡不同目標尺度的損失,強調對小目標的定位預測,提升小目標的定位性能。
4)針對無人機硬件部署網絡不能過于臃腫的問題,設計了輕量化的Group-Detect檢測頭,在保持精度的同時顯著減輕檢測頭的計算量。
1.1 整體網絡結構
如圖1所示,本網絡分別改進了主干和頸部的C2f模塊,并將主干中的P3、P4、P5級特征層送入SSFF模塊,P2和經過TFE模塊處理后的P3、P4級特征圖送入SSFF模塊,最后得到多尺度特征輸入Group-Detect檢測頭檢測。
1.2 基于PConv改進
模塊
1.2.1 PConv-C2f模塊
在實際使用場景中,算法需要能夠部署在邊緣計算設備上并滿足實時檢測的要求,為了讓設計能實際投入使用,需要減少冗余計算和內存訪問,提高空間特征提取能力,而PConv卷積就是一個解決問題的切入點。通過引入PConv卷積和倒殘差結構,采用1個PConv層和2個點卷積層并結合倒殘差結構構建FasterBlock模塊,使用FasterBlock模塊替換C2f模塊中的BottleNeck模塊,同時保留其他位置的普通卷積塊,提出了一種全新的輕量級PConv-C2f模塊,如圖2所示。


PConv只需要在輸入的部分通道上進行卷積操作來提取空間特征,保持其他通道不變,這減少了計算負擔并降低了信息丟失。利用網絡的連續或規則性的內存訪問特點,PConv選取前段或后段連續CP個通道來代表整個特征圖,不需要對所有被選擇的通道都進行獨立計算,在不喪失一般性的情況下,假設輸入和輸出特征圖具有相同數量的通道。如式(2)所示,當部分比例(partialratio)
時,由于卷積過程占用內存較少,FLOPs僅為普通卷積的1/16,如式(1)所示。內存訪問量MAC僅為普通卷積的1/4,如式(3)所示。
通過以上對C2f模塊的改進,能夠有效減少網絡的參數量和計算量,提高檢測效率。因此將原模型中頸部的C2f模塊全部替換為PConv-C2f模塊來達到輕量化的目的。


1.2.2 PConv-C2f-EMA模塊
為了增強模型表征能力,通常采用增加卷積層數的方法,卷積層數的增加,往往會造成模型計算資源的消耗。添加注意力機制是增強模型表征能力的一種方式,它可以讓模型著重關注輸入序列中的關鍵信息,提高模型精度。因此考慮采用高效多尺度注意力機制(EfficientMulti-ScaleAttention,EMA),EMA與其他注意力方法相比,在參數量上優勢顯著。EMA采用并行子結構減少網絡深度,在不進行通道降維的情況下,擴展網絡的全局感受野、保留通道的精準信息,同時降低計算需求。EMA針對輸入特征 X ∈
,在通道維度將其劃分成 G 個子特征
,
, ? s ,
,
,取 G ? C ,針對每個子特征,EMA通過3條并行分支提取分組特征圖的注意力權重,其中對不同空間維度方向的信息進行了聚合,再將此權重用于每組的特征增強。
將EMA注意力機制融入FasterBlock中,并添加到PConv-C2f模塊中,形成PConv-C2f-EMA模塊,如圖3所示。在原網絡的主干部分替換C2f模塊,以提高模塊提取小目標以及模糊特征的能力。

1.3 改進特征融合層
紅外目標樣本通常尺寸較小、像素較低且容易發生重疊,這些特性嚴重影響了檢測效果。另一方面,原模型較大的下采樣倍數也對小目標檢測造成了困難,因為深層次特征圖經過了多層網絡的處理,具有更大的感受野,很難捕捉到小目標的特征信息。因此本模型在頸部引入了ASF-YOLO中的尺度序列特征融合模塊(Scale SequenceFeature Fusion, SSFF)和三重特征編碼器(TripleFeatureEncoder,TFE)模塊,融合P2小目標檢測層,構建了SSFF-P2-TFE網絡結構,將四尺度特征送入檢測頭對目標進行推理預測。
1.3.1 小目標檢測層
原始模型中包含三個檢測頭,它將主干網絡的P3、P4、P5輸入到PAN-FPN中進行特征融合,由于使用了相較于原圖 6 4 0 × 6 4 0 較大的下采樣倍率,這三個特征層的尺寸分別為 8 0 × 8 0 、 4 0 × 4 0 和2 0 × 2 0 。這讓其預測一些尺度較大的目標更容易,對小目標的檢測在大感受野的影響下很難精準定位。因此本文提出增加一個小目標檢測層。其原理是從網絡主干的P2層特征圖引出,添加一個 1 6 0 × 1 6 0 圖像的檢測層。
1.3.2 SSFF模塊
SSFF模塊旨在增強網絡的多尺度信息提取能力,就是將深層特征圖的高級語義信息與淺層特征圖的詳細空間信息相結合,使網絡能夠更好地理解圖像中的細微細節和尺度變化,其結構如圖4所示[15]。在本模型中,首先將主干網絡中的P3、P4和P5特征映射歸一化到P3級別尺寸,并使用3D卷積來提取它們的尺度序列特征。之后對網絡主干的P2層、上一步處理融合后的P3層,以及模型頸部的P4層送入SSFF模塊進行融合,來獲取更小感受野的淺層次局部特征。這使網絡對小目標的特征信息能進行更好傳遞與融合,可以更好地檢測無人機拍攝的微小目標,顯著降低漏檢和誤檢的概率。

1.4 損失函數改進
YOLOv8為配合其新改進的Anchor-Free形式,增加了DFL(DistributionalFeatureLoss)損失。DFL使用交叉熵的形式計算邊界框和標簽的損失概率,讓網絡更快的聚焦到目標位置及鄰近區域的分布。之后將邊界框分布概率還原為預測框,通過CIoU對預測框的損失和標簽的真實框進行損失計算,以達到對預測框整體優化的結果。CIoU的計算式為:


式(4)中,IoU表示預測框與真實框的交集比,
表示預測框與真實框之間的歐氏距離; h 和w 分別表示高度和預測框;
和
分別表示真實框的高度和寬度;
和
分別表示由預測框和真實框組成的最小包圍框的高度和寬度。
CIoU在小目標的位置有偏差時非常敏感,對其值的計算也相對復雜,這會導致訓練的計算量較大。為解決這個問題,引入了一種基于歸一化的Wasserstein 距離NWD (Normalized GaussianWassersteinDistance)位置回歸損失函數。NWD使用二維高斯分布計算預測框與標記框之間的相似度,根據式(6)計算它們之間歸一化的Wasserstein距離,其中
和
表示由 A 和 B 建模的高斯分布:


該方法一致地反映了模型檢測到的物體分布之間的距離,非常適合用來衡量小目標預測框和實際的相似度。

其中,公式(5)中 C 表示數據集中的類別數,
表示一個距離度量。由于CIoU比較關注目標的長寬比差異,可以更好地衡量邊界框之間的相似度。因此考慮將CIoU與NWD結合使用,如式(7)所示,其中 α 表示CIoU的權重, β 表示NWD的權重。α 與 β 以式(8)的線性關系來組合使用,經過實驗得出(表2),此處 β 值為0.5時效果最好。
L o s s= α ? C I o U+ β ? N W D
β = 1 - α
1.5 設計檢測頭Group-Detect
原模型的檢測頭包含兩個分支,每個分支都需要先分別通過兩個 3 × 3 的卷積和一個普通卷積。這致使通道數多的情況下,參數量就會非常高。為了讓模型更加輕量化,設計Group-Detect檢測頭,其結構如圖5所示。此檢測頭采用參數共享的思想,將前面的3 × 3 的卷積分支合并,減少多余的計算開銷。

我們還在此檢測頭中添加了分組卷積(GroupConv)[17],即分組卷積。在傳統的卷積神經網絡中,卷積層通常會對輸入的所有通道進行全連接的卷積運算。而在分組卷積中,輸入通道被分成若干組,每一組內的通道只與該組內的卷積核相卷積,不同組的通道不相互作用。假設輸入特征圖有
個通道,設定分組數量為 g ,則每組包含
個通道。每組通道分別與對應的卷積核進行卷積操作。每個卷積核只處理一組內的通道,所以卷積核的數量通常是輸出通道數
的 1 / g 。將所有組的卷積結果按組順序拼接起來,就形成了最終的輸出特征圖。因此分組卷積通過減少每次卷積的通道數,顯著降低了參數數量和計算復雜度。在特征圖輸入檢測頭后首先經過兩個3 × 3 的GroupConv,之后分成兩個分支進行普通卷積,以解耦思想執行目標框定位和類別的預測。
2 數據集
為了評估YOLO-IRLight模型在無人機應用中檢測紅外小目標的效果,選用了公開數據集HIT-UAV來進行實驗。該數據集是一個高空無人機紅外數據集,由2898張紅外圖像組成,包含了Person、Car、Bicycle、OtherVehicle、DontCare共5個類別。為了簡化數據集,我們刪除了DontCare類,并將Car和OtherVehicle類別合并為單個Vehicle類別,得到3個類別:Person、Vehicle、Bicycle。最后將數據集按照7:2:1的比例劃分為訓練集、測試集和驗證集。圖6是訓練集的標簽尺寸的分布圖,坐標數據分別是標簽框的長和寬在原圖像的占比,從圖中可以看出小尺寸標簽占絕大多數。

3 實驗分析
3.1實驗平臺和參數設置
實驗使用NVIDIAGPU和PyTorch、Python等,具體參數如表1所示。實驗中沒有使用任何初始權重,輸入圖像大小為 6 4 0 × 6 4 0 。訓練數據的batchsize為16,訓練過程持續200個epoch,且所有實驗使用一
致的超參數進行訓練驗證。

3.2 評估指標
使用目標檢測中常用的評價指標對模型性能進行全面評估。這些指標包括:F1分數、平均精度均值( m A P@ 0 . 5 ) 、模型參數量(Parameters)。F1分數是評估模型在檢測任務中精確度和召回率的一個綜合指標,如式(9)所示:

其中Precision為精確度,即模型在預測為正例的樣本中的準確程度;Recall為召回率,它評估模型對正例的預測能力。mAP中的AP為P-R曲線下的面積。mAP是所有類面積的平均值,
是指使用IoU閾值為0.5,再計算每類圖片的AP,最后取平均值,如式(10),其中 K 為類別數。

3.3損失函數比例系數
NWD損失函數非常適用于小目標的檢測,但考慮到數據集中仍然存在少量的中大尺寸目標,只使用NWD損失函數會導致部分目標漏檢和誤檢。因此嘗試將CIoU與NWD線性組合使用,具體比例分配可見表2數據。實驗得出 β 值(NWD損失比例)為0.5時,F1分數和檢測精度
達到最優效果。

3.4 消融實驗
為說明以上所提幾項改進方法對基準模型的影響,在HIT-UAV數據集中進行如下消融實驗,表3中展示了將各改進點分別添加到YOLOv8s模型中的結果。

從表3可以看出,對于紅外拍攝的小尺寸目標檢測,改進后的算法在每個階段都有一定的提升。雖然在加入SSFF-P2-TFE模塊時,參數量有一定的增長,但是精度也得到了提高,且其他模塊都做了輕量化處理,總體參數量和計算量都相較于原模型有所減少。實驗結果表明,每個階段的網絡結構優化,都取得了較好的效果。
3.5 比較實驗
表4給出了YOLO-IRLight模型與其他5種主流目標檢測模型的對比結果,我們可以著出在檢測精度? m A P@ 0 . 5 ? 方面我們的模型較其他模型高出至少24 % ,F1精度也位居首位,超出其他模型最好表現的21 % 以上。數據量雖然略高于EfficientDet模型,但是以15GFLOPs的數據量獲取了兩倍于EfficientDet的檢測精度,是非常可觀的。

表5在YOLO系列的檢測模型中橫向對比。分析可知,我們的模型在紅外小目標檢測數據上優于最新發布的YOLO11。與前幾代YOLO模型相比,也均在保持低計算復雜度、參數量的同時,取得了較好的小目標檢測精度,實現了輕量又精準的目標。

3.6 可視化對比
為了更直觀地展示和比較模型的性能,我們選取幾組圖像進行預測。
如圖7所示,我們挑選了多種類目標同時出現的情況。原始模型在(a)組中對person類誤檢,在(b)組中將person目標誤檢為Bicycle類。可以看出原模型在目標種類繁多時有一定的誤檢率,我們的模型對目標分類較為準確。

圖8選取的三組圖片各有特點,可以看到(c)組圖像中小范圍內存在不同尺度的目標,(d)組圖像的背景非常模糊復雜,(e)組圖像有大量目標重疊。在這三種情況中,對比可以看出,原始模型YOLOv8s常出現漏檢情況,而我們的模型在多尺度、背景復雜、小目標密集的條件下檢測效果依舊良好。

4結論
本文提出了一種基于無人機航拍的紅外小目標檢測模型YOLO-IRLight。針對航拍目標的低像素、信息匱乏,無人機載模型臃腫、計算不夠輕量等問題,使用部分卷積PConv和EMA注意力機制,引入SSFF和小目標檢測層重塑網絡結構,設計輕量化檢測頭改進網絡模型。新模型的參數量和計算量相較于基準模型都有所下降,平均精度
也提升到了 9 5 . 2 % 。我們在HIT-UAV數據集上進行測試和比較,證明了本文中模塊改進的可行性。通過對比試驗,可以得出YOLO-IRLight在準確率和模型復雜度方面優于主流網絡模型,對于紅外模糊小目標的識別效果良好,存在一定的實用價值。
參考文獻:
[1]李文博,王琦,高尚.基于深度學習的紅外小目標檢測算法綜述[J].激光與紅外,2023,53(10):1476-1484.
[2]宋婉妮,楊本臣,金海波.基于改進加權局部對比度的紅外小目標檢測[J].激光與紅外,2023,53(6):963-969.
[3]YOUNSIM,DIAFM,SIARRYP.AutomaticMultipleMoving Humans Detection and Tracking in Image SequencesTaken from a Stationary Thermal Infrared Camera [J/OL].ExpertSystems with Applications,2020,146:113171[2024-10-05].https://doi.org/10.1016/j.eswa.2019.113171.
[4]QI M,LIUL,ZHUANGS,etal.FTC-Net:Fusion ofTransformerandCNNFeaturesforInfrared SmallTargetDetection[J].IEEE Journal of Selected Topics in Applied Earth Observationsand Remote Sensing,2022,15:8613-8623.
[5] JIANG CC,REN H Z,YANG H,et al. M2FNet:Multi-ModalFusionNetworkforObjectDetectionfromVisibleand Thermal Infrared Images [J/OL].International Journal ofApplied Earth Observation and Geoinformation,2024,130:103918[2024-10-23].https://doi.org/10.1016/j.jag.2024.103918.
[6]LIANG M,JI T.Research on Unmanned InfraredNight Vision System Based on Improved Faster R-CNN TargetDetection Algorithm[C]//2022 IEEE 5th Advanced InformationManagement,Communicates,Electronic and Automation ControlConference (IMCEC).Chongqing:IEEE,2022:863-869.
[7]WANGK,WANGY,ZHANGS,etal.SLMS-SSD:Improving the Balance of Semantic and Spatial Information inObject Detection [J/OL].Expert Systems with Applications,2022,206: 117682[2024-10-11]. https: //doi.org/10.1016/j.eswa.2022.117682.
[8]LUJ,HUANGT,ZHANGQ,etal.ALightweightVehicle Detection Network Fusing Feature Pyramid and ChannelAttention[J/OL].Internet of Things,2024,26:101116[2024-10-18].https://doi.org/10.1016/j.iot.2024.101166.
[9] WANG H,MO H,LU S,et al.Electrolytic CapacitorSurface Defect Detection Based on Deep Convolution NeuralNetwork [J/OL].Journal ofKing Saud University-Computer andInformation Sciences,2024,36 (2):101935[2024-10-23].https://doi.org/10.1016/j.jksuci.2024.101935.
[10] ZHENG H,SUN Y,LIU X,et al. Infrared ImageDetection of Substation Insulators Using an Improved FusionSingle Shot Multibox Detector [J].IEEE Transactions on PowerDelivery,2020,36(6):3351-3359.
[11] XINGANG M, SHUAI L,XIAO Z. YOLO-FR: AYOLOv5 Infrared Small Target Detection Algorithm Based onFeature Reassembly Sampling Method[J].Sensors,2023,23(5):2710-2710.
[12] ZHU JX,QIN C,CHOI D M. YOLO-SDLUWD:YOLOv7-based Small Target Detection Network for InfraredImages in Complex Backgrounds [J/OL].Digital Communicationsand Networks,2023[2024-10-27].https://doi.org/10.1016/j.dcan.2023.11.001.
[13] SUN S,MO B,XU J,et al. Multi-YOLOv8:An Infrared Moving Small Object Detection Model Basedon YOLOv8 for Air Vehicle [J/OL].Neurocomputing,2024,588:127685[2024-11-05].https://oi.0rg/10.1016/j.neucom.2024.127685.
[14] CHEN J,KAO S,HE H,et al. Run,Don't Walk:Chasing Higher FLOPS for Faster Neural Networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPatterm Recognition.Vancouver: IEEE,2023:12021-12031.
[15] KANG M,TING CM,TINGFF,et al. ASF-YOLO:A Novel YOLO Model with Atentional Scale Sequence Fusion forCellInstance Segmentation [J/OLJ.Image and Vision Computing,2024,147: 105057[2024-11-06].https://oi.org/10.1016/j.imavis.2024.105057.
[16] WANGJ,XUC,YANG W,et al.A NormalizedGaussian Wasserstein Distance for Tiny Object Detection [J/OL].arXiv:2110.13389 [cs.CV].[2024-10-23].2021.https://arxiv.org/abs/2110.13389v1.
[17] HE S, GIRSHICK R,DOLLAR P, et al. AggregatedResidual Transformations for Deep Neural Networks [C]//Proceedings of the IEEE Conference on Computer Vision andPattem Recognition.Honolulu:IEEE,2017:1492-1500.
[18] TANMX,PANGRM,LEQV.EfficientDet: Scalableand Efficient Object Detection [C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.Seattle :IEEE,2020:10781-10790.
[19] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot Multibox Detector [C]//Computer Vision-ECCV 2016:14th European Conference,Amsterdam,The Netherlands,October 11-14,2016,Proceedings,Part I.Amsterdam:Springer International Publishing,2016:21-37.
[20] REN S,HEK,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks [J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2016,39(6):1137-1149.
[21] LINTY,GOYALP,GIRSHICKR,et al.Focal LossforDense ObjectDetection[C]//Proceedings of the IEEE IntemationalConference onComputerVision.Venice:IEEE,2017:2980-2988.
[22] ZHOU X,WANG D,KRAHENBUHL P. Objects asPoints[J/OL].arXiv:1904.07850[cs.CV]. (2019-04-16) [2024-10-05].https://arxiv.org/abs/1904.07850v1.
[23]Ultralytics.Comprehensive Guide to UltralyticsYOLOv5[EB/OL]. (2022-11-22) [2024-10-07].https://docs.ultralytics.com/yolov5/.
[24]WANGCY,BOCHKOVSKIYA,LIAOHYM.YOLOv7:Trainable Bag-of-Freebies Sets New State-of-the-ArtforReal-Time ObjectDetectors[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:7464-7475.
[25]Ultralytics.Ultralytics YOLOv8[EB/OL].(2023-01-10)[2024-10-09].https://github.com/ultralytics/ultralytics.[26]Ultralytics.Ultralytics Solutions:Harness YOLO11 toSolve Real-World Problems [EB/OL]. (2024-09-30) [2024-10-15].https://docs.ultralytics.com/zh.
作者簡介:倪夢琪(1999—),女,漢族,河南洛陽人,碩士研究生在讀,研究方向:計算機目標識別與跟蹤;陳凱源(2000一),女,漢族,河南鄭州人,碩士研究生在讀,研究方向:缺陷檢測和自然語言處理。