









摘" 要: 魚類跟蹤是分析魚類行為、評估其健康水平的關鍵步驟。然而,由于真實水下養殖魚群具有運動非線性、高外觀相似度、魚體互相遮擋、特征信息損失嚴重等特點,多目標跟蹤魚類是一項非常具有挑戰性的任務。針對水下魚體反射產生的偽影以及魚體運動非線性、相互遮擋導致跟蹤軌跡碎片化的問題,提出一種水下多魚跟蹤模型DF?Track。該模型采用基于檢測的跟蹤(TBD)范式,首先在YOLOv8的C2f結構中引入聚合感知注意力機制(APFA),提高在前向過程中提取圖像特征的能力;然后使用SDI多層次特征融合模塊對YOLOv8中的feature fusion部分進行重設計,減少特征融合階段不同層級特征信息的沖突問題;最后提出一種優化軌跡管理的跟蹤模型DF?Track,并引入Focal?EIoU補償匹配空間中的運動估計偏差,平衡幾何一致性。實驗結果表明:與原YOLOv8相比,所提算法的精確率提高了1.7%,平均精度均值提高了2.1%;DF?Track與其他MOT跟蹤算法相比,HOTA達到70.9%,MOTA達到91.9%,IDF1達到80.4%。證明DF?Track模型在水下魚類跟蹤任務中具有較好的性能。
關鍵詞: 多目標跟蹤; 水下魚體; DF?Track模型; 非線性運動; 幾何一致性; 運動估計偏差補償
中圖分類號: TN820.4?34; Q142" " " " " " " " " "文獻標識碼: A" " " " " " " " " " "文章編號: 1004?373X(2024)20?0153?07
Method of underwater fish body tracking based on DF?Track
WU Jiang, LI Ran, FAN Lili, WANG Ning, WANG Kecheng
(School of Information Engineering, Dalian Ocean University, Dalian 116023, China)
Abstract: Fish tracking is a crucial step in analyzing fish behavior and assessing their health status. However, due to the characteristics of real underwater aquaculture fish schools, such as nonlinear motion, high appearance similarity, mutual occlusion between fish bodies, and severe loss of feature information, multi?target tracking of fish is a highly challenging task. To address the issues of artifacts caused by underwater fish body reflection, as well as the fragmentation of tracking trajectories due to nonlinear fish motion and mutual occlusion, an underwater multi?fish tracking model DF?Track is proposed. In this model, the tracking by detection (TBD) paradigm based on detection is adopted, and the aggregated pixel?focused attention (APFA) mechanism is introduced into the C2f structure of YOLOv8 to improve the ability to extract image features during the forward process. The SDI multi?level feature fusion module is used to redesign the feature fusion section in YOLOv8, reducing the conflicts in feature information at different levels during the feature fusion stage. Then, an optimized trajectory management tracking model, DF?Track, is proposed, and Focal?EIoU is introduced to compensate for motion estimation deviations in the matching space, so as to balance geometric consistency. The experimental results show that, in comparison with original YOLOv8, the accuracy of the proposed algorithm is increased by 1.7%, and the average accuracy is increased by 2.1%; in comparison with other MOT tracking algorithms, DF?Track can realize 70.9% in HOTA, 91.9% in MOTA and 80.4% in IDF1. It proves that DF?Track model has better performance in underwater fish tracking task.
Keywords: multi?target tracking; underwater fish body; DF?Track model; nonlinear motion; geometric consistency; motion estimation deviation compensation
0" 引" 言
魚類跟蹤技術在魚類行為監測中發揮著重要作用,是準確掌握水產動物的生長狀況和健康狀況、保證水產品產量和供應、減少環境污染的重要支撐技術[1]。水下魚類跟蹤技術的原理是建立連續視頻序列中魚的位置關系,得到魚的完整運動軌跡[2]。相較于傳統傳感器技術,基于深度學習的水下目標跟蹤方法具有實時性強、無需接觸、不會影響水下生物正常行為等諸多優勢[3]。因此,開展水下魚類跟蹤研究十分必要。
近年來,隨著目標檢測算法的精度不斷提升[4],基于檢測的跟蹤方法(Tracking By Detection, TBD)成為多目標跟蹤算法的主流[5]。水下魚類跟蹤在許多方面不同于人類、車輛跟蹤,其具有運動非線性、形變多且外觀相似度高等特點[6],難以僅憑顏色和紋理識別。除了常見的水下目標與背景顏色失真、特征信息缺失、魚類外觀相似度高等問題外,還需要重點關注以下問題:魚體非線性游動、相互遮擋,同時一些魚體游出折返,導致ID切換、軌跡碎片化,如圖1a)所示;水下魚體反射到上部水面,形成虛假的魚體運動軌跡,常規檢測算法將偽影誤認為魚體,從而導致后續的跟蹤性能差,如圖1b)所示。一階段跟蹤算法當出現大量遮擋或魚體游出折返情況時,難以重建聯系。
楊曉帥結合俯視、側視攝像機的跟蹤結果來獲取魚的三維軌跡,跟蹤精度有所改進[7]。但Faster R?CNN作為兩階段檢測器,檢測速度上具有明顯劣勢,同時多視角信息融合未能從根本上解決關聯階段的軌跡碎片化問題。而Fair?MOT[8]添加了檢測目標與提取Re?ID特征兩個同質分支;CenterTrack[9]連續輸入兩幀圖像,將檢測和跟蹤網絡相結合進行學習,在外觀方面使用深度特征提取。以上兩個算法是聯合檢測跟蹤算法的代表。
鞏龍勤利用改進Simple?SORT實現紅友魚實時跟蹤,但因其使用輕量化檢測器,難以區分真實魚體與水下反射形成的偽影[10]。文獻[11]使用空洞卷積層獲取強語義信息,減少復雜水下環境定位信息損失,但面對特征缺失嚴重的水下環境時,仍然難以區分偽影和目標。BoT?SORT[12]和OC?SORT[13]算法分別提出IoU+ReID融合和Observation平滑策略來減少誤差累積,但以上兩種算法應對水下模糊環境和外觀相似對象時,仍難以分辨魚體與偽影,軌跡關聯階段仍受遮擋、運動模糊影響,存在顯著噪聲。
從以上分析可知,目前研究針對水下魚體反射產生的魚體偽影、魚體相互遮擋或游出折返導致跟蹤軌跡碎片化等問題沒有很好的解決策略,適用性和效率有待進一步提高。為此,本文提出了一種優化軌跡管理的水下魚類目標跟蹤方法,即DF?Track,更好地平衡幾何一致性,提高應對快速運動和運動估計偏差的能力。該方法利用改進YOLOv8來識別水下魚體,加強對魚體與偽影的判別能力;然后使用DF?Track跟蹤器為每個檢測到的魚體分配唯一ID,引入Focal?EIoU補償匹配空間中運動估計偏差,在魚體被完全或部分遮擋,軌跡不能與檢測到的物體匹配時,棄用常規外觀重識別方法,利用歷史運動軌跡與低置信度框,應用最后幀線索來促進身份恢復。DF?Track能夠更好地解決水下反射產生的魚體偽影、跟蹤軌跡碎片化等問題。
1" 模型原理
1.1" 檢測器模型
1.1.1" YOLOv8模型
YOLOv8是YOLO系列的重大進步,其采用梯度流更豐富的C2f結構替代C3,形成了更加精細的梯度流洞察和輕量級配置;同時YOLOv8使用Anchor?Free[14]檢測頭將目標位置與類別信息分別提取,避免了Anchor設置不合理導致的漏檢、重檢問題,能夠實現精確高效的目標檢測。
1.1.2" 融合APFA注意力機制
為解決水下反射產生的魚體虛影與目標魚體外觀相近,經常出現檢測器將干擾信息與目標特征信息混淆的問題,并降低虛影、模糊背景對魚體檢測造成的干擾,本文使用聚合感知注意力機制[15](Aggregated Pixel?focused Attention, APFA)改進C2f模塊,增強檢測器對真實目標區域的關注度,有效提高backbone在前向過程中提取圖像特征的能力。
在原YOLOv8中,C2f模塊主要負責梯度分流,融合淺層和深層特征,提取語義信息。本文在C2f中加入APFA注意力機制,其結構如圖2所示。該機制基于像素操作,采用雙路徑設計,窗口和池大小分別為3×3和2×2。其中,一條路徑關注細粒度鄰居特征,另一條路徑關注粗粒度全局特征,模擬生物視覺聚焦感知模式。
由于APFA注意力機制不依賴堆疊進行信息交換,有效避免了深度退化效應,因此可以更加有效地分辨真實魚體與水下反射產生的魚體虛影。給定輸入:
[X∈RC×H×W] (1)
定義輸入特征圖上以[(i,j)]為中心的滑動窗口中的像素集合為[ρ(i,j)],對于固定的窗口大小[k×k],[ρ(i,j)=k2]。同時定義從特征圖池化得到的像素集合為[σX],則有:
[Si,j~ρi,j=Qi,jKTρi,j] (2)
[Si,j~σX=Qi,jKTσX] (3)
對于池化大小[HP×WP],[σX=HP×WP],有:
[Ai,j~ρi,j,Ai,j~σX=SplitAi,jwith sizek2,HPWP] (4)
像素聚焦注意力可以表示為:
[PFAXI,J=Ai,j~ρi,jVρi,j+Ai,j~σXVσX] (5)
如圖3所示,C2fAPFA是將原網絡C2f模塊中的Bottleneck替換為APFABottleneck,該模塊在參數量略微增長的前提下,引入雙路徑特征提取融合策略,增強了不同網絡層間學習特征的豐富性,減少了冗余梯度信息的影響。
1.1.3" 多層次特征融合(SDI)模塊
由于水下環境導致魚體顏色失真、背景與目標難以區分,常規YOLOv8在特征融合時易產生層級間信息沖突,引發圖像噪聲增加,降低檢測效果,本文使用U?NetV2[16]中的語義細節特征融合模塊(SDI)對YOLOv8中的feature fusion部分進行重設計。
SDI模塊結構如圖4所示,它利用Hadamard乘法,將高級語義信息與低級精細細節集成在不同特征層,連接多維特征,減少噪聲并強化關鍵信息交互。對于一個輸入圖像[I],用[f0i]表示第i個層級的特征,首先對每個層級的特征[f0i]應用空間和通道注意力機制,使得特征可以集成局部空間信息和全局通道信息,具體如下:
[f1i=?CiφSif0i] (6)
[f2i=RHi×Wi×c] (7)
式中:[?Ci]和[φSi]分別表示第i個層級中的通道和空間注意力的參數;[Hi]、[Wi]和[c]分別表示[f2i]的寬度、高度和通道數。
改進后的YOLOv8模型結構如圖5所示。將骨干網絡的倒數第2個、第3個C2f 模塊替換為C2fAPFA模塊,將concat替換為SDI多層次特征融合模塊。
1.2" 跟蹤器模型
在MOT20[17]上表現良好的多種MOT方法[18]在水下魚類數據集中性能大幅下降。HOTA分數下降的原因主要有兩個:一是魚體極其相似的外觀導致基于外觀相似度匹配的跨幀檢測方法失效[19];二是魚體非線性運動(加減速或突然轉向)導致運動估計失準,錯失匹配機會。常規TBD跟蹤器難以實現高精度跟蹤,因此,本文引入Focal?EIoU[20]平衡幾何一致性和優化軌跡管理兩個改進策略,以提升跟蹤性能。不同數據集跟蹤器性能對比圖如圖6所示。
1.2.1" 引入Focal?EIoU平衡幾何一致性
在處理魚體非線性運動時,常規IoU無法衡量非重疊邊界框的重合度,當loss=1時,梯度無法回傳,模型學習受阻,初始化和運動估計變得困難,導致相鄰幀中同一魚體因無重疊特征而難以匹配。
為解決此問題,在關聯匹配階段引入Focal?EIoU[20],結構圖如圖7所示,旨在平衡幾何一致性,提高對快速運動和運動估計偏差的魯棒性。Focal?EIoU在CIoU基礎上拆分縱橫比影響因子,通過高寬損失最小化預測與真實框的差異,實現快速收斂和精準定位,優化匹配空間。
EIoU計算公式如下:
[LEIoU=LIoU+Ldis+Lasp" " " " "=1-IoU+ρ2b,bgtwc2+hc2+ρ2w,wgtwc2+ρ2h,hgthc2] (8)
式中:[wc]和[hc]是預測邊界框與真實邊界框的最小外接矩形的寬度和高度;[ρ]是兩點之間的歐氏距離。
引入的EIoU優化關聯匹配模塊在兩個方面減輕了魚體非線性運動的影響:一個是直接匹配相鄰幀中相同但不重疊的檢測和軌跡;另一個是補償匹配空間中的運動估計偏差,引入高寬損失使預測框與真實框的寬度和高度之差最小,優化它們的匹配空間。
1.2.2" 優化軌跡管理
在TBD框架下,軌跡管理主要負責軌跡的初始化、更新和終止。由于水下經常出現魚體遮擋或游出視野后折返的情況,當魚體被部分遮擋時,檢測器得到的檢測框置信度偏低,易被跟蹤器篩選排除,導致無法正確識別并進行后續的跟蹤,出現軌跡碎片化、ID錯誤切換。對于水下魚體被完全遮擋的情況,常見的外觀重識別方法(REID)[21]因不同魚體間外觀、顏色極其相似,使得處理效果不明顯,并且在跟蹤算法中添加外觀匹配會提高推理計算成本。
針對此問題,本研究利用低置信度框和歷史軌跡框,通過最后幀線索恢復身份,確保檢測與跟蹤的強關聯。當檢測框置信度高于閾值(BoT?SORT設置為 0.55),賦予ID、類別和置信度進行跟蹤。為避免低置信度框被篩選掉,設定0.2為檢測框置信度下限。首先,高分檢測框(置信度≥0.55)優先與上一幀軌跡框關聯匹配;然后,對未匹配軌跡框與置信度在0.2~0.55的低分檢測框進行二次匹配;最后,依靠高性能檢測器和運動信息進行第三次匹配,確保軌跡連續性。考慮到置信度呈高斯分布,將被遮擋前最后一次出現的檢測框位置設為均值,保留最新100幀歷史檢測值作為合理遮擋時間差,連續30幀軌跡框未成功匹配,則刪除軌跡信息。三次關聯匹配能夠有效降低漏檢率,進而解決跟蹤軌跡碎片化問題。本文提出的DF?Track級聯匹配跟蹤器架構如圖8所示,繼承了BoT?SORT[12]的部分軌跡管理,并將改進的EIoU平衡幾何一致性應用在第一、第三次匹配關聯,可以更有效地區分魚體與偽影,更好地減少魚體跟蹤軌跡碎片化。
2" 實驗與結果分析
2.1" 數據采集與處理
為了驗證DF?Track的有效性,創建了水下魚體跟蹤數據集,數據采集自大連市天正實業有限公司紅鰭東方鲀養殖車間。從獲取的視頻中以每隔15幀抽取一張圖像,隨后使用Labelimg進行標注,并分別選取200幅圖像進行亮度調節、對比度增強、水平翻轉以及隨機方向旋轉,共擴充至3 988張。數據集隨機劃分比為8∶2。對于跟蹤器數據,將圖像按照MOT20[17]數據集格式進行分配,訓練集與驗證集比例為9∶1。
2.2" 評估指標
多目標檢測評估方面,對YOLOv8性能評價的主要指標是精確率(Precision)、召回率(Recall)以及平均精度均值(mAP@0.5)。多目標跟蹤評估方面,在MOTChallenge評價標準下,主要評估指標為跟蹤準確度(MOTA)、跟蹤精度(MOTP)、ID切換數(IDSW)、HOTA。
2.3" 實驗環境
CPU型號為Intel[?] CoreTM i7?13700H,GPU型號為NVIDIA RTX4060,顯存為8 GB,操作系統為WIN11。編程語言為Python 3.8,深度學習框架為PyTorch 2.0.1。
2.4" 消融實驗
2.4.1" 改進YOLOv8組件消融
為驗證檢測器改進模塊的有效性,設計4組消融實驗,實驗結果如表1所示。兩模塊同時添加后,精確率、召回率、平均精度均值相比原模型分別提升了1.7%、2.2%、2.1%。
2.4.2" 改進跟蹤器消融
為驗證跟蹤器改進模塊的有效性,設計4組消融實驗,將BoT?SORT中ECM去除作為基準模型,實驗結果如表2所示。其中IDF1是考慮了正確檢測到的目標(IDTP)、誤檢的目標(IDFP)以及漏檢的目標(IDFN)的綜合指標,取值范圍為0~1,值越高表示跟蹤算法在目標識別方面的性能越好。
2.5" 模型對比實驗
在檢測部分,與其他主流目標檢測算法進行對比,訓練時batchsize設置為16,訓練200個epochs,實驗結果如表3所示。
改進的YOLOv8檢測器相較于原YOLOv8,精確率提高了1.7%,召回率提高了2.2%,平均精度均值提高了2.1%,對水下魚體檢測更加精準。
在跟蹤部分,將DF?Track與其他先進的MOT跟蹤器進行比較,為保證公平性,TBD算法的檢測器統一使用本文改進的YOLOv8作為檢測器,結果如表4所示。
由表4可知,DF?Track取得了最高的HOTA、MOTA和IDF1,說明其在跟蹤與識別水下魚體方面具有優越的性能。
3" 結" 論
本文致力于解決水下多魚跟蹤中的一系列關鍵問題,包括魚體外觀高度相似、相互遮擋、反射偽影干擾,以及魚體非線性運動和游出折返導致的跟蹤軌跡碎片化等。針對這些挑戰,創新性地提出了水下多魚跟蹤模型DF?Track,該模型基于檢測的跟蹤(TBD)范式構建。首先在YOLOv8的C2f結構中引入了聚合感知注意力機制(APFA),增強前向過程中提取圖像特征的能力,更精準地捕捉魚體的細微特征差異。此外,為了優化特征融合過程,重新設計了YOLOv8中的feature fusion部分,采用SDI多層次特征融合模塊,有效減少了不同層級特征信息在融合過程中的沖突,提升了特征表示的一致性和魯棒性。跟蹤模型設計上,提出了DF?Track,它優化了軌跡管理策略,并引入Focal?EIoU補償匹配空間中運動估計偏差,平衡幾何一致性,加強對魚體與偽影的判別能力。為了驗證DF?Track的有效性,在水下魚類數據集上進行消融實驗及模型對比,實驗結果表明,改進的YOLOv8算法能夠更準確地識別不同大小魚體,而DF?Track的HOTA、MOTA指標均取得較大提升,效果優于原有跟蹤算法,驗證了本文算法在提高檢測精度和增強跟蹤性能方面的有效性。
綜上所述,本文提出的DF?Track水下魚體跟蹤模型在解決水下反射產生的魚體偽影、跟蹤軌跡碎片化等問題上取得了顯著成效,為相關領域的研究和應用提供了新的思路和方法。
參考文獻
[1] LI D L, WANG Z H, WU S Y, et al. Automatic recognition methods of fish feeding behavior in aquaculture: a review [J]. Aquaculture, 2020, 528: 735508.
[2] KUMAR A, WALIA, G S, SHARMA K. Recent trends in multi?cue based visual tracking: a review [J]. Expert systems with applications, 2020, 162(30): 113711.
[3] ZHANG J J, WANG M Y, JIANG H R, et al. STAT: multi?object tracking based on spatio?temporal topological constraints [J]. IEEE transactions on multimedia, 2023(2): 1?13.
[4] 李志華,于楊.基于檢測的多目標跟蹤算法綜述[J].物聯網技術,2021,11(4):20?24.
[5] EMAMI P, PARDALOS P M, ELEFTERIADOU L, et al. Machine learning methods for data association in multi?object tracking [J]. ACM computing surveys (CSUR), 2020, 53(4): 33?34.
[6] SHIH K H, CHIU C T, LIN J A, et al. Real?time object detection with reduced region proposal network via multi?feature concatenation [J]. IEEE transactions on neural networks and learning systems, 2019, 31(6): 2164?2173.
[7] 楊曉帥.基于DeepSort的斑馬魚軌跡追蹤研究與應用[D].成都:電子科技大學,2021.
[8] ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re?identification in multiple object tracking [J]. International journal of computer vision, 2021, 129: 3069?3087.
[9] PHILIPP K, KOLTUN V, ZHOU X. Tracking objects as points [C]// European Conference on Computer Vision. Cham: Springer, 2020: 474?490.
[10] 鞏龍勤.基于深度學習的水下魚體跟蹤研究[D].海口:海南大學,2022.
[11] CHEN L, LIU Z H, TONG L, et al. Underwater object detection using invert multi?class adaboost with deep learning [C]// 2020 International Joint Conference on Neural Networks. Glasgow, UK: IEEE, 2020: 1?8.
[12] AHARON N, ORFAIG R, BOBROVSKY B Z. BoT?SORT: robust associations multi?pedestrian tracking [EB/OL]. [2023?07?12]. https://arxiv.org/pdf/2206.14651v1.
[13] CAO J K, PANG J M, WENG X S, et al. Observation?centric sort: rethinking sort for robust multi?object tracking [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC, Canada: IEEE, 2023: 9686?9696.
[14] CHENG G, WANG J B, LI K, et al. Anchor?free oriented proposal generator for object detection [J]. IEEE transactions on geoscience and remote sensing, 2022, 60: 1?11.
[15] SHI D. TransNeXt: robust foveal visual perception for vision transformers [EB/OL]. [2023?07?12]. https://blog.csdn.net/qq_40734883/article/details/136977016.
[16] PENG Y, SONKA M, CHEN D Z. U?Net v2: rethinking the skip connections of U?Net for medical image segmentation [EB/OL]. [2023?11?08]. https://arxiv.org/pdf/2311.17791v2.
[17] DENDORFER P, REZATOFIGHI H, MILAN A, et al. MOT20: a benchmark for multi object tracking in crowded scenes [EB/OL]. [2023?09?02]. https://doi.org/10.48550/arXiv.2003.09003.
[18] DU Y H, ZHAO Z C, SONG Y, et al. Strongsort: make deepsort great again [J]. IEEE transactions on multimedia, 2023, 25: 8725?8737.
[19] SUN P, CAO J K, JIANG Y, et al. DanceTrack: multi?object tracking in uniform appearance and diverse motion [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA: IEEE, 2022: 20961?20970.
[20] ZHANG Y F, REN W, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146?157.
[21] ZHOU K Y, XIANG T. Torchreid: a library for deep learning person re?identification in pytorch [EB/OL]. [2023?11?17]. https://doi.org/10.48550/arXiv.1910.10093.
作者簡介:吳" 江(1998—),男,江蘇揚州人,在讀碩士研究生,主要研究方向為水下目標跟蹤。
李" 然(1967—),女,遼寧大連人,碩士研究生,副教授,主要研究方向為計算機科學與技術。
范利利(1997—),男,山東菏澤人,在讀碩士研究生,主要研究方向為深度學習。
王" 寧(1999—),男,遼寧大連人,在讀碩士研究生,主要研究方向為深度學習。
王客程(2000—),男,遼寧沈陽人,在讀碩士研究生,主要研究方向為計算機科學與技術。
DOI:10.16652/j.issn.1004?373x.2024.20.024
引用格式:吳江,李然,范利利,等.基于DF?Track的水下魚體跟蹤方法[J].現代電子技術,2024,47(20):153?159.
收稿日期:2024?04?12" " " " " "修回日期:2024?05?15
基金項目:遼寧省教育廳科研項目(LJKZ0730);中國醫藥教育協會2022重大科學攻關問題和醫藥技術難題重點課題(2022KTM036)