何妍妍
基于改進YOLOX-S的足球比賽視頻目標檢測方法
何妍妍
(遼寧科技大學 理學院,遼寧 鞍山 114015)
為了提升足球賽事水平,催生出足球新戰術,識別足球巨星梅西和足球的位置,為進一步的跟蹤提供良好的基礎,提出了一種基于改進YOLOX-S的足球賽事目標檢測方法.使用Pseudo-IoU度量,改進了YOLOX-S中的正樣本初步篩選機制,將更標準化和準確的分配規則引入到YOLOX-S無錨檢測框架.在損失函數中使用了Focal Loss,以平衡難易樣本.實驗結果表明,相較于YOLOX-S模型,所提模型具有更好的綜合表現,足球類別平均精度為79.8%,梅西類別平均精度為72.6%,平均精度均值為76.2%.
目標檢測;YOLOX-S;足球賽事;Pseudo-Iou度量;Focal Loss
足球運動是世界第一運動,它將運動員高超的個人技術和巧妙的集體戰術配合融為一體,具有令人不可抗拒的魅力,在世界范圍內有廣泛的受眾和巨大的市場.足球視頻通常存在足球目標較小,球員分布密集,難以區別辨認等問題,對目標檢測提出了挑戰[1].
基于深度學習的目標檢測算法分為二階段目標檢測算法和一階段目標檢測算法.前者先對輸入圖像選取可能包含檢測目標的候選區域,再通過卷積神經網絡對候選區域進行分類和回歸,如R-CNN[2],FastR-CNN[3],FasterR-CNN[4]等,該類算法精度高但速度慢.后者不會生成候選區域,將目標檢測任務看成整幅圖像的回歸任務,如FCOS[5],SSD[6],Centernet[7],Efficientdet[8],YOLO[9-10]系列等,優點是檢測速度快.YOLOX是典型的一階段檢測網絡,具有速度快精度高的特點,但在足球目標較小.球員因劇烈運動形變較大的足球視頻目標檢測中精度較低,不能滿足精準跟蹤足球和球員的要求.因此,本文選取了YOLOX-S網絡,并在該網絡的基礎上進行了改進.使用Pseudo-IoU[11]度量,將準確的標簽分配規則引入到YOLOX-S無錨檢測網絡中,無需額外的計算成本和測試參數.在損失函數中引入Focal Loss[12],YOLOX-S網絡中使用的是平衡交叉熵損失函數,解決了正負樣本不均衡的問題,Focal Loss可以增加難分樣本的權重,減低易分樣本的權重,使模型在訓練時重點關注難分類樣本.
YOLOX是對YOLOv3 網絡進行改進后的新一代目標檢測網絡,YOLOX-S是YOLOX的一個衍生版本,網絡參數量為9.0 MB,權重文件大小為35 MB,具體結構見圖1.

圖1 YOLOX-S模型結構
YOLOX-S網絡結構由四個部分組成,分別為輸入端、主干特征提取網絡、加強特征提取網絡以及預測網絡.輸入端使用了Mosaic和MixUp數據增強方法,隨機選取4張圖片,通過隨機縮放、隨機分布、不同圖片像素加權融合等方式對圖片進行拼接,豐富數據集的多樣性,可以提升檢測效果.主干網絡為CSPDarknet,使用了CSPLayer,Focus,SPP[13]等結構.Focus結構是在一張圖片中每隔一個像素取一個值,獲得四個獨立的特征層,然后將四個獨立的特征層進行堆疊,使寬高信息集中到通道信息,輸入通道擴充了四倍,拼接起來的特征層由原先的三通道變成了十二個通道.SPP結構通過不同池化核的最大池化進行特征提取,特征圖經過局部特征和全局特征相融合后,豐富了特征圖的表達能力.在網絡的加強特征提取網絡部分,利用特征金字塔 FPN[14]+PAN[15]結構,將語義特征和定位特征進行融合.在預測網絡部分,使用解耦頭將加強特征提取網絡的輸出結果進行拆分,分別計算置信度,類別概率和位置并進行拼接得到預測結果.YOLOX-S通過FCOS無錨點方式初步篩選正樣本,再利用 SimOTA 算法對預測結果進行精細化篩選,得到最終的正樣本.
(IoU)是一種測量在特定數據集中檢測相應物體準確度的一個標準,被定義并應用于基于錨框的方法中,計算了預測框A與真實框B之間的相似度,具體公式為

Pseudo-Intersection-over-Union度量將一個準確的標簽分配規則引入到無錨檢測器中(見圖2).

圖2 Pseudo-IoU展示圖


在加強特征提取網絡中提取所有特征圖,并將特征圖上的所有點標記為正負樣本后,訓練過程推進到檢測頭部分.

損失函數表示為



實驗數據使用的是足球比賽視頻的圖片和部分百度搜索到的梅西的圖片,共1 646張圖片,其中只包含足球的圖片(足球類別)有1 288張,包含足球和運動員梅西的圖片(梅西類別)有358張.使用 Labelimg對圖片進行了標定,符合實驗訓練要求.訓練驗證集和測試集的比例設置為9∶1,訓練集和驗證集的比例設置為9∶1,1 332張用于訓練,149張用于驗證,165張用于測試.
實驗在Win10操作系統上進行訓練和測試,處理器是 IntelI CoreI i7-12700F CPU,顯卡使用 NVIDIA GeForce RTX? 3060,深度學習框架為Pytorch,編譯器為pycharm.
實驗總共360個訓練周期(epoch),最后75個訓練周期不設置數據增強,訓練批次大小(batch size)設置為16,學習率由余弦退火算法調節,初始學習率(learning rate)設置為 0.01/64.0,最小學習率為0.05,權重衰減設置為0.000 5.







表1 不同檢測模型的比較 (%)
使用 YOLOX-S模型和本文模型分別對足球比賽視頻進行檢測,結果見圖3.由表1和圖3可以看出,本文模型能夠提高檢測精度.

圖3 檢測效果對比



表2 不同取值對比 (%)

表3 標簽分配改進效果 (%)

表4 不同,取值對比 (%)

表5 損失函數改進效果 (%)
為了解決足球比賽視頻通常存在足球目標較小,球員分布密集,難以區別辨認等問題,提出了一種基于改進YOLOX-S的足球比賽視頻目標檢測方法.首先,將正樣本初步篩選機制中的FCOS中心分支替換成Pseudo-IoU度量,減少誤報和不準確的邊框;然后,基于損失函數引入Focal Loss,能夠使模型更加精確地區分檢測區域是否有足球和梅西.實驗結果表明,改進的模型提高了足球比賽視頻的檢測精度,并且能滿足實時檢測的需求,為進一步跟蹤提供了幫助.在后續研究中將進一步改進YOLOX-S方法來提高檢測精度和檢測速度.
[1] 亓淼,鄭凱東. 基于注意力機制的足球視頻目標檢測[J]. 智能計算機與應用,2022(1):143-154.
[2] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Patten Recognition.Piscataway:IEEE,2014: 580-587.
[3] GIRSHICK R.Fast R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision.Piscataway:IEEE, 2015:1440 -1448.
[4] REN S,HE K,GIRSHICK R,et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactionson Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[5] TIAN Z,SHEN C,CHEN H,et al.Fcos:Fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Piscataway:IEEE,2019:9627-9636.
[6] LIU W, ANGUELOV D, ERHAN D, et al.Ssd:Single shot multibox detector[C]//Computer Vision–ECCV 2016: 14th European Conference.Amsterdam:Springer International Publishing,2016:21-37.
[7] DUAN K,BAI S,TIAN Q,et al.Centernet:Keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Piscataway:IEEE,2019:6569-6578.
[8] Tan M,Pang R,Le Q V.Efficientdet:Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2020:10781-10790.
[9] Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:779-788.
[10] Redmon J,Farhadi A.YOLO9000:better,faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2017:7263-7271.
[11] LI J, CHENG B, FERIS R,et al.Pseudo-IoU:Improving label assignment in anchor-free object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2021:2378-2387.
[12] LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway:IEEE,2017: 2980-2988.
[13] HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[14] LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2017:2117-2125.
[15] LIU S,QI L,QIN H,et al.Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2018:8759 -8768.
Improved YOLOX-S-based video target detection method for football matches
HE Yanyan
(School of Science,University of Science and Technology Liaoning,Anshan 114015,China)
In order to improve the level of football matches,give birth to new football tactics,identify the position of football superstar Lionel Messi and football,and provide a good foundation for further tracking,an improved YOLOX-S target detection method for football matches is proposed.The Pseudo-IoU metric is used to improve the preliminary screening mechanism of positive samples in YOLOX-S,and more standardized and accurate allocation rules are introduced into the YOLOX-S anchor free detection framework.In addition,Focal Loss is used in the loss function to balance the difficulty and easy samples.The experimental results show that the proposed model has better overall performance compared with the YOLOX-S model,with an average accuracy of 79.8% for soccer category,72.6% for Messi category,and 76.2% for the mean accuracy.
target detection;YOLOX-S;football events;Pseudo-Iou;Focal Loss
TP391.4
A
10.3969/j.issn.1007-9831.2024.01.007
1007-9831(2024)01-0030-06
2022-11-04
何妍妍(1995-),女,浙江義烏人,在讀碩士研究生,從事計算機視覺研究.E-mail:heyy203@163.com