何金平 楊波



摘 ?要:真實場景中的目標跟蹤問題一直以來都是研究熱點,而雙人花樣滑冰作為冬奧會熱門比賽項目之一,如何檢測跟蹤并預測繪制運動員在比賽或訓練中的曲線對于評判運動員的表現尤為重要,為此,文章提出一種基于卡爾曼濾波和YOLOv5繪制雙人花樣滑冰滑行軌跡的方法。首先通過YOLOv5檢測當前幀中的待跟蹤目標,獲取目標的ID、邊界框大小和中心坐標信息;然后利用卡爾曼濾波根據目標的上一幀位置信息預估其下一幀位置,進行精確的目標跟蹤;最后繪制出運動員的運動軌跡。
關鍵詞:卡爾曼濾波;YOLO;目標檢測;花樣滑冰;軌跡
中圖分類號:TP18 ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)24-0153-06
Abstract: Target tracking in the real scene has always been a research hotspot. And double figure skating taking as one of the popular events in the Winter Olympic Games, how to detect, track, predict and draw the curve of athletes in competition or training is particularly important to judge the performance of athletes. Therefore, this paper proposes a method to draw the sliding track of double figure skating based on Kalman filter and YOLOv5. Firstly, the target to be tracked in the current frame is detected by YOLOv5, and the target ID, bounding box size and center coordinate information are obtained; then, Kalman filter is used to estimate the position of the next frame according to the position information of the previous frame of the target for accurate target tracking; finally, draw the movement track of the athlete.?
Keywords: Kalman filter; YOLO; target detection; figure skating; trajectory
0 ?引 ?言
世界花樣滑冰已有百年歷史,但該賽事的金牌幾乎一直由西方國家所壟斷。這主要是因為我國現階段對花樣滑冰運動員的訓練方法還比較傳統,教練僅憑肉眼和主觀經驗來指導運動員訓練,體育訓練的科技水平較低[1,2],導致我國雙人花樣滑冰的成績不理想。因此錄制運動員訓練或比賽的視頻,運用計算機技術集中分析視頻中的運動目標(也就是花樣滑冰運動員),得出運動員的滑行軌跡,再進行科學分析,從模型中得出相關數據,及時校正、優化運動員在動作和技巧上的不足,進而提高運動員在比賽中的成績。由此可見,運動目標的提取、檢測和跟蹤在視頻分析領域顯得極其重要,這為運動員更快更好地掌握技術要領提供了有力的技術支撐[3]。
根據文獻[4]對近年來目標檢測與跟蹤技術發展的梳理與總結,并結合一些計算機視覺三大會議(CVPR、ICCV、ECCV)的相關報道來看,近年來該領域的研究可謂碩果累累。理解服務對象或者對目標進行控制的基礎和前提是目標檢測和跟蹤,運動目標的檢測和跟蹤主要用于獲取運動目標的位置、姿態、軌跡等基本運動信息[4]。本文通過YOLOv5的CNN網絡將圖像分割成網格,每個單元格負責預測檢測并輸出運動目標的信息,完成了對目標狀態的初始化。此外,引入能夠減小搜索范圍、提高跟蹤效率的卡爾曼濾波器實現了對運動員的多目標跟蹤,具有很高的實用價值。
1 ?目標檢測YOLO算法
1.1 ?YOLO算法的介紹
YOLO將目標物體檢測重新定義為一個回歸問題。它基于一個單獨的端對端網絡,將單個卷積神經網絡(CNN)應用于整個圖像,并將圖像分成網格,完成了從原始圖像的輸入到物體類別和位置信息的輸出,給出了每個網格的置信度及邊界框。
YOLOv5是Ultralytics公司在卷積神經網絡(CNN)的基礎上推出的一種目標檢測算法,是YOLO算法系列的第5個版本。針對本文訓練的COCO數據集,YOLO算法會設置初始長和寬的錨框,用來預測待標記目標的邊界框。每個邊界框會有4個坐標(x,y,w,h),即框中心坐標以及長和寬。我們建立了相應的COCO數據集進行網絡訓練,在視頻序列中,YOLO算法會給出最佳的邊界框進而檢測到相應的目標。
1.2 ?YOLOv5s整體網絡結構
花樣滑冰運動員在實際的比賽以及訓練視頻中,他們的運動速度很快,且目標較大,視頻時間長。因此實驗選擇了網絡最小、速度最快,同時AP精度也是最低的YOLOv5s模型網絡結構。YOLOv5s工作原理[5]如圖1所示,其整體網絡結構[6]如圖2所示,整體網絡結構中各部分模塊如圖3至圖7所示。
Input:Mosaic數據增強、自適應錨框計算
Backbone:Focus結構、CSP結構
Neck:FPN+PANet結構
Head:Dense Prediction、Sparse Prediction
2 ?目標預測與跟蹤——卡爾曼濾波器
2.1 ?引入卡爾曼濾波器的意義
在視頻檢測過程中,兩個運動員在視野下是同類別的(運動員在系統中類別設置為0),并且在冰上的滑行速度極快,會出現兩個人互相遮擋的情況。在實際的檢測過程中,當兩個大小相似的物體互相遮擋時,YOLOv5s對目標對象跟丟或重復跟蹤的可能性會很高。同時在檢測過程中,觀眾席上的人員信息有時也會被檢測出來,這些情況會對繪制運動員的實際軌跡產生一定的影響。因此,引入一個能夠根據前一時刻狀態預測下一時刻位置并且可以去除噪聲還原真實數據的卡爾曼濾波器,有助于提高繪制軌跡的精度。
2.2 ?卡爾曼濾波原理
卡爾曼濾波是一種線性系統狀態方程,利用目標的動態信息,設法除去觀測數據與系統中噪聲和干擾的影響,計算得出一個關于目標位置的最佳估計。有3種估計結果:對過去位置的估計(平滑或插值),對當前目標位置的估計(濾波),對將來位置的估計(預測)。由文獻[7]整理得出的公式為:
其中,xk和uk為當前時刻的狀態向量和控制向量,wk為服從高斯分布的系統過程噪聲,A和B分別為系統的狀態轉移矩陣和控制矩陣,vk為系統的測量噪聲,zk為觀測向量,Hk為系統的觀測矩陣。
本文假設系統的過程噪聲wk-1和測量噪聲vk-1相互獨立,都是服從高斯分布的白噪聲,其協方差矩陣分別為Q和R。預測過程沒有對目標的控制,因此忽略控制的輸入。卡爾曼濾波器計算主要分成以下三步:
(1)初始化。初始化參數在后續的實驗環境部分已給出。
(2)預測。根據上一時刻(k-1時刻)的后驗估計來計算出當前時刻(k時刻)的狀態,得到k時刻的先驗估計。
其中,和分別表示當前狀態的后驗估計和先驗估計。Pk和分別表示當前時刻的后驗估計協方差和先驗估計協方差矩陣,表示狀態的不確定度(即和的協方差)。Kk為卡爾曼增益、濾波增益矩陣。作為實際測量和預測測量的殘差與Kk一起校正先驗估計,得出后驗估計。
系統進入k-1時刻后,便開始進行下一時刻的遞推計算。本文則基于YOLOv5檢測出運動員并進行跟蹤,再結合卡爾曼濾波器實現對視頻中運動員在訓練場地中位置的預測,進行滑行軌跡的繪制[8],對運動員在訓練或比賽中的表現進行分析指導。
3 ?系統流程
系統流程圖如圖8所示,本文首先將視頻序列放入已經在COCO數據集上訓練好的YOLOv5s模型網絡中,檢測出待跟蹤目標,并將每一幀檢測出的目標類別、邊界框長和寬以及中心坐標信息保存為.txt格式。輸入卡爾曼濾波器中,對下一幀目標的位置進行估計和預測。多目標會進行關聯,使用最大權重匹配,得出滑行軌跡。
4 ?實驗
4.1 ?實驗環境
以隋文靜和韓聰2019年世界花樣滑冰錦標賽奪冠中的部分視頻序列作為實驗素材,進行實驗測試。實驗結果采用了兩段視頻序列,檢測端均為YOLOv5s框架。實驗平臺:處理器Intel(R)Core(TM)i5-8250U CPU @1.60 GHz 1.80 GHz,顯卡NVIDIA GeForce MX250的小米筆記本電腦,深度學習框架Pytorch,編程環境PyCharm 2019.3.3 x64。
在實際的預測過程中,卡爾曼濾波器中沒有控制增益輸入,即uk為0,編程中設置B=None來消除公式(1)中的這一項參數。卡爾曼濾波器中的其他初始參數設置為:
4.2 ?實驗分析與結果
視頻檢測中時常會檢測出觀眾席上無關人員的信息,此外,當兩個運動員在比賽中做高難度的技術動作時,人物會高速旋轉、互相遮擋,檢測目標在相鄰兩幀中時常會發生幾個至幾十個像素之間的跳躍,導致檢測目標缺失或ID發生變化,軌跡部分缺失不完整。在不加入卡爾曼濾波器的情況下,部分檢測結果如圖9所示,軌跡如圖10所示。
為獲得更完美更精準的軌跡,做出如下優化:觀眾等無關目標不會被一直檢測出,因為這些目標只是在兩三幀中偶爾出現或者是斷斷續續地出現。在加入卡爾曼濾波器后,如果連續好幾幀未能檢測到運動目標,則刪除目標,以此來消除噪聲的影響。而運動員在整段視頻中幾乎一直存在,偶爾也會缺失一兩幀目標信息。卡爾曼濾波器中后驗估計方程指出:k時刻的后驗估計值等于將k-1時刻的后驗估計作為估計值(目標存在),結合k時刻(目標缺失)作為測量值計算得出。k+1時刻的目標重新被檢測到后,k+1時刻的后驗估計值等于將k時刻計算得出的后驗估計值作為估計值,結合k+1時刻(目標存在)作為測量值計算出。此時對比k-1時刻、k+1時刻的后驗估計值會存在一定誤差,但卻在誤差允許范圍內,后續隨著目標重新出現,后驗估計也會越來越接近于真實值。加入卡爾曼濾波器后,部分實驗結果如圖11所示。
通過加入卡爾曼濾波器前后實驗結果對比可以得出:僅使用YOLOv5檢測繪制出的軌跡,女運動員的部分軌跡缺失,不完整;而采用本文所提方法繪制出的兩條軌跡曲線完整,與運動員滑行軌跡基本一致。實驗結果表明該方法能夠較好地繪制出運動曲線,達到了預期目標,是有效可行的。
5 ?結 ?論
雙人花樣滑冰已逐漸成為國人較為關注的比賽項目之一,但中國歷屆比賽的成績并不理想。就如何提高我國花樣滑冰運動員在訓練和比賽中的動作技巧,本文提出了一種在卡爾曼濾波和YOLOv5基礎上繪制雙人花樣滑冰運動員滑行軌跡的方法,輔助運動員訓練,并通過實驗來驗證本文方法的可行性和準確性。實驗結果表明,該算法對目標跟蹤是有效的,最后得出的目標運行軌跡與真實場景中的滑行軌跡基本一致,具有很高的實用價值。盡管實驗最后得出了較為理想的運動軌跡,但這卻是在卡爾曼濾波基于一定的假設和約束條件下得出的,在實際的場景中,卡爾曼濾波必須已知準確的數學模型和噪聲統計特性,且實際的初始狀態、噪聲統計也充滿了不確定性,噪聲也并非總是呈高斯分布,這一系列問題也是今后亟需解決和研究的重點內容。
參考文獻:
[1] 孫茁鳴.青少年花樣滑冰運動員年齡特征與機能訓練的探討 [J].當代體育科技, 2021,11(10),46-48.
[2] 付彩姝,王旋,姜海蘭.花樣滑冰青年運動員體能訓練的方法和手段 [J].冰雪運動,2006(2):28-29.
[3] GUAN S F,LI X F. WITHDRAWN: Moving target tracking algorithm and trajectory generation based on Kalman filter in sports video [J/OL].Journal of Visual Communication and Image Representation,2019[2021-10-05].https://doi.org/10.1016/j.jvcir.2019.102693.
[4] 尹宏鵬,陳波,柴毅,等.基于視覺的目標檢測與跟蹤綜述 [J].自動化學報,2016,42(10):1466-1489.
[5] 任珈民,宮寧生,韓鎮陽.基于YOLOv3與卡爾曼濾波的多目標跟蹤算法 [J].計算機應用與軟件,2020,37(5):169-176.
[6] 江金洪,鮑勝利,史文旭,等.基于YOLO v3算法改進的交通標志識別算法 [J].計算機應用,2020,40(8):2472-2478.
[7] 童燮,萬茂,趙奉奎.基于目標運動軌跡預測的自動緊急制動避撞策略 [J].軟件導刊,2021,20(4):111-116.
[8] 余弦.基于軌跡的視頻運動對象的檢測與跟蹤技術研究 [D].上海:上海交通大學,2010.
作者簡介:何金平(2000—)男,漢族,重慶忠縣人,本科在讀,研究方向:機器學習;楊波(1976—)男,漢族,吉林長春人,副教授,碩士,研究方向:智能評價系統、數據挖掘。