吳超侯慶昆
(1.對外經濟貿易大學體育部 北京 100029;2.聊城大學體育學院 山東 聊城 252000)
隨著計算機技術的迅速發展,它越來越多地應用到人類社會的各個部門,擴展了人類的大腦和感知能力。在視覺技術方面,計算機的利用可以模擬人類的視覺感知,促進了計算機視覺(Computer vision,CV)的產生和發展,使計算機實現了人類的視覺功能,最終理解了三維世界。CV中的視頻目標跟蹤 (Video Target Tracking,VTT)技術是通過計算機不斷推斷視頻中目標位置的過程。具體來說,計算機在視頻的每一幀中定位目標,然后生成盡可能完整的目標活動軌跡。VTT技術廣泛應用于日常和軍事目的,包括視頻監控、虛擬現實(VR)、交通監控、人機交互(HCI)、公共安全等方面,具有重要的理論意義和實用價值。對目標檢測的研究,對于更好地分析球員的技術特點尤為重要。
目標跟蹤需要解決的問題是在視頻中選擇要跟蹤的目標,在下一幀視頻中找到目標的準確位置。體育賽事作為一項積極健康的大眾娛樂項目,更多的是以視頻的形式呈現,受到大眾的關注和討論。因此,體育視頻的自動分析技術變得越來越關鍵。足球視頻是一種受眾極其廣泛的體育視頻。在這些視頻中,會對球員進行追蹤和檢測。一方面,教練和球員可以根據視頻分析數據,討論整體戰術和個人技術特點;另一方面,在轉播過程中,視頻分析可以增強比賽的觀看體驗,從而滿足觀眾的需求。如果能夠利用圖像處理領域最流行的深度學習(Deep Learning,DL)算法,針對足球比賽場景設計一種魯棒的多目標檢測與跟蹤算法,得到的算法將具有很高的實用價值和意義。從2012年開始,DL技術經歷了8年的發展;目前,它已廣泛應用于CV任務,并在視覺檢測和跟蹤領域取得了巨大成功。隨著數據規模的不斷增長,基于DL的目標跟蹤算法的提出,也使得目標跟蹤領域有了更大的突破。有學者利用貝葉斯網絡推理方法,帶目標地在構造圖中尋找最優路徑。在此基礎上,通過預測位置、顏色、運動方向、選手的平均速度等,可以在短時間內解決遮擋等問題。
在目標跟蹤和檢測任務中,玩家的特征表達將直接影響目標跟蹤效果。在足球游戲中,要避免遮擋球員被不同隊伍的其他人所攻擊并造成跟蹤誤差的情況下,研究局部特征以增強目標的表達,提高跟蹤效果是很重要的。定向梯度直方圖 (Histograms of Oriented Gradients,HOG)特征最早是由法國研究者Dalal等人提出的,是為了解決人體目標檢測的問題。HOG特征是在CV和圖像處理中用于目標檢測的特征描述符。它通過計算和計數圖像局部區域的梯度方向直方圖來組成特征,在描述人體方面有很好的效果。在足球比賽視頻中,HOG用梯度或邊緣信息來描述圖像中局部目標的外觀和形狀。因此,它可以描述局部形狀信息,然后將球員從背景中區分出來。在HOG特征提取過程中,首先將其劃分為若干個小的連通區域(Cells),并統計每個像素的HOG;其次為了保證特征的光照不變性,需要在更大范圍內(Block)對局部直方圖的對比度進行歸一化處理。HOG特征提取的主要步驟如圖1所示,包括圖像歸一化(灰度和Gamma校正)、梯度計算、Cell HOG統計以及Block內歸一化;最后,生成HOG特征。為了減少光照的影響,處理光照過弱或過強的情況,需要對整個圖像進行灰度和Gamma校正的歸一化處理。在圖像的紋理強度中,局部表面曝光貢獻了更大的比例。這種處理可以有效地減少圖像中的局部陰影和光照變化。HOG特征考慮了代表邊緣和形狀特征的梯度信息。顏色幾乎沒有貢獻,可以直接轉換成灰度圖像。灰度結果表示為:(1)中,R、G、B分別表示紅、綠、藍3種原色的成分。

圖1 HOG特征提取的主要步驟
為了減少圖像中的局部陰影和照度變化,首先,需要對整個圖像進行Gamma校正,以增加或減少圖像的整體亮度。在實際操作中,可以使用兩種不同的方法進行Gamma標準化:平方根法或對數法。
計算圖像橫坐標和縱坐標的梯度,并相應計算每個像素位置的梯度方向值;差分運算不僅捕捉了輪廓、人體陰影和一些紋理信息,還削弱了光照的影響。
一般情況下,視覺輸入由相機拍攝,然后連接到計算機。攝像機可以是靜止的,也可以是動態的。計算機利用跟蹤結果執行必要的跟蹤和任何更高級別的任務。目前,基于深度學習的檢測方法已經逐漸成為圖像檢測領域的主流技術。然而,在視頻分析方面,考慮到CNN在提取圖像中高級語義方面的優異表現,除了對物體具有較強的魯棒性外,還將其作為目標檢測的基礎。雖然已經提出了端到端的學習方法,但是R-CNN系列模型作為一種基于區域提議(Region Proposal,RP)的目標檢測算法,對于深度學習目標檢測有著極其本質的價值。R-CNN算法的總體思路是利用選擇性搜索(Selective Search,SS)算法在輸入圖像中獲取2000個獨立的RP;然后通過CNN提取每個固定RP中的目標特征;最后利用支持向量機(Support Vector Machine,SVM)算法進行目標分類。利用CNN強大的特征提取能力,提高目標檢測的性能。雖然通過SS算法可以直接獲得2000個RP,但由于每個RP都需要卷積,會造成大量的工作負載。測量發現,通過R-CNN模型完成對圖像的識別需要47s,在實時性方面存在較大的劣勢。在此基礎上,Fast-RCNN算法顯著縮短了模型訓練和測試的時間,圖像識別的整體時間減少到1s以下。Fast-RCNN算法的優化表現在在歸一化過程中利用了ROI Pooling方法,可以保證提取的特征向量具有相同的維數,從而使RP的失真較小,同時有效保留了RP的主要特征。此外,Fast-RCNN在CNN上進行了分類和回歸。R-CNN算法返回邊界信息再對信息進行分類的過程相比,這使得整個訓練過程無需額外存儲。隨著R-CNN系列模型的發展,基于視覺幾何組16(Visual Geometry Group 16,VGG16)的fast-rcnn算法只需要進行一次具有多個共享卷積層的卷積計算,即可獲得RP及其邊界。在fastrcnn算法中,首先通過conv層提取圖像特征,得到特征圖。然后,通過區域建議網絡 (Regional Proposal Network,RPN)層生成Rps,通過興趣區域(Region of Interest,ROI)池化層完成歸一化過程。輸出固定大小的提議特征圖并發送到全連接層,在全連接層中完成目標RP的計算,獲得目標最終的精確位置。而對于足球比賽視頻中球員目標的檢測,原來的Faster R-CNN(FRCN)算法是不適合小目標。因此,會出現漏檢的情況。因此,有必要對算法進行改進。
當探測器在足球比賽視頻的每一幀中檢測到目標時,目標跟蹤問題可以看作是現有軌跡集與新檢測到的目標之間的匹配問題。在跟蹤球員的過程中,首先需要通過CNN對圖像進行實時檢測,以獲取目標集。在第一次檢測到每個目標時,初始化其狀態向量,并表示為四維列向量xk:

圖2 多尺度特征提取算法

(1)中,x,y 表示目標的位置信息 |(vy)|,vx,vy 表示目標的速度信息。由于在視頻中只能檢測到目標的位置信息,x.k初始化為(x0y0),目標的觀測向量可表示為zk=(x,y)T。由于視頻中相鄰幀之間的時間間隔約為30 ms,因此可以將目標的運動近似為均勻線性運動。
綜合考慮目標的運動特征和檢測特征后,構造t?1時刻設定的軌跡與t時刻設定的目標之間的相似矩陣。相似矩陣表示新檢測到的目標與現有運動軌跡中的目標之間的相似度,并表示出來

(2)Tt-1表示在t-1和D時刻設置的軌跡t表示t時刻設置的檢測目標。
在構建相似矩陣后,利用匈牙利方法求解數據關聯問題。為了避免誤關聯,設置了相似度閾值。如果軌跡與按照匈牙利方法分配的探測目標之間的相似度低于設置的閾值,則不進行關聯。如果在軌跡集或目標檢測集中仍然存在不相關的元素,則認為該目標被遮擋、消失或新增。比較復雜的目標遮擋問題在這里進行分析。
足球比賽中的目標遮擋包括部分遮擋和完全遮擋。如果目標被部分遮擋(玩家B遮擋玩家A),探測器將兩個目標作為一個目標進行探測。此時,檢測到的特征信息包括2個目標,因此A和B的軌跡可能是相關的,最終會導致一個目標的軌跡存在,另一個目標軌跡消失。如果目標被完全遮擋(參與人B幾乎完全遮擋參與人A),探測器就會智能檢測到一個目標(參與人B),參與人A就會消失。對目標的部分遮擋會導致對目標的漏檢。當出現這種情況時,檢測結果可以通過已有的軌跡信息進行校正,滑動窗口可以將新目標分離并添加到軌跡集合中。

圖3 目標遮擋后的分離算法流程
隨著計算機技術的發展,對足球比賽視頻分析技術的性能要求不斷提高。在目標跟蹤和檢測領域,已經挖掘和應用了很多算法,這對目標跟蹤很有幫助。但考慮到在足球比賽中,傳統的目標跟蹤方法無法滿足比賽視頻目標跟蹤的要求,由于場地、運動模式等因素的影響,需要進行優化。DL技術的發展對目標檢測具有重要意義。因此,在這里將其與目標檢測結合起來。首先,討論了R-CNN模型系列的應用,改進了FRCN模型在小目標檢測方面的缺陷。對FRCN算法進行了優化,并在數據集OTB2013上測試了準確率和成功率。結果表明,優化后的FRCN算法的目標跟蹤精度達到89.1%,目標跟蹤成功率達到64.5%,運行幀率保持在25fps左右。目標跟蹤的準確性超過了用來完成再檢測任務的SINT算法。為了更有效地測試所提出的玩家軌跡提取算法的性能,在公共數據集上測試了玩家軌跡提取的效果。在80個運動軌跡上,優化后的FRCN算法的優點是平均檢測結果更好,每個軌跡的檢測結果波動不大。在正常情況下,FRCN算法在大多數幀中都不會丟失目標。但是,隨著重疊的增加,它的AUC迅速下降,這可能與基于dl的非尺度檢測器有關。在目標被遮擋的情況下,與其他算法相比,優化后的FRCN算法的AUC下降幅度較小。綜上所述,基于DL技術的優化FRCN算法能夠更好地跟蹤足球比賽視頻中的球員目標,并且對于球員互相遮擋的情況具有魯棒性。由于沒有討論不同球隊球員遮擋情況下的目標跟蹤問題,因此存在一定的局限性,未來將加以改進,以便更好地利用深度學習現代技術分析足球比賽中球員的技術特點,優化觀眾體驗,帶動源自足球的經濟產品的發展,促進足球運動的傳播推廣。