黎明
(四川文理學(xué)院,體育學(xué)院, 四川,達(dá)州 635000)
衡量球員的標(biāo)準(zhǔn)往往是依據(jù)他的數(shù)據(jù),例如每場比賽的得分和籃板[1-2],然而這些指標(biāo)并不能反映出教練可能想要用來評估他在未來球隊中的潛在影響的每一個方面。教練和球探們渴望通過觀看一個籃球運(yùn)動員的大量籃球視頻來捕捉他能力的每一個細(xì)微差別,因此在青訓(xùn)中,尋找最佳球員的任務(wù)變得更具挑戰(zhàn)性,成本更高,勞動強(qiáng)度也更大。更重要的是,這些衡量標(biāo)準(zhǔn)都是基于個人的主觀評價。更主要的是,目前用于自動評估運(yùn)動員在特定運(yùn)動中表現(xiàn)的計算模型方面進(jìn)展有限[3-5]。所以,為了解決以上問題,本文提出了一種基于第一人稱的籃球運(yùn)動員評估方法(BPA),該方法首先使用卷積LSTM[6]從第一人稱視頻中檢測元籃球事件。這些元事件通過高斯混合產(chǎn)生一個高度非線性的視覺時空籃球評估特征。最后,通過最小化一個鉸鏈損失函數(shù),從標(biāo)記的第一人稱籃球視頻中學(xué)習(xí)籃球評估模型,從而實現(xiàn)對球員的評估。
在這里使用第一人稱視頻定義球員評估指標(biāo),具體如式(1):
(1)


圖1 評估預(yù)測的框架
這里的第一個目標(biāo)是使用第一人稱籃球視頻來建立一個強(qiáng)大的特征表示,可以用于有效的球員的表現(xiàn)評估。從第一人稱籃球視頻中識別出3個與構(gòu)建這種表現(xiàn)形式相關(guān)的關(guān)鍵挑戰(zhàn):①提出的系統(tǒng)需要處理嚴(yán)佩戴攝像頭的人的頭部運(yùn)動;②需要根據(jù)其原子事件來解釋籃球表現(xiàn);③這里的特征表示對于球員的性能預(yù)測任務(wù)必須具有高度的區(qū)分性。
為了解決這些問題,建議將分段視頻的視覺特征Vt表示如式(2):
?(Vt,x)=fgm(fevent(fcrop(Vt),x))
(2)
其中,fcrop是一個函數(shù),它通過放大重要區(qū)域生成裁剪的視頻來處理嚴(yán)重的攝像機(jī)佩戴者的頭部運(yùn)動,fevent是一個計算元籃球事件概率的函數(shù),fgm是一個高斯混合函數(shù),它計算視頻的高度非線性視覺特征。
1.1.1 縮放
fcrop的一個關(guān)鍵特性是能夠縮放到相關(guān)像素,這使得學(xué)習(xí)一個有效的視覺表現(xiàn)來進(jìn)行籃球成績評估。使用這種區(qū)域性的裁剪,將第一人稱視頻的不穩(wěn)定的影響降到最低,這會導(dǎo)致視覺數(shù)據(jù)的更大變化。在實驗部分,證明在提出的模型中使用fcrop可以大大提高預(yù)測性能。因此,最初處理第一人稱視頻以生成裁剪視頻:
(3)

通過使用完全卷積網(wǎng)絡(luò)學(xué)習(xí)wcrop來預(yù)測裁剪窗口的中心[5]。為了做到這一點(diǎn),通過訓(xùn)練網(wǎng)絡(luò)來預(yù)測球的位置,這通常是大多數(shù)球員看到的地方。對于視頻中的每一幀,計算XY位置坐標(biāo)的加權(quán)平均值,然后在該加權(quán)平均位置周圍裁剪一個固定大小的面片。
1.1.2 元籃球事件檢測
為了建立元籃球事件的可解釋性表征,分別預(yù)測了身體投籃、持球者持球、投籃命中的籃球事件。注意,裁剪后的視頻聚焦于籃球及其視覺環(huán)境,這樣可以更有效地學(xué)習(xí)每個元事件的視覺語義。為此,使用一個多路徑卷積LSTM網(wǎng)絡(luò),其中每個路徑預(yù)測其各自的元籃球事件。可以注意到,這樣的多路徑架構(gòu)是有益的,因為它允許每個路徑專注于學(xué)習(xí)單個元籃球概念。相比之下,可以觀察到用單一路徑訓(xùn)練一個類似的網(wǎng)絡(luò)并不能對所有三個元事件產(chǎn)生準(zhǔn)確的預(yù)測。給定一個裁剪過的視頻,提出的多徑網(wǎng)絡(luò)被聯(lián)合訓(xùn)練,從而最小化交叉熵?fù)p失,如式(4):
(4)


將4個籃球事件預(yù)測在時間維度上分成兩半,并對8個區(qū)塊中的每一個進(jìn)行時間最大池化。然后將所有合并值串聯(lián)成一個矢量bt,如式(5):
(5)
1.1.3 高斯混合
為了建立一個有區(qū)別但可以概括的表示,構(gòu)造了一個高度非線性的特征,它可以很好地與線性分類器一起工作。為了實現(xiàn)這些目標(biāo),使用高斯混合,將元籃球事件特征轉(zhuǎn)化為復(fù)雜的籃球評估特征。形式上,給定Ts上的向量bt,計算給定視頻片段的視覺時空評估特征如式(6):
(6)

在后面章節(jié),將根據(jù)前職業(yè)籃球運(yùn)動員對運(yùn)動員的比較評估,得出式(1)中的線性權(quán)重w。盡量減少以下鉸鏈損耗,如式(7):
(7)


圖2 學(xué)習(xí)框架說明
對于所有涉及CNNs的實驗,在這里使用了Caffe庫。這兩個網(wǎng)絡(luò)都基于DeepLab[7]的架構(gòu),經(jīng)過4 000次迭代訓(xùn)練,學(xué)習(xí)率為10-8,動量為0.9,權(quán)重衰減為5×10-5,每批30個樣本。元籃球事件網(wǎng)絡(luò)內(nèi)部的LSTM層在視頻輸入中跨越了10個連續(xù)幀。元籃球事件網(wǎng)絡(luò)中的每個路徑由2個1 024維的核,大小為1×1的卷積層和1個1 024維的LSTM層組成。網(wǎng)絡(luò)使用標(biāo)準(zhǔn)數(shù)據(jù)擴(kuò)充進(jìn)行訓(xùn)練。為了學(xué)習(xí)權(quán)重w,使用了0.001的學(xué)習(xí)率,并進(jìn)行了100次迭代的梯度下降優(yōu)化。
數(shù)據(jù)集由48.3小時的籃球運(yùn)動員組成,每段視頻約13分鐘長,由GoPro Hero 3黑色版安裝頭條拍攝。它的記錄速度為1 280×960,每秒100幀。在這兩天里,錄制了48段視頻,每天都有不同的人在播放。使用前24個視頻作為訓(xùn)練和后24個視頻作為測試。這里以每秒5幀的速度提取視頻幀,得到98 452幀用于訓(xùn)練,87 393幀用于測試。
在這請一位籃球球員根據(jù)一些第一人稱視頻來標(biāo)注哪個球員表現(xiàn)更好。總共使用500對,250對用于訓(xùn)練,250對用于測試。注意,在訓(xùn)練和測試之間沒有球員重疊。
將3個簡單的籃球項目列為:①有人投籃;②持球者持球,③投籃命中。這些是推動籃球比賽的關(guān)鍵元事件,分別為這三個事件獲得了3 734、4 502和2 175個注釋。
此外,為了訓(xùn)練一個球探測器,在5 073張圖像上標(biāo)記一個球的位置,只需點(diǎn)擊一次這個位置。在這些位置周圍放置一個固定大小的高斯函數(shù),并將其用作基本真實性標(biāo)簽。在這里通過手動檢查與最大籃球評估模型權(quán)重w相關(guān)的高斯混合體對籃球活動進(jìn)行可視化。
圖3中每行描述一個單獨(dú)的事件,每列說明事件的時間推移(從左到右),從圖中可知,2個最正的高斯混合分別對應(yīng)于一個球員的2分球和3分球(前兩排),而最負(fù)權(quán)重的混合體捕捉了一個球員錯過2分球(最后一行)的事件。

圖3 多個籃球活動的檢測
3.1.1 元籃球事件檢測
在表1中,首先說明元籃球事件檢測任務(wù)的結(jié)果。根據(jù)最大F分?jǐn)?shù)(MF)度量,對預(yù)測的元事件概率進(jìn)行小間隔閾值化,然后計算精度和召回曲線。首先,將模型的預(yù)測與最近的幾個第一人稱活動識別baseline[9-11]以及成功的視頻活動識別baseline C3D[8]進(jìn)行比較。得出結(jié)果:對于每個元事件,提出的模型都優(yōu)于所有這些baseline。

表1 數(shù)據(jù)集上定量檢測的結(jié)果
此外,為了證明提出的模型的設(shè)計選擇,在表1中還包括了幾個實驗,研究了多路徑體系結(jié)構(gòu)、LSTM層和放大方案的效果。實驗表明,這些組件中的每一個都是實現(xiàn)元事件識別精度的關(guān)鍵,也就是說,當(dāng)這三個組件都包含在模型中時,系統(tǒng)達(dá)到了最佳的性能。
3.1.2 籃球評估結(jié)果
在表2中,展示了對測試數(shù)據(jù)集中的24名籃球運(yùn)動員的評估結(jié)果。為了檢驗方法的準(zhǔn)確性,對250對有標(biāo)簽的球員進(jìn)行了評估,其中籃球?qū)<姨峁┑臉?biāo)簽表明球員中哪一個更好。對于每個球員,本文的方法產(chǎn)生一個評估指標(biāo),指出哪個球員更好(越高越好)。為了獲得準(zhǔn)確度,計算了所有250對中正確預(yù)測的分?jǐn)?shù)。
由于目前還沒有相關(guān)研究,因此對于這項任務(wù),沒有現(xiàn)成的基準(zhǔn)。因此,將以下baseline列表作為比較。
首先,包括2個籃球活動baseline:2分球和3分球。實驗中標(biāo)記數(shù)據(jù)集中發(fā)生這些活動的所有實例,并發(fā)現(xiàn)大約100個這樣的實例。請注意,如此少的實例并不是數(shù)據(jù)集的缺陷,而是本文任務(wù)的固有特性。這類籃球活動屬于長尾數(shù)據(jù)分布,很少發(fā)生,因此很難訓(xùn)練有監(jiān)督的分類器進(jìn)行這類此外,為了證明在模型中提出的每個組成部分的合理性,在表2中還包括幾個ablation baselines。首先,研究了高斯混合(GM)和權(quán)值的學(xué)習(xí)過程對能力評估準(zhǔn)確性的影響,在這里用本文預(yù)測的和真實的元事件來做這件事。實驗表明,在這兩種情況下提出的每一個組成部分都是有益的。此外還觀察到提出的方法對元事件識別錯誤具有很強(qiáng)的魯棒性,當(dāng)使用基本真實元事件時,其準(zhǔn)確度僅比原始模型提高2.8%。

表2 BPA評估結(jié)果
活動識別。然后,將LRCN[12]模型訓(xùn)練為2分投籃探測器,3分投籃探測器。由于訓(xùn)練數(shù)據(jù)量很少,在所有情況下,網(wǎng)絡(luò)都嚴(yán)重過度擬合訓(xùn)練數(shù)據(jù),沒有學(xué)習(xí)到任何有意義的模式.
當(dāng)從系統(tǒng)中移除四個元事件中的一個時,實驗也給出了性能評估結(jié)果。實驗表明,當(dāng)使用所有四個元事件時,提出的方法執(zhí)行得最好,這表明每個元事件都是有用的。最后,作為兩個額外的baseline,在這里手動選擇2個權(quán)重最大的高斯混合體,并獨(dú)立使用它們的每一個預(yù)測(在表2中表示為單個GM-top1,2)。因此可以證明,本文的完整模型優(yōu)于所有其他基線,因此提出的模型中的每一個組成部分對于準(zhǔn)確地評估球員表現(xiàn)至關(guān)重要。
3.2.1 BPA實際評估結(jié)果
此外,在圖4中,還包含了評估模型如何隨時間變化的更動態(tài)可視化。為了做到這一點(diǎn),隨機(jī)選擇4對籃球運(yùn)動員,提出的模型隨著時間的推移評估每個球員。每對中的紅色圖表示更好的選手,而藍(lán)色的圖則表示較差的選手。圖中的y軸說明了對球員第一人稱視頻中特定時間發(fā)生的事件的預(yù)測性能度量。
此外,在圖5中,還包括了一些短序列的例子,說明了一個球員的行為對他/她的能力評估貢獻(xiàn)最大與對他/她的能力評估貢獻(xiàn)最大的行為。通過選擇第一人稱視頻序列來選擇這些動作序列,第一人稱視頻序列在式(1)的總和中具有最大的正負(fù)值(這也對應(yīng)于圖4中的正負(fù)峰)。這些術(shù)語描述了每個視頻片段對整個籃球技能評估指標(biāo)的貢獻(xiàn)。在圖5(b)中,負(fù)面事件定義為投籃不進(jìn)。

圖5 BPA模型檢測的結(jié)果

圖4 隨機(jī)4名球員的評估結(jié)果
需要指出的是,將這些結(jié)果包含在圖像格式中是相當(dāng)困難的,因為圖像是靜態(tài)的,它們無法捕獲視頻的全部內(nèi)容且與原始的480×640視頻相比,論文中的圖像以非常低的分辨率出現(xiàn),這使得更難理解什么是事件在這些圖像中描繪的。
3.2.2 對特征表示的理解
高斯混合會產(chǎn)生高度非線性的特征表示,為了更好地了解它所代表的內(nèi)容,分析學(xué)習(xí)到的權(quán)重w,然后手動檢查與w中最大量級權(quán)重相關(guān)聯(lián)的高斯混合。這樣做后,發(fā)現(xiàn)當(dāng)佩戴相機(jī)的人分別拍攝2分和3分時,具有最大正權(quán)重的2個混合體學(xué)習(xí)捕捉籃球活動。相反,具有兩個最負(fù)權(quán)重的混合體表示相機(jī)錯過2分鏡頭的活動,以及相機(jī)佩戴者的防守者分別進(jìn)行拍攝的活動。在圖3中,包含了與這些發(fā)現(xiàn)的活動相對應(yīng)的幾個序列。
本文介紹了一個籃球評估模型,從一個球員的第一人稱籃球視頻中評估他/她的表現(xiàn)。研究表明,可以從第一人稱視頻中學(xué)習(xí)到強(qiáng)大的視覺時空評估特征,然后利用這些特征從弱標(biāo)記的第一人稱籃球視頻中學(xué)習(xí)提出的技能評估模型。結(jié)果證明,盡管不知道他人的評估標(biāo)準(zhǔn),但提出的模型能夠準(zhǔn)確地評估球員。此外,使用提出的模型可以發(fā)現(xiàn)相機(jī)佩戴者對其能力評估有積極或消極影響的活動。