張欣欣, 郭 純, 郭 真, 左 鑫
(1. 海南師范大學 體育學院, 海口 571158; 2. 湖南大學 體育學院, 長沙 410012; 3. 湖南理工學院 體育學院, 湖南 岳陽 414006)
體育成績的建模與預測,不但可以指定鍛煉計劃[1],還能夠增加鍛煉效率[2].一般來說,對體育成績的建模與預測將一定時間段內的體育成績數據看作是時間序列數據,可采用多元線性回歸對其完成非線性建模,通過計算預測參數對某個個體的體育成績進行估計[3].為了解決傳統方法在體育成績預測中的缺陷,近年來快速發展的模糊理論和灰色理論成為了研究熱點[4],灰色預測過程可以看作是一個黑盒子,雖然對普通大眾部分不規則的體育成績預測有良好效果,但是預測結果缺乏一定的解釋性[5].此外,機器學習模型也逐漸引用至體育成績預測過程中,相比于傳統計算模型,機器學習模型能夠通過自組織、非線性的方式從已有體育成績數據中學習出映射關系,獲得精準的成績預測結果,同時還有較強的解釋性[6].
目前為止,傳統機器學習體育成績預測方法已經無法面對海量的大數據[7].為了解決海量數據背景下的體育成績預測問題,本文在GM(1,1)模型和GOM模型基礎上提出了一種改進的等維動態GOM模型提取體育成績時間序列中的灰度特征,并構建深度卷積神經網絡完成對體育成績時間序列的回歸與預測,獲取更精確、穩定的體育成績預測.
經典的灰度預測特征模型為GM(1,1)模型[8]和GOM模型[9],通常情況下,隨著時間序列長度的增加,當預測的時刻越遠時,灰度特征區間越大,相應的預測精度也會降低.不同的預測問題將會有不同的區間范圍選擇,為了使體育成績預測獲得最優化的灰度特征預測區間,引入等維動態GOM灰度特征模型進行預測區間構建[10],該模型的構建步驟如下:

3) 再次將新的預測值加入到時間序列數據中,并重復步驟2),直到預測的特征能夠達到預測目標或滿足給定的精度要求后停止.
目前為止,體育成績數據量大且體育科目分布廣泛,采用機器學習模型通常無法解決海量灰度特征分析.因此,本文引入深度卷積神經網絡(convolutional neural networks,CNNs)模型完成對日益增長的體育成績數據及提取的灰度特征進行識別與回歸[11].圖1給出了本文體育成績灰度特征分析的CNNs模型.
從圖1中可以看出,整體深度CNNs由5層網絡組成,每層網絡的詳細設計如下:

圖1 體育成績灰度特征分析的CNNs模型Fig.1 CNNs model for analysis of gray scale features of sport performance
第一層(L1):輸入層輸入的GOM主變量樣本大小為[28×60].
第二層(C2):第一個卷積層的作用是實現縱向的空間濾波用于提取體育特征的灰度空間特征.空域特征的卷積核大小為[28×1],卷積輸出的特征圖大小為[1×60],卷積核采用向量卷積方式.
第三層(C3):第二個卷積層的作用是實現橫向的時間域濾波用于體育成績的時域特征,使用了5組橫向濾波器,產生40個空域上的特征圖.
第四層(F4):第一個全連接層用于將兩層卷積產生的40個特征圖進行合并,由于一共產生了240個輸出結果,用100個神經元作為過渡,將產生的特征降維.
第五層(O5):第二個全連接層也是輸出層,將降維后的時域特征和灰度空間特征進行分回歸,獲得回歸后的體育成績預測值.
在訓練過程中,設置訓練的最大次數為10 000次,并根據誤差產生的loss曲線判斷網絡是否收斂,作為迭代的終止標準.
對于體育成績X0及其相應的影響因子X1,X2,…,Xp,假設存在N個時刻的真實數據,現在需要預測第n+1,n+2,…時刻的體育成績值,基于融合模型的體育成績預測算法構建步驟如下:
1) 根據動態影響因素模型計算出關于體育成績量的時間序列,并按照關聯順序進行排序,假設排序后的指標為X1,X2,…,Xp,其中,p為篩選后的指標個數.
2) 根據體育成績影響因素構建的等維動態GOM模型,對各個影響因子分別預測第n+1,n+2,…時刻的體育成績值,加入預測值后的影響因子向量,采用X1,X2,…,Xp來表示.
3) 根據數據特征選定出影響因素范圍[L,H],L和H均為正整數,且L≥1,H不超過樣本個數.
4) 設置閾值范圍Lmin,選擇前L個影響因子經過主成分分析算法生成主成分,假設獲得的前M個主成分的得分為F1,F2,…,Fm,對應的荷載因子為μ1,μ2,…,μm.
5) 將相同年份的F1,F2,…,Fm與X0的時間序列數據值歸一化至[-1,1],并劃分為訓練集和測試集,將N個樣本劃分為n1個訓練集樣本,n2個測試集樣本.
6) 構造如圖1所示的深度CNNs模型.
7) 將測試集輸入至訓練好的BP網絡中,計算網絡的預測值與真實值之間的平均相對誤差e1,其中,e1為擬合誤差.
8) 根據等維動態GOM模型計算出各個影響因子在n-n2,n-n2+1,…,n年的預測值和相應的荷載因子μ1,μ2,…,μm,計算出各個主成分F1,F2,…,Fm對應年份的體育成績值,并將體育成績歸一化至[-1,1],輸入至已經訓練好的CNNs中,計算網絡預測值與實際值之間的平均相對誤差e2,其中,e2為綜合誤差,包括了等維動態GOM模型的預測誤差和CNNs的擬合誤差,作為評價算法的最終指標.
9) 將F1,F2,…,Fm在n+1,n+2,…年的預測值歸一化后輸入至已訓練好的CNNs中,再將網絡的輸出值進行逆歸一化,即可獲得在n+1,n+2,…時刻體育成績的預測值.
為了驗證本文提出算法的可行性與有效性,從網絡上抓取百米賽跑體育成績為研究目標,分別記錄百米賽跑每秒成績達標的人數,在12~20 s的時間段內分別記錄體育成績達標人數.在數據采集過程中,滿足橫向平等的比較原則,且收集數據均來自我國各大賽事的網絡成績公布結果.
在灰度預測特征的對比實驗中,采用網絡收集到的數據,構建了GM(1,1)模型,將GOM模型和等維動態GOM模型進行灰度預測特征對比.表1給出了12~20 s內百米賽跑達標人數體育成績結果.

表1 12~20 s內百米賽跑達標人數體育成績結果Tab.1 Sport performance results of qualified person number with completion time from 12 s to 20 s in 100-metre race
根據灰度預測特征模型的構建過程,可以計算出
28 764,34 531,47 341)
根據GM(1,1)模型和GOM模型的構建過程,可計算出模型中的發展系數a和常數b以及平移值c,結果如下:a=-0.165 37,b=13 823.47,c=17 947.38,由此獲得百米賽跑體育成績達標人數的預測模型,即
GM(1,1)模型:
GOM模型:
采用這兩個模型擬合并預測20 s后百米賽跑體育成績達標的人數.表2為對比的預測結果.

表2 GM(1,1)模型與GOM模型的擬合結果比較Tab.2 Comparison of fitting results between GM(1,1) and GOM models
由表2可以看出,在GM(1,1)模型下,誤差絕大部分都大于10%,有些甚至會高于20%,擬合的精度也較小,不高于75%.結果表明,GM(1,1)模型能夠適用于體育成績達標人數的預測,但是預測的精度偏低.相反,在GOM模型下的誤差均沒有超過10%,且擬合精度高于95%,遠比GM(1,1)模型高,在條件數的比較上也可以看出,GOM模型比GM(1,1)模型擁有更好的穩定性和魯棒性.
另外,本文還比較了GM(1,1)模型、GOM模型和等維動態GOM模型預測5、10、15、21和22 s內的百米賽跑體育成績達標人數預測結果.表3為三種灰度特征提取模型的對比預測結果.

表3 三種灰度特征提取模型的對比預測結果Tab.3 Comparison and prediction results by three extraction models for gray scale features
比較三個模型的預測結果可以看出,GM(1,1)模型的平均預測精度小于90%,而GOM模型和等維動態GOM模型的預測精度均大于95%,取得了更為優秀的體育成績達標人數預測結果.無論是21 s內還是22 s內的預測結果,等維動態GOM的預測精度均高于GOM模型.因此,經過白化過程,可以使得灰度預測特征提取模型獲得更好的預測結果和更高的預測精度.
在體育成績的預測上,采用20 s內的64 029個百米跑的成績完成模型訓練.針對21 198個樣本,將其中的60%樣本作為訓練集,20%作為驗證集,剩下的20%作為測試集.通過圖1定義的CNNs完成對訓練集的訓練,并通過測試集完成對已經訓練好的體育成績預測模型的測試.為了可視化測試結果,圖2給出了測試難度最大的500個樣本.

圖2 測試難度最大體育成績預測結果Fig.2 Prediction results of sport performance with maximum difficulty
從圖2中的結果可以看出,經過CNNs的預測,百米跑成績預測結果與真實結果差距較小,算法精度較高,誤差變化區間比較窄,二者之間的誤差幾乎可以忽略不計.該結果驗證了CNNs對體育成績時間序列預測的可行性與有效性,預測結果良好,并且整體的預測誤差較小.
為了橫向比較本文提出的CNNs性能,采用相同數量的訓練集、驗證集和測試集,分別比較本文算法與當前主流算法.圖3為百米跑體育成績預測平均精度對比結果.從圖3中的對比結果可以看出:1)多元線性回歸對于百米跑體育成績預測精度最低,該模型不能反映普通大眾的體育成績變化特點,構建出的預測模型誤差較大,在大群體數據的預測中幾乎沒有應用價值.2)遺傳算法和粒子群算法等群智能算法結果優于多元線性回歸,但是此類算法更適合小樣本的數據分析,對于海量樣本的體育成績預測結果不理想.雖然獲得了較為不錯的平均預測精度,但是在極個別特殊情況下的體育成績預測效果一般.3)本文提出的CNNs屬于深度學習模型,該模型在海量數據樣本中的識別能力較強,綜合圖2、3中的結果可以看出,深度CNNs擁有海量的權重和閾值完成對特殊情況的預測,因此,不論是整體預測的平均精度還是特殊極端結果的預測都獲得了良好的效果,更適合體育成績時間序列數據的預測.

圖3 百米跑體育成績預測平均精度對比結果Fig.3 Comparison results of average accuracy for sport performance prediction in 100-meter race
通過改進的等維動態GOM模型,在體育成績達標人數預測中取得了最優預測結果.在體育成績預測中,本文提出的CNNs超越了傳統的多元線性回歸、遺傳算法和粒子群算法,不但在平均預測精度上取得了最好的效果,而且在極端數據的成績預測中也獲得了最佳的結果,預測值與真實值之間的誤差可忽略.今后的工作集中在構建更精確的深度模型,從海量大數據中提取更精確的灰度預測特征,對體育成績和達標人數完成更為精確的預測.