李嚴, 楊改紅
(西安交通大學城市學院, 體育部, 陜西, 西安 710018)
精準估計運動員成績,可為其制定更加完善的訓練規劃,確保運動員在比賽中獲取更好的成績[1],因此估計運動員成績顯得格外重要。最初的運動員成績估計方法為教練通過統計學方法對運動員成績實施計算與估計,但教練不可能考慮到影響運動員成績的全部因素,且計算過程較為繁瑣,運動員成績估計效率低,不能滿足現代運動員訓練的要求[2]。
文獻[3]提出最小二乘支持向量機和預測誤差校正的運動員成績預測模型。首先通過提升小波和最小二乘支持向量機對運動員成績進行建模和預測;然后通過誤差校正方式對運動員成績的預測結果進行校正;最后通過運動員成績預測實例對模型的有效性進行測試。結果表明,所提模型通過誤差校正提高了運動員成績預測結果的穩定性。文獻[4]提出基于混沌理論和機器學習算法的運動員成績預測模型。對運動員成績數據進行分析,根據混沌理論提取運動員成績的變化特點,利用神經網絡構建成績樣本分析模型,通過粒子群算法優化神經網絡模型參數。結果表明,該模型可有效提高預測結果的準確度。文獻[5]提出了一種復雜的以無針對性的模型,分析了田徑短跑運動員的不同測試和變量,結合了數學和計算模型來分析跑步鍛煉條件下的人體測量學、生物力學和生理學相互作用。通過復雜的網絡和數學輸出相關的運動測試確定在跑步過程中的重要因素。上述方法僅從運動員外部影響的角度對其成績進行預測,并且預測結果僅體現了整體變化趨勢。
為此,本文提出基于大數據分析技術的運動員成績建模與估計方法,為運動員可以得到更好的發展提供數據支持。
1.1.1 損失函數
利用大數據分析技術可以預測未來,通過數據角度分析特征間的關系獲取更深層次的數據分析方法[6]。該技術主要利用機器學習技術實施歸納推理數據,在運動員成績相關數據內獲取潛在的模式,實現運動員成績估計。在機器學習技術中,計算過程較為簡便的是支持向量回歸機算法[7]。為實現支持向量回歸機計算的最優化,首先計算最小化損失函數,計算方法如式(1):
(1)
式中,預期設定的輸出結果為a,真實的輸出結果為b。為獲取回歸函數y的最優估計值,降低估計值計算中的誤差,采用經驗風險最小化原則進行計算。由于在出現異常點時,會對最小二乘估計器的運算產生較大影響,因此需要一種魯棒性較強的估計器。估計器設計目標是魯棒性,針對全部魯棒性的數值度量一定要考慮受微小噪聲模型的一個偏差ε形成的最大性能退化。因此,回歸計算過程中,將絕對誤差當作被最小化的值,即損失函數的具體形式如式(2):
L(a,b)=|a-b|
(2)
1.1.2 支持向量回歸機
輸入空間內已定的運動員歷史成績訓練集是T={(x1,y1),(x2,y2),…,(xl,yl)}?Rd×R,其中xi為第i個運動員歷史成績學習樣本的輸入值,yi∈R屬于相應的目標值。在高位特征空間內,組建最優線性函數公式如式(3):
f(X)=WTφ(X)+|a-b|
(3)
式中,權重為W,偏置項為b,線性函數為φ(X)。
依據式(2)損失函數的擴展建立實值函數支持向量回歸機,如式(4):

(4)
式中,指定參數為ε,損失函數Lε(d,y)也叫ε-不敏感損失函數。

(5)
式中,不敏感損失函數參數ε>0,正則化參數C屬于控制超過誤差范圍的學習樣本的懲罰程度。

由于支持向量回歸機無法對原始問題進行求解計算,因此通過計算支持向量回歸機的對偶問題以獲取模型參數的最優解[10]。采用Lagrange乘子方法,依據核函數方法獲取支持向量回歸機的Wolfe對偶規劃形式:
(6)
由求解支持向量回歸機的對偶問題獲取原始問題的解,建立決策函數。如果目標函數式(6)中的內積φ(xi)·φ(xj)由K(x,x′)替換,那么可獲取ε-支持向量回歸機算法。獲取式(6)的最優解α(*)后,僅有少數參數(α*-α)不等于零,與其相應的xj就是問題范圍內的支持向量[11]。由學習獲取回歸估計函數:
(7)
式中,N為運動員成績訓練集數量。
利用粒子群優化算法優化支持向量回歸機訓練時的各個參數,獲取最優參數[12],利用最優參數提升運動員成績建模與估計的準確性。粒子群優化算法內的各個優化問題的解均屬于搜索空間內的一只鳥即粒子[13],在搜索空間內按照一定的速度飛行,通過自身的飛行經驗與同伴的飛行經驗動態更改飛行速度[14],各個粒子的坐標是Qm=(qm1,qm2,…,qmD),各個粒子的飛行速度是Vm=(vm1,vm2,…,vmD),各個粒子均存在一個通過優化目標函數獲取的適應值[15],針對第m個粒子,該粒子經過的歷史最好位置是Pm=(pm1,pm2,…,pmD),即個體極值pbest;整個群體內全部粒子獲取的最好位置是Pg=(g1,g2,…,gD),即全局極值gbest。粒子是通過個體極值與全局極值持續調整自身的速度與位置,迭代k次粒子的飛行速度與位置:

(8)
式中,在區間[0,1]內的隨機數是r1與r2,權重因子是z1與z2,慣性權重函數是ω。
基于大數據分析技術的運動員成績建模與估計的工作流程如圖1所示。

圖1 運動員成績建模與估計工作流程圖
大數據分析技術的運動員成績建模與估計步驟如下。
(1) 采集運動員成績的歷史數據,對運動員的歷史數據進行處理獲取運動員成績范圍:
(9)
式中,運動員成績的最大值是xmax,運動員成績的最小值是xmin。
(2) 利用粒子群優化算法優化支持向量回歸機各參數。
(3) 按照各組參數對運動員成績進行訓練,通過支持向量回歸機實施學習。
(4) 若迭代次數大于已設置的最大值,則結束算法;若迭代次數小于已設置的最大值,則調整粒子群的飛行速度與位置。
(5) 增加粒子群優化算法的迭代次數。
(6) 通過支持向量回歸機的最優參數重新訓練運動員成績,通過最優解pbest與gbest獲取支持向量回歸機的最優參數。構建基于支持向量回歸機的運動員成績估計模型。
(7) 通過運動員成績測試樣本對運動員成績估計模型的性能實施測試與分析,輸出最終運動員成績估計結果。
以某校運動員為實驗對象,該校包含100 m跑、馬拉松、田徑、游泳、舉重與三級跳遠等多種類型的運動員。首先以三級跳遠為例,對三級跳遠運動員成績實施測試,共包含200名三級跳遠運動員成績。其中前100個數據當作訓練樣本利用所提方法構建運動員成績估計模型,其余100個數據當作測試數據,200名三級跳遠運動員成績歷史分布如圖2所示。

圖2 跳遠成績歷史分布圖
利用所提方法估計100名三級跳遠運動員的成績,估計結果如圖3所示。根據圖3可知,所提方法能夠有效估計100個三級跳遠運動員的跳遠成績,且與實際三級跳遠運動員的成績差距較小。實驗證明:所提方法能夠精準估計運動員成績。

圖3 估計結果
為測試所提方法的準確性與估計效率,利用所提方法與文獻[3]方法、文獻[4]方法選取多種類型的運動員實施測試,三種方法對多種類型運動員成績估計精度如表1所示。根據表1可知,針對不同類型的運動員,所提方法的運動員成績估計精度明顯高于其余兩種方法,所提方法可適用于任意類型的運動員成績估計,可最大程度上降低運動員成績預測過程中產生的誤差,預測結果的可信度較高。

表1 三種方法的估計精度
三種方法的估計時間如表2所示。根據表2可知,針對不同類型的運動員,所提方法的運動員成績估計時間明顯低于其余兩種方法,運動員成績估計效率更高。

表2 三種方法的估計時間 單位:s
為進一步驗證所提方法的準確性,以三級跳遠運動員成績為例,在三級跳遠運動員歷史數據中加入不同大小高斯噪聲,利用三種方法估計100名三級跳遠運動員成績,在不同高斯噪聲時,三種方法的誤差如圖4所示。根據圖4可知,隨著高斯噪聲的不斷增加,三種方法的MAE值均隨之提升,在不同高斯噪聲時,所提方法的MAE值均明顯低于其余兩種方法,且所提方法的MAE值提升幅度明顯低于其余兩種方法。實驗證明:在不同高斯噪聲時,所提方法的MAE值最低表示所提方法的估計值與實際值最為接近,具備更好的估計效果。

圖4 三種方法的誤差評價指標對比圖根
運動員訓練研究的關鍵為運動員成績估計問題,通過估計運動員成績可為其制定不同程度的訓練,進一步提升運動員成績,使其更加優秀;因此研究基于大數據分析技術的運動員成績建模與估計方法,從而提升運動員成績估計精度與估計效率,增強運動員成績估計結果的可靠性,為運動員訓練提供更有價值的信息。