馬超
(東北石油大學, 體育部, 河北, 秦皇島 066000)
運動員是國家體育發展的重要儲備力量,準確估計運動員成績,能夠為其制定更適用的訓練規劃,提升其成績[1-3]。訓練強度與運動員自身身體素質等因素可直接影響運動員成績,只有精準了解運動員成績的變化特點,才能確保運動員取得更好的成績[4],這就說明估計運動員成績非常重要。陳曦等[5]研究融合知識圖譜和協同過濾的學生成績預測方法,建立描繪課程信息的課程知識圖譜,通過基于鄰節點方法與基于知識圖譜學習方法計算課程在知識層面的相似度,將獲取的相似度集成到協同過濾的成績預測框架,獲取成績預測結果;李夢瑩等[6]研究基于雙路注意力機制的學生成績預測模型,通過兩次注意力計算獲取不同屬性特征在第一階段與第二階段成績上的注意力得分,結合多特征融合方式,獲取成績預測結果。基于歷史數據驅動的預測方法是通過歷史數據實施預測[7-8],基于歷史數據驅動的預測方法有很多,例如隱馬爾科夫模型、混沌預測與支持向量機等。支持向量機存在小樣本學習與學習能力強的優點,在預測方面具有一定優勢,因此用來研究基于歷史數據驅動的運動員成績估計方法。利用KNN算法對運動員的歷史成績進行預處理,去除干擾數據的影響,精準地對數據進行了分類;利用支持向量機構建回歸預測模型,引入拉格朗日函數進行數據轉換,以避免數據運算陷入局部;利用粒子群算法對支持向量回歸預測模型參數進行優化,減少輸入量噪聲的干擾,降低計算的復雜度。
歷史數據驅動估計運動員成績估計思想:首先數據預處理,因為原始運動員歷史成績數據集內會存在噪聲干擾,支持向量回歸不能直接通過原始運動員歷史成績數據集實施估計,所以利用K最近鄰(K-nearest neighbor,KNN)分類算法實施數據預處理;然后將數據預處理后的運動員歷史成績數據集作為支持向量回歸預測模型的訓練樣本,經過支持向量回歸預測模型訓練后,獲取運動員成績估計結果;最后利用粒子群算法優化支持向量回歸參數,提升估計結果的準確性。
運動員歷史成績數據包含各賽級的比賽名次、比賽運動用時、年齡、性別、訓練時長、體質。利用KNN算法對運動員歷史成績數據實施數據預處理[9],減少不完整數據信息的干擾,無需先驗統計即可實現數據的分類。KNN算法的核心思想是假設在運動員歷史成績特征空間內,若一個運動員歷史成績樣本的k個最鄰近運動員歷史成績樣本內的多數屬于某一個類別,則判斷這個運動員歷史成績樣本也屬于這個類別,同時存在這個類別運動員歷史成績樣本的特性。KNN算法的具體步驟如下。
步驟1:建立運動員歷史成績訓練樣本集T。
步驟2:設置k的初始值。
步驟3:在運動員歷史成績訓練樣本集內選取和運動員歷史成績測試樣本最接近的前k個樣本,利用歐幾里德距離獲取運動員歷史成績樣本X與Y的相似度,歐幾里德距離計算如式(1),
(1)
假設全部運動員歷史成績樣本屬于n維空間Rn,任一運動員歷史成績樣本Xi=xi1,xi2,…,xin∈Rn,其中第i個運動員歷史成績樣本的第k個特征值是xik。運動員歷史成績樣本Xi與Xj的歐幾里德距離是dXi,Xj,dXi,Xj用來表示運動員歷史成績樣本的相似度。計算式如式(2):
(2)
式中,第j個運動員歷史成績樣本的第k個特征值是yjk。
步驟4:針對運動員歷史成績測試樣本Xq,和Xq距離最近的k個運動員歷史成績樣本是X1,…,Xk,假設離散點目標函數是F:Rn→ei,第i個類別標簽是ei,標簽集合是E=e1,…,es>。離散點目標函數計算式如式(3):
(3)
式中,返回值是s,運動員歷史成績樣本間的相似度是δ,當樣本a與樣本b一致時,δa,b=1,當樣本a與樣本b不同時,δa,b=0。
步驟5:將投票數量多的運動員歷史成績樣本作為支持向量機的輸入。
利用支持向量回歸預測模型估計運動員成績,支持向量回歸估計模型屬于在高維特征空間內構建回歸預測函數;將數據預處理后的運動員歷史成績數據集作為支持向量回歸預測模型的輸入;線性回歸不敏感損失函數ε的計算式如式(4):

(4)
式中,f(x)為支持向量機的回歸預測函數,l為實際值。
回歸函數的對應值就是運動員成績估計值,因此獲取最優化計算式如式(5):
(5)

(6)
整理式(6)后可得式(7),
(7)
高斯核函數計算式如式(8):
(8)
式中,σ為高斯核帶寬,σ>0。
支持向量回歸預測模型的預測函數為式(9):
(9)
支持向量回歸預測模型中懲罰因子C、高斯核帶寬σ與不敏感損失函數ε的取值與估計精度關系緊密。懲罰因子C的取值和能夠允許的誤差有關,C值與允許誤差成反比;高斯核帶寬σ和訓練樣本的輸入空間范圍成正比,一般情況下,高斯核帶寬σ取值相對大一些;不敏感損失函數ε和輸入量噪聲大小有關,輸入量噪聲較小時,不敏感損失函數ε取值相對小一些;輸入量噪聲較大時,不敏感損失函數ε取值相對大一些。利用粒子群算法優化支持向量回歸預測模型的懲罰因子C、高斯核帶寬σ與不敏感損失函數ε,將空間向量C,σ,ε當成粒子群算法內的一個粒子,利用算法迭代獲取最優粒子,支持向量回歸預測模型在當前訓練樣本數據下的最優參數分別是xq,C、xq,σ與xq,ε,粒子群算法優化支持向量回歸預測模型參數的具體步驟如下。
步驟1:初始化支持向量回歸預測模型參數,設置最大迭代次數是Gmax;粒子位置的限定范圍是Xmin,C,Xmax,CXmin,σ,Xmax,σXmin,ε,Xmax,ε;粒子速度的限定范圍是[-Vmax,C,Vmax,C][-Vmax,σ,Vmax,σ][-Vmax,ε,Vmax,ε];粒子種群規模是M;隨機設置粒子速度與位置,粒子q的位置是xq,C,xq,σ,xq,ε,懲罰因子C值大小是xq,C,高斯核帶寬σ值大小是xq,σ,不敏感損失函數ε值大小是xq,ε,粒子q的速度是vq,C,vq,σ,vq,ε;
步驟2:將xq,C,xq,σ,xq,ε當成參數訓練支持向量回歸預測模型,交叉驗證支持向量回歸預測模型估計精度當成適應度值,假設待估計的樣本數是t,利用均方誤差衡量支持向量回歸預測模型內參數的適應度,均方差MSE的計算式如式(10),
(10)

步驟3:粒子q個體通過的最佳位置是pbestq=pq,C,pq,σ,pq,ε,記錄粒子q的MSE值最小的位置信息是pbestq;
步驟4:種群通過的最佳位置是gbest=gC,gσ,gε,記錄群體全部粒子在迭代時的最小MSE值相應的位置信息是gbest;
步驟5:假設粒子位置與速度均大于設定區間,那么選擇邊界值限制粒子速度與位置,粒子位置xq與速度vq的更新式如式(11)、式(12),
(11)
(12)
式中,γ為迭代次數,ω為慣性因子,c1與c2為學習因子,r1與r2為加速常數。
步驟6:如果迭代次數γ 以某體育學校的運動員為實驗對象,隨機選取10組1500 m自由泳運動員作為研究對象,每組10人,利用本文方法對這10組游泳運動員成績實施估計,估計結果如圖1所示。根據圖1可知,本文方法能夠有效估計出游泳運動員的成績,且估計值與實際值非常接近。實驗證明:本文方法能夠精準估計運動員成績,具有較高精度的運動員成績估計結果。 圖1 10組運動員游泳成績估計結果 在該校內隨機選取10種類型運動項目的運動員,驗證本文方法的通用性,利用本文方法對這10種運動項目的運動員成績實施估計,并與實際值對比,10種運動項目的估計精度如圖2所示。根據圖2可知,針對不同類型的運動項目,本文方法均能準確估計運動員的成績,估計精度基本維持在96%以上。實驗證明:本文方法具有很好的通用性,且估計精度高。 圖2 10種運動項目成績的估計精度 利用本文方法與方法1、方法2同時對上述10種類型的運動項目的運動員成績實施估計,測試3種方法的估計精度與估計效率,其中方法1為融合知識圖譜和協同過濾的學生成績預測方法(文獻[5]),方法2為基于雙路注意力機制的學生成績預測模型(文獻[6]),每種運動項目選取100名運動員的成績進行測試,取其平均值,提升實驗的可信度,3種方法對10種類型運動項目的運動員成績估計精度與估計效率如圖3、圖4所示。根據圖3可知,針對不同類型運動項目的運動員,本文方法的運動員成績估計精度明顯高于其余2種方法,本文方法的平均估計精度是97.8%,方法1的平均估計精度是81.9%,方法2的平均估計精度是86.6%。實驗證明:估計不同類型運動項目的運動員成績時,本文方法的估計精度最高,明顯降低運動員成績估計誤差,同時增加估計結果可信度。根據圖4可知,針對不同類型運動項目的運動員,本文方法的運動員成績估計時間明顯低于其余2種方法,本文方法的估計時間始終維持在20 s以內,變化幅度較小,其余2種方法的估計時間變化幅度較大,穩定性較差。實驗證明:本文方法的估計時間最少,運動員成績估計效率更高。 圖3 3種方法的估計精度 圖4 3種方法的估計效率 以1500 m游泳運動員成績為例,測試3種方法在不同運動員數量時,成績估計的準確性,通過誤差評價指標平均絕對百分誤差(Mean Absolute Percentage Error,MAPE)對3種方法的性能實施準確性評估,在不同運動員數量時,3種方法的誤差評價指標測試結果如圖5所示。根據圖5可知,隨著運動員數量的不斷增加,3種方法的MAPE值均隨之提升,一般情況下,MAPE值低于10,說明估計方法的估計精度較高,在不同運動員數量時,本文方法的MAPE值均明顯低于其余兩種方法,MAPE值始終保持在10以內,其余2種方法只有在運動員數量低于200人時,MAPE值低于10;當運動員數量超過200人時,2種方法的MAPE值均大于10。實驗證明:在不同運動員數量時,本文方法的MAPE值最低,說明本文方法的估計值與實際值最為接近,估計精度更高,估計質量高。 圖5 3種方法的誤差評價指標對比圖 本文方法實現高質量的運動員成績預測,對于運動員的訓練規劃非常重要,精準估計運動員成績,能夠了解其所需要的訓練規劃,利于提高運動員成績,使其更加優秀;因此研究基于歷史數據驅動的運動員成績估計方法,提升運動員成績估計精度與估計效率,為運動員訓練規劃提供更有價值的信息,為國家培養更為優秀的運動員。2 實驗結果分析





3 總結