華正春
摘 要: 為改善中國足球的競技能力,提高運動員訓練效果,提出基于數據挖掘技術的足球最優飛行軌跡估計方法。首先采用決策樹方法對歷史足球飛行軌跡數據構造樹形架構,并在決策樹上進行數據特征分類,提取足球飛行速度的大小、方向等分類結果,然后利用卡爾曼濾波估計足球飛行狀態,通過時序解析和碰撞測試挖掘出足球最優飛行軌跡。實驗結果表明,該方法估計結果與足球實際飛行軌跡的軌跡相似度高,可以應用于實際中。
關鍵詞: 數據挖掘技術; 最優飛行軌跡; 決策樹; 卡爾曼濾波
中圖分類號: TN911.1?34; G843 文獻標識碼: A 文章編號: 1004?373X(2017)19?0123?03
Football optimal flight path estimation based on data mining technology
HUA Zhengchun
(Guangxi Teachers Education University, Nanning 530023, China)
Abstract: In order to improve the competitive ability of Chinese football and training effect of athletes, a football optimal flight path estimation method based on data mining technology is proposed. The decision?making tree method is used to construct the history football flight path data for the tree?form architecture. The data characteristics are classified on decision?making tree to extract the classification results such as the magnitude and direction of football flight speed. The Kalman filtering is adopted to estimate the football flight state, by which the football optimal flight path is mined by means of temporal analysis and intersection test. The experimental results indicate that the estimation result of the proposed method has high path similarity with the practical football flight path, and can be applied to the practical application.
Keywords: data mining technology; optimal flight path; decision?making tree; Kalman filtering
0 引 言
足球是中國體育競技業中綜合實力比較薄弱的一個項目,在歷屆足球聯賽中,中國足球在戰術、防守、進攻上都遠落后于強隊,運動員往往不能對傳球、接球、截球等操作做出正確判斷,從而錯失得分良機。
近年來,數據挖掘技術不斷成熟,應用軟件、開發工具為這一技術帶來了新的知識獲取方法,如決策樹、遺傳算法、MBR(Memory?Based Reasoning,記憶基礎推理)和神經網絡等[1]。隨著數據研究領域的不斷拓寬,體育競技業也進行了一些數據研究工作,但有效的科研成果非常少。人為估計足球飛行軌跡不是在短時間內就能擁有的能力,如果能夠借助數據挖掘技術分析歷屆足球聯賽球員的個人行為,獲取隱含在行為之內的因果聯系,就可以縮短這種能力的練就時間,實施智能化球隊訓練與管理,提高球員個人素質。所以,提出基于數據挖掘技術的足球最優飛行軌跡估計方法。
1 數據挖掘技術
數據挖掘技術是指在龐大且雜亂的數據體系中,使用特殊手段發現深度埋藏在數據體系內部的關鍵知識[2]。數據挖掘技術的基本使命如圖1所示,包括分類、聚類解析、關聯、時序解析、估計和誤差解析,這六項使命可并行使用,也可相互關聯使用。
分類作為最根本的數據挖掘使命,其原理是按照事先規劃好的特征類別將數據樣本訓練好,最后完成數據特征的分門別類,以構造特征模型用于數據驗證。
聚類解析的鼻祖是分類,是從分類使命中衍生出來的根據數據相似度進行分類的一個分支,但聚類解析的分類類別不需要進行事先規劃,而是直接使用現實數據相似度進行解釋[3],細化程度低于分類使命,能夠構造宏觀特征模型,用來表征數據之間的特征關聯程度。
關聯使命主要對動態數據特征的關聯規則進行定義,在零售業、電網故障識別中比較常用,可以衡量現實數據之間的隱含規則。支持度和可信度是關聯使命的解析標準,能夠增強數據與現實情況的契合程度。
時序解析與估計是數據挖掘技術中的特殊使命,都利用動態的歷史數據特征對未來數據特征進行解釋。誤差解析是對歷史數據和標準數據之間差別進行比較的數據挖掘使命,可以提高數據挖掘技術的可靠性。
2 數據挖掘技術的足球最優飛行軌跡估計
2.1 決策樹
若想要進行有關足球最優飛行軌跡的估計工作,決策樹將通過貪婪方法構造樹形架構,在樹干上分配分類規律,訓練出樹杈連接點,令樹杈連接點進行子分裂,將足球歷史飛行軌跡數據特征沿著樹杈依次向下按照時序排列[4]。在上述估計過程中,決策樹的分裂方法是非常重要的,在搜尋分類結果時,每一個樹杈連接點都是一個交叉口,分裂結果與搜尋結果的關聯性很強,分裂方法不同,有可能出現不同的搜尋結果,這在進行足球最優飛行軌跡估計時容易出現特征歧義,導致估計結果不合實際[5]。在貪婪方法中,ID3是一種概念學習方法,它使用信息熵進行數據特征樣本訓練,在樹杈連接點分裂之前將最大信息增益設成分裂標準,以對每個樹杈連接點的分裂問題做出最優解答[6],實現足球歷史飛行軌跡數據特征的最優分類。不斷更新最大信息增益,直至決策樹架構構造完成。
所謂信息熵就是信息期望值,ID3用最大信息增益表示足球最優飛行軌跡估計期望,信息增益設為[P,][P]的表達式為:
[P=iK(i)lnK(i)Q(i)] (1)
式中:[K(i)]是第[i]個歷史數據特征分布概率;[Q(i)]是第[i]個歷史數據概率分布密度。
樹杈連接點集合表示為[D。]用式(1)計算出每個樹杈連接點的最大信息增益,表示為[pi,]那么樹杈連接點的分裂規律可以表示為:
[Info(D)=-i=1mpilog2pi] (2)
式中[log2pi]表示最大信息增益對數。
圖2是決策樹在足球最優飛行軌跡估計中的應用流程。如果集合[D]中只有一種特征類別[T,]那么決策樹只進行一次最大信息增益[P]的計算,并只用一個分裂規律同時進行一次分裂[7]。當決策樹構造成功后,足球歷史飛行軌跡數據的分類結果也就產生了,對分類結果進行解析可實現最優飛行軌跡的估計。
2.2 足球飛行軌跡數據特征的獲取
足球受到人腳部力量和萬有引力的驅使在空中發生旋轉和移動,因為在每個方向均有速度產生,無法匯聚求解,所以集合[D]中必須存在的數據特征是足球飛行的速度大小[v(i)]和方向[d(i)],統稱為飛行速率[8],用轉置矩陣[v(i),d(i)T]表示。為了方便觀察足球飛行軌跡,令:
[v(i)=d(i+1)-d(i)] (3)
[d(i+1)=d(i)+Δtv(i)] (4)
式中[Δt]是一個觀察周期。式(3),式(4)表示在一個觀察周期內足球飛行速度是保持不變的,那么足球動力學模型表達式可表示為:
[v(i+1)-v(i)=00-g+v(i)-kv(i)-qwzkwyqwz-kv(i)-kwx-qwy-qwx-qv(i)] (5)
式中:[g]是重力加速度;[k,q]是[K(i)]及[Q(i)]中的參數;[wx,wy,wz]分別是速度在[x,y,z]軸上的分量。
2.3 足球飛行狀態估計
對決策樹的分類結果進行足球飛行狀態估計需要使用卡爾曼濾波[9]的狀態轉移函數和觀察函數,表示如下:
[X(i)=fX(i-1),u(i-1),σ(i-1)] (6)
[Y(i)=hX(i),v(i)] (7)
式中:[X(i)]是足球實時飛行狀態;[Y(i)]是實時飛行狀態的觀察值;[f[]]表示狀態轉移;[h[]]表示轉移狀態下的觀察估計值;[u]是狀態閾值;[σ]是飛行速率矩陣偏差。
由于[f[]]和[h[]]不能進行協方差運算,致使數據挖掘技術不能進行誤差解析和未來足球飛行軌跡狀態估計,所以引進雅可比矩陣進行一階偏導變形:
[F(i)=?f?XX0ji-1,u(i-1)] (8)
[H(i)=?h?XX0ji-1] (9)
式中,[X0ji-1]表示第[j]個周期的足球飛行狀態估計函數,這個函數是不斷更新的,使用前一個周期的估計值和現有周期的觀察值之差作為更新信息[Pj-1i],有:
[Pj-1i=X(j-1)-Y(i)] (10)
可知第[j+1]個周期的足球飛行狀態估計函數可表示為:
[X0j+1i=X0ji-1+Pj-1i] (11)
由式(11)可知,在進行足球飛行狀態估計時,要保留所有觀察值中隱含的軌跡信息,以確保能夠在足量的飛行狀態中選擇出最優飛行估計信息,提高所提基于數據挖掘技術(決策樹)的足球最優飛行軌跡估計方法的準確率。
2.4 足球最優飛行軌跡估計
如圖3所示的足球最優飛行軌跡估計流程依次通過決策樹分類、足球飛行狀態觀察與估計、時序解析和碰撞測試,最終得到最優軌跡估計值。時序解析是指根據時間序列將足球飛行狀態估計結果中列出的經常發生事項提取出來引進時間窗,令時間窗在原有時間序列上流通,經過訓練挖掘隱含在數據內部的關鍵知識點。
碰撞測試是在足球飛行狀態估計結果中引進力的作用的一個綜合過程,包含萬有引力、摩擦力、風力、運動員腳部推力等。對每個關鍵知識點進行碰撞測試,當所有關鍵知識點均完成測試,視為到達碰撞邊緣。將足球飛行狀態估計結果[X0ji-1]中的關鍵知識點轉化成足球飛行速度在[x,y,z]軸上的負分量,設為轉置矩陣[(w-x,w-y,w-z)T,]那么碰撞測試之后的最優軌跡估計結果可表示為:
[v+rx=[v-rx,w-y]b1v+ry=[v-ry,w-x]b2v+rz=b3w-zd+rx=[v-ry,w-x]b4d+ry=[v-rx,w-y]b5d+rz=b6w-z] (12)
式中:[v+r,][v-r]是碰撞速度在坐標軸上的正、負分量;[d+r]是碰撞位移在坐標軸上的正分量,下角標分別對應[x,][y,z]軸;常數參數[b1~b6]可通過關聯多組足球歷史飛行軌跡數據特征,利用最小二乘法擬合而成。
3 實驗結果與分析
軌跡結構是指能夠全面解釋事物內外部特征的軌跡數據[10]。軌跡結構相似度是解釋兩種軌跡結構相似程度的數據指標。足球飛行中實際速度大小和方向與其估計值的軌跡結構相似度表示如下:
[sim(vi,v0)=13vv+vmin+vmax] (13)
[sim(di,d0)=disinθ, 0°≤θ≤90°d0, 90°<θ≤180°] (14)
式中:[vv,][vmin,vmax]分別是估計值與實際值之間平均、最小和最大速度大小的差值;[di,d0]分別是方向估計值和實際值;夾角[θ]是估計值和實際值之間的偏量。
使用本文提出的基于數據挖掘技術的足球最優飛行軌跡估計方法在一段時長為3 h的歷史足球比賽視頻上進行最優飛行軌跡估計,實際飛行軌跡已經給出,計算出估計值與實際值的軌跡結構相似度,如圖4,圖5所示。從圖中能夠看出,實際值和估計值的軌跡結構相似度非常高,基本高于0.95,特別是速度大小的相似程度一直保持在0.97以上,說明所提方法可在實際應用中取得好的效果。
4 結 論
數據挖掘技術在金融業、刑偵業、工業、農業等領域均得到了一定應用。本文提出一種基于數據挖掘技術(決策樹)的足球最優飛行軌跡估計方法,目標是提高中國足球競技能力,令運動員能夠合理估計足球飛行軌跡,及時對我方與對方球員的行為規律做出正確判斷。實驗結果表明本文方法是可靠的,具有非常高的軌跡結構相似度。
參考文獻
[1] 竇昀翬.探索數據挖掘技術在甲醇價格預測模型中因素分析的應用[J].上海化工,2015,40(9):39?42.
[2] 尚岑,王東雨,宇文姝麗.數據挖掘技術在健康數據分析中的應用[J].醫學信息學雜志,2016,37(5):54?58.
[3] 宋園,劉乾,王燦,等.RoboCup2D日志文件數據挖掘研究及應用[J].大慶師范學院學報,2015,35(6):31?34.
[4] 閔芳,楊功廷,張昱.基于決策樹C4.5算法的足球賽事預測[J].科技和產業,2014,14(6):94?96.
[5] 張天瑞,于天彪,趙海峰,等.數據挖掘技術在全斷面掘進機故障診斷中的應用[J].東北大學學報(自然科學版),2015,36(4):527?532.
[6] 杜春杰,劉鴻優.高水平職業足球運動員比賽技戰術表現特征研究:以西班牙男子足球甲級聯賽為例[J].體育學刊,2016,23(4):110?116.
[7] 傅鴻浩,張廷安.足球運動中的唯象理論實證研究:以國家(地區)經濟實力與運動成績關系為例[J].體育科學,2016,36(7):79?88.
[8] 夏磊,張樂君,國林,等.節點相似度標簽傳播在社會網絡中的應用研究[J].計算機工程與應用,2014,50(14):103?109.
[9] 秦鋒,田杰,程澤凱.基于偏最小二乘法的RoboCup傳球研究[J].計算機工程,2014,40(9):275?279.
[10] 李明,姚遠耀.數據挖掘技術在物流供應鏈合作伙伴選擇中的應用[J].物流技術,2015,34(2):152?154.