(青島農(nóng)業(yè)大學,山東青島, 266109)
數(shù)據(jù)挖掘在籃球技術動作中的應用分析
姜 帥
(青島農(nóng)業(yè)大學,山東青島, 266109)
本文在研究中,通過對籃球技術動作數(shù)據(jù)采集和預處理的分析應用,又研究了基于Apriori算法的關聯(lián)規(guī)則挖掘,進而對籃球技術動作之間的關聯(lián)性進行研究。
數(shù)據(jù)挖掘;籃球;技術動作
很明顯籃球比賽的最終輸贏是由得分決定的,而從雙方球員的得分中也能夠看出各自籃球技術動作的運用情況。通常在籃球比賽中,得分較多的是2分投球、3分投球及罰球等技術動作,但是有關籃板球、助攻、失誤、犯規(guī)、技術犯規(guī)、干擾球、故意犯規(guī)、控球、傳球、扣籃、空中接力、快攻技術動作等對得失分的影響并沒有十分明確的研究數(shù)據(jù),數(shù)據(jù)挖掘?qū)嶋H上就是從復雜眾多的數(shù)據(jù)資源中找出與實際相符合的有用信息,即從大量的不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中,具有潛在用途的信息和知識的過程。通過這些隱藏信息可以幫助教練員和運動員進行科學的、合理的動作技術學習,本文通過預處理、分類和關聯(lián)規(guī)則來分析挖掘籃球常用技術動作,為教練員和運動員提供更多的數(shù)據(jù)資料,幫助他們有針對性的進行訓練。
關聯(lián)規(guī)則挖掘就是通過某種方式來找出眾多數(shù)據(jù)之間有意義的聯(lián)系。我們將數(shù)據(jù)之間存在的某種規(guī)律稱之為關聯(lián),本次研究使用關聯(lián)規(guī)則挖掘的目的就是尋找籃球技術動作數(shù)據(jù)庫中隱含的關聯(lián)。而Apriori算法是關聯(lián)規(guī)則挖掘應用最廣泛的一種方法,它是一種使用侯選項集找頻繁項集的算法。下面就是通過對籃球腳本語言的設計方法研究的基礎上,分析了Apriori算法在挖掘籃球技術動作關聯(lián)規(guī)則中的設計與應用。
Apriori算法是一個在事務數(shù)據(jù)庫中尋找頻繁項集的典型算法,其中的頻繁項集實際上就是支持度≥最小支持度的項集,要實現(xiàn)這一目的需要對事物數(shù)據(jù)庫進行反腐掃描,因此會在這一步浪費較多的時間,制約了Apriori算法的運行。
Apriori算法可以通過遞推的方式,將事務數(shù)據(jù)庫中全部頻繁項集尋找出來。具體操作是先將事物數(shù)據(jù)表中的每一項作為候選一項集,用Cm來表示(m取值可以是1,2,3......),接下來對籃球技術動作數(shù)據(jù)庫進行掃描,進而統(tǒng)計出每個項集的支持度,將支持度≥最小支持度的項集設置為頻繁1-項集的集合,用Lm來表示(m取值可以是1,2,3......),并以此類推,直到L為空,算法停止。
3.1 數(shù)據(jù)采集
NBA聯(lián)盟規(guī)定,一場球共48分鐘,分為4節(jié),每節(jié)12分鐘,每一個回合的進攻要在24秒內(nèi)完成,一場球有100~200個回合。若是超過24秒就會失去球權(quán)。如果運動員技術動作掌握得好,球員之間能夠很好的配合,那么就能夠在24秒內(nèi)完成,反之,就會因為超時而丟失投籃機會。所以,在本次統(tǒng)計分析中,我們以一個進攻回合為時間段,統(tǒng)計了一場籃球比賽第5、20、100個回合的一般技術動作(如表1)。

表1 NBA籃球比賽技術動作統(tǒng)計表
3.2 數(shù)據(jù)清理與整合
通過上述方式采集到的籃球數(shù)據(jù)中存在不完整、不一致的問題,因此我們還要糾正這些問題,進行空缺值的填充。
①填充空缺值。根據(jù)某數(shù)據(jù)項含義,對缺失的這一數(shù)據(jù)項,定義一個缺省的值來替換缺少的空缺值。如表1中R5進攻回合缺少3分進球、蓋帽等,我們用“?”來代替。
②糾正不一致數(shù)據(jù)。采集到的數(shù)據(jù)有時會出現(xiàn)不一致的現(xiàn)象,如表1中R5的“運球”與“帶球”是一樣的技術動作,它們就不一致,但是我們可以通過分析某些數(shù)據(jù)之間的關聯(lián)性來確定將他們改成哪一種比較合適,將他們分別用A,B來表示,那么二者之間的相關性可以用下式表示:

當r=0,A與B獨立,不相關;r<0,A與B負相關;r>0,A與B正相關。那么,應該將R5中“運球”與“帶球”修正成一致的“運球”(表2為修正后的統(tǒng)計數(shù)據(jù)),修正方法如下:
If action=“帶球”
then action=“運球”
If action=“2分進”
then action=“2分進”
......

表2 修改后的NBA籃球技術動作統(tǒng)計表
③清理數(shù)據(jù)噪聲。如動作技術犯規(guī)、干擾球等都屬于無意義的數(shù)據(jù),因此直接清理掉就可以了,不必進行數(shù)據(jù)挖掘。又如,每個進攻回合同時出現(xiàn)2分進球和3分進球是不合理的,所以就需要清除一個,一般會清除3分進球。
3.3 數(shù)據(jù)集成
數(shù)據(jù)集成就是在同一個技術動作數(shù)據(jù)庫中來存儲很多的相關數(shù)據(jù),這樣就避免了各種數(shù)據(jù)的零散分布,不利于研究。比如我們可以將表2中多次重復出現(xiàn)的數(shù)據(jù)(如擋拆、運球等)合并為一個(如表3)。

3.4 數(shù)據(jù)歸約
數(shù)據(jù)歸約可以在保持原數(shù)據(jù)完整的基礎上,減小數(shù)據(jù)量,從而減少數(shù)據(jù)挖掘時間,具體操作包括:
①堆歸約。將運球、傳球等技術動作刪掉,只保留研究意義較大的技術動作,如本次研究中只保留了搶斷、助攻、罰球、擋拆、蓋帽、籃板、2分進、3分進球和突破9個籃球技術動作。
②數(shù)據(jù)壓縮。使用a,b,c,d,e,f,g,h,i這9個英文字母來代表以上選取得9種技術動作,并一一對應進行編碼,以便壓縮數(shù)據(jù)集(如表4)。

表4 歸約后籃球技術動作統(tǒng)計表
在本次研究中我們選用的是weka挖掘軟件,為了更方便于籃球數(shù)據(jù)挖掘,需要進行相關的格式轉(zhuǎn)換,在上一步的基礎上,一一對應后如果有動作,則用y來表示,如果沒有動作,則用n來表示(。

表5 格式轉(zhuǎn)換后籃球技術動作統(tǒng)計表
綜上所述,本文在分析了籃球技術動作數(shù)據(jù)采集和預處理的應用分析的基礎上,通過基于Apriori算法的關聯(lián)規(guī)則挖掘方法,研究了數(shù)據(jù)挖掘技術在籃球技術動作中的應用,這是籃球運動與計算機技術創(chuàng)造性的結(jié)合,為籃球技術動作規(guī)律的研究開辟了道路,指明了方向,同時為教練員和運動員提供了更準確的學習資源。
遲殿委,周興斌.數(shù)據(jù)挖掘的體育訓練決策支持系統(tǒng)[J].微型計算機,2009(25):190-192.
Application of data mining in basketball action in
Jiang Shuai
(Qingdao Agricultural University,Qingdao,Shandong,266109,China)
In this study,the application of basketball skills by analyzing motion data acquisition and pre-processing,but also studied based on Apriori algorithm for mining association rules,and then on the correlation between basketball technical action research.
data mining;Basketball Skill