劉天彪,柯洪捷,曹雪薇,馬瑞瑤,趙 鑫
(1 北京師范大學a體育與運動學院,b數學科學學院,c系統科學學院,北京,100875;2 北京長城人壽保險股份有限公司)
?
基于主成分分析和Q型聚類分析的2011賽季中國足球超級聯賽各隊的技戰術綜合分析
劉天彪1a,柯洪捷1b,曹雪薇1c,馬瑞瑤2,趙鑫1a
(1 北京師范大學a體育與運動學院,b數學科學學院,c系統科學學院,北京,100875;2 北京長城人壽保險股份有限公司)
依據中超聯賽數據庫中反映球隊技戰術能力的22項指標,使用主成分分析法和Q型聚類方法對2011賽季中國足球超級聯賽各參賽隊的技戰術能力進行了分析,并使用斯皮爾曼相關系數和方差分析的方法對結果進行了檢驗。結果表明,主成分分析和Q型聚類聯合使用能夠有效和客觀的量化各隊的技戰術綜合能力,可以作為各隊實力的重要參考。
足球;中超聯賽;技戰術綜合能力;主成分分析;聚類分析
作為代表中國足球運動最高水平的職業聯賽,中超聯賽反映著中國足球運動發展的趨勢。因此,對中超聯賽參賽隊伍的技戰術指標進行系統的研究有助于掌握中國足球聯賽發展的規律,認清與歐洲、亞洲各國足球聯賽的差別與差距,進而進行有針對性的提高。
國內學者對足球比賽的研究覆蓋世界杯、歐洲杯、亞洲杯等大型賽事[1~3],從研究方法上來看,對足球比賽各指標間的兩兩比較研究與分析較多[4],但是這種傳統技戰術分析中運用原指標(Raw factors)分析存在一定誤差,不能夠全面反映各隊技戰術結構的真實水平[5];與傳統技戰術分析的方法相對應,應用多元統計則可以相對全面和系統的顯示影響各隊技戰術的重要因素。因此,筆者選取2011賽季中國足球超級聯賽數據庫中16支隊伍的技戰術指標,先使用主成分分析法進行原指標的降維,抽象出影響各隊技戰術的重要因素,然后使用聚類分析的方法力求客觀的反應中超聯賽各隊技戰術實力。
1.1研究對象
參加2011賽季中國足球超級聯賽的16支球隊。分別為:廣州恒大,北京國安,遼寧宏運,江蘇舜天,青島中能,長春亞泰,山東魯能,杭州綠城,陜西人和,天津泰達,上海申花,大連實德,河南建業,成都謝菲聯,南昌八一,深圳紅鉆。
1.2研究方法
1.2.1文獻資料法通過查閱相關資料,初步確定能夠反映中超聯賽球隊進攻能力的指標。
1.2.2數理統計法從2011中超聯賽數據庫中獲取相關數據,采用SPSS 19.0統計軟件對數據進行初步統計學處理。
1.2.3多元統計使用主成分分析和Q型聚類分析對中超各隊技戰術進行綜合比較分析,采用等級相關分析對主成分分析結果進行效度檢驗,并運用方差分析對結果進行比較。
1.3一些指標的定義
進球率=(總進球數/射門次數)×100%。
前場定位球=獲得角球次數+點球次數+前場任意球次數。
其他指標定義請參考網易中超數據庫,http://sports.163.com/special/00052JK3/tjbz.html。
2.1主成分分析
主成分分析是一種廣泛應用的多元統計分析方法,其考慮各指標間的相互關系,它利用降維思想,在損失很少信息的前提下找出幾個綜合因子,使其盡可能地反映原來變量的信息,而且彼此之間相互獨立,使得評價結果具有全面性、可比性和客觀性[6,7]。
2011賽季中國足球超級聯賽16支俱樂部隊的各項原始攻防指標的統計數據來源于中超聯賽數據庫,然而在處理眾多的攻防指標和技術數據時會出現一些問題:例如,這些數據中有些存在著相關關系,而使用高度相關的指標難以實現合理的聚類。基于此,筆者引入主成分分析的方法,確定一組新的互不相關但又盡可能完整保留原始變量信息的新變量,同時達到降維的目的,從而簡化復雜的問題。
2.2Q型聚類分析
在由主成分分析法得到彼此不相關的變量和指標后進行Q型聚類分析。Q聚類分析是根據一系列觀測變量的測量值對個案進行分類,分類的依據是個案之間的“距離”。首先定義樣品間距離及類與類之間的距離,在此根據樣本的分布情況選擇用離差平方和(Ward)法來定義距離;開始時每個樣品各看成一類,將距離最近的兩類合并; 重新計算新類與其它類的距離,再將距離最近的兩類合并;再計算新類與其它類的距離。這樣一步步的進行下去,每一步減少一類,直至所有的樣品都合并成一類為止[8,9]。
3.1相關分析
主成分分析的前提條件是指標間具有一定的相關性[10]。相關系數的統計學意義是表示兩變量之間直線相關的密切程度和相關方向的統計指標,r2≤1,越接近1表示變量間的線性相關越密切,越接近于0說明線性關系越疏遠[11]。
中超數據庫中反映俱樂部技戰術的原始指標有48個,這其中有一些指標相關程度比較大,還有一些相對重復,因此根據經驗和以往文獻選取其中22個作為主成分分析的統計指標,接下來對由此22項攻防技術指標形成的統計數據進行主成分分析。為了更好的研究指標之間的關系,首先進行22個指標間的相關分析。
指標相關分析顯示,在P≤0.01水平上,有58個相關系數顯著相關;在P≤0.05水平上,42個相關系數顯著相關。指標間相關性良好,以被射正次數指標為例,該指標與進攻相關指標成負相關,而與防守相關指標呈正相關。例如,被射門次數在顯著性0.01水平上與控球率、攻入前場30 m次數以及射門數、前場定位球都成顯著負相關;而在顯著性0.01水平上與被攻入后場30 m次數和被射正數都成顯著正相關。這些與實際情況相符合。
3.2主成分分析
為了科學合理的解決指標之間相關的問題,使聚類分析更加合理,需要在多個指標中提取出合理數量的指標并科學合理的進行解釋,因此這里使用主成分分析法來對原始指標做降維處理,將16支中超俱樂部隊伍的原始技戰術指標用新的包含原有技戰術指標的信息的主成分來代替。
首先對22個技戰術指標形成的統計數據進行主成分分析,求出指標的特征值和貢獻率(表1)。結果表明,特征值不小于1的因素一共有6個,前6個主成分的累計貢獻率超過85%,也就是說他們共同解釋了總方差的87.795%,認為前6個主成分提供了足夠多的信息,因此選擇前6個主成分作為接下來聚類分析的指標。
由上述可知,影響2011中超聯賽參賽隊伍成績的主成分為6個,經計算,他們的權重分別為KF1=0.509 502 300,KF2=0.187 344 674,KF3=0.109 982 390,KF4=0.076 196 155,KF5=0.058 536 584,KF6=0.058 437 898。

表1 2011賽季中超聯賽球隊的各技戰術指標總解釋方差
注:提取方法——主成份分析。

表2 因子負荷矩陣a
注:提取方法——主成份分析。
a. 提取6個主成分。

表3 主成分特征向量矩陣
結合表3,通過計算主成分特征向量可得主成分表達式:
F1=0.238 187 520X1+0.271 869 166X2+0.289 378 727X3+0.227 896 359X4+0.300 696 690X5+
0.200 611 479X6+0.122 755 260X7+0.255 655 826X8+0.157 188 731X9+0.083 352 507X10+0.047 694 769X11+0.219 350 560X12+0.106 355 875X13+0.256 173 596X14+0.251 203 140X15-0.216 463 574X16-0.248 164 204X17-0.242 617 170X18-0.284 121 125X19+0.079 330 862X20+0.207 839 959X21+0.054 582 566X22
F2=0.328 103 329X1+0.108 361 016X2+0.102 919 098X3-0.188 696 846X4-0.033 841 012X5+0.377 977 665X6+0.419 413 429X7-0.061 876 825X8-0.261 645 330X9-0.409 998 429X10+ 0.279 684 983X11-0.094 958 076X12-0.045 843 766X13+ 0.085 897 266X14-0.198 051 807X15+0.262 158 975X16-0.061 289 820X17+0.183 402 295X18-0.109 480 384X19+0.034 558 327X20-0.115 872 936X21-0.073 684 409X22F3=-0.075 695 203X1-0.210 094 574X2-0.136 787 346X3+ 0.155 656 251X4+0.005 510 259X5+
0.027 403 637X6+0.085 648 375X7+0.132 847 744X8+0.206 518 158X9-0.173 011 455X10+
0.431 292 697X11-0.113 193 523X12+0.351 857 570X13-0.263 540 294X14+0.171 734 695X15+0.023 705 891X16+0.129 648 747X17-0.055 634 663X18-0.015 451 447X19+0.275 096 659X20-0.144 240 279X21+0.519 690 573X22
F4=0.047 748 910X1-0.046 132 060X2-0.107 019 327X3+0.236 404 625X4+0.084 619 445X5+0.004 554 678X6+0.190 956 583X7+ 0.287 257 490X8+0.364 791 908X9+0.136 532 370X10+0.132 316 620X11-0.094 479 497X12-0.390 961 554X13-0.012 262 477X14-0.117 160 853X15+0.016 227 955X16+0.216 616 280X17+0.121 363 900X18-0.209 856 395X19-0.526 394 973X20-0.272 276 571X21+0.005 638 621X22
F5=-0.045 284 849X1+0.253 577 011X2+0.119 999 594X3-0.162 698 662X4-0.063 126 840X5-0.126 838 142X6-0.275 233 292X7+0.246 064 083X8+0.073 385 163X9-0.083 437 716X10-0.154 867 004X11+0.118 487 812X12-0.267 963 096X13+0.342 326 964X14+0.036 076 427X15+0.255 765 548X16-0.021 795 108X17+0.086 979 977X18+0.013 962 755X19+0.314 181 230X20-0.475 611 911X21+0.311 723 431X22
F6=-0.068 434 067X1+0.059 835 390X2-0.006 616 596X3+0.328 724 750X4+0.232 466 623X5-0.116 970 140X6-0.101 445 416X7-0.103 139 663X8-0.078 410 446X9-0.260 892 696X10+0.297 716 671X11+0.465 065 062X12-0.160 117 196X13+0.081 228 682X14+0.040 123 372X15-0.114 618 162X16+0.406 204 133X17+0.282 760 725X18+0.169 253 101X19+0.179 791 085X20+0.071 971 800X21-0.240 327 897X22
接下來,對數據進行標準化處理,并且以每個主成分所對應的特征值占所提取主成分總的特征值之和的比例作為權重計算主成分綜合模型
F=0.509 502 300F1+0.187 344 674F2+0.109 982 390F3+0.076 196 155F4+0.058 536 584F5+0.058 437 898F6

表4 2011賽季中超聯賽球隊排名以及主成分排名
通過上述6個主成分表達式以及主成分綜合模型,可得2011賽季中超級聯賽球隊在這些技術統計中的總體表現,并可以在這些方面得到排名(表4)。
使用斯皮爾曼等級相關方法(公式,rs=1-6∑(Xi-Yi)2/N(N2-1),rs為相關系數,xi為變量X的第i個取值的等級,Yi為變量Y的第i個取值的等級,N為樣本量)對該排名結果進行效度分析。計算結果顯示,rs=0.658,雙側檢驗在0.01顯著性水平上具有顯著差異,因此認為該排名結果與聯賽成績排名之間具有顯著的相關性,其指標可以用于后續分析。
3.3Q型聚類分析
使用主成分分析法得到互不相關的6項能夠綜合反映中超聯賽的技戰術主成分指標后,使用系統聚類中的Q型聚類對其進行分析。這里使用離差平方和法(Ward Method)進行計算,該法適合處理小樣本數據,對異常值敏感,對較大的類傾向產生較大的距離,比較符合實際需要。圖1為Q型聚類的最終結果。
4.1結果
比較合理的劃分是將2011賽季參加中超聯賽的球隊按照聚類結果分成四類(圖1),最終位于聯賽前2名的廣州恒大和北京國安被劃分為第一類;遼寧宏運、江蘇舜天、青島中能和長春亞泰被劃為第二類,它們的聯賽排名分別是3,4,6,7;接下來第三類是山東魯能、杭州綠城、陜西人和、天津泰達、上海申花以及大連實德,它們聯賽最終排名分別為5,8,9,10,11,12;而河南建業、成都謝菲聯、南昌八一和深圳紅鉆為第四類,聯賽排名13~16位。聚類排名與聯賽最終排名基本一致,說明使用主成分分析方法得到的6個不相關的技戰術指標能夠有效地反映2011賽季中超聯賽各隊的技戰術運用。可以看出攻守平衡的隊伍成績比較好,例如廣州恒大和北京國安,這些隊伍進攻效率高,防守能力強,這也恰恰符合足球比賽的規律。
名次差異較大(D>4)的有遼寧宏運、長春亞泰、陜西人和、天津泰達、上海申花和深圳紅鉆等6支球隊。
4.2分析
4.2.1總體分析作為聚在第一類的兩支球隊,廣州恒大和北京國安的第一主成分得分都很高,廣州恒大進球67個,北京國安進球49個,是聯賽中進球最多的兩支球隊;同時廣州恒大失球23個,北京國安失球只有21個,也是聯賽中失球最少的兩支球隊。這說明攻守平衡是取得好成績的關鍵;廣州恒大的賽季平均控球率為60.12%,射門數439,傳球數量、傳球成功率以及防守指標等數據在所有聯賽的球隊中都高居榜首,也就是說廣州恒大在整個賽季中擁有無人能敵的實力,因此取得了20場比賽的勝利,拿到冠軍也在情理之中。而北京國安在進攻和防守指標方面也都位居前列,射門數355,突破成功率71.7%,被射門只有282次。這兩支隊伍都有比較強大的中場組織,進攻效率比較高,對于前場的支援以及防守時對后場的保護都很到位。
聚在第二類的有遼寧宏運、江蘇舜天、青島中能和長春亞泰等4支隊伍,他們都不是傳統意義上的強隊,遼寧宏運2010年、江蘇舜天2009年升入中超,而青島中能自中超2004年以來一直排名聯賽中下游,甚至還曾位于降級的邊緣,長春亞泰雖然2007年拿過聯賽冠軍,但是2006年他們才第一次升入中超聯賽。這類球隊的明顯特征是:雖然進球沒有第一類球隊多,但是防守好,失球相對少,進球失球比率高于1,比如江蘇舜天的進球為43個,失球28個。這充分說明在聯賽中,防守好的球隊成績比較好,因為防守水平的高低往往決定著比賽的勝負[12]。
聚在第三類的6支球隊,他們的積分與第二類的球隊拉開,這6支球隊中,有4支參加亞冠聯賽,分別是山東魯能、杭州綠城、上海申花和天津泰達,它們都受到亞冠聯賽的影響,隊伍雙線作戰,成績受到不同程度的影響,突出表現在上海申花整個賽季輸球15場,天津泰達22場不勝等;劃在第三類的另兩支隊伍分別是老牌冠軍大連實德和陜西人和,事實上,在第三類隊伍中,除杭州綠城外,其他5支隊伍都是經歷過甲A時代的傳統強隊,他們有著深刻的傳統底蘊。這類隊伍除了山東魯能外,得失球比都低于1。但是值得注意的是天津泰達隊,雖然他們的進球數37個失球數41個,但是他們的各項攻防指標甚至可以和亞軍北京國安相比,被射門數量還是各隊伍中最少的,可是最后僅僅排在記分表第10位,可見他們的攻防兩端出現了問題,缺乏有效的得分手段,雖然贏得了數據,可是沒有贏得比賽。
聚在第四類的隊伍進球都少于30個,場均不到1個,除河南建業外,進球失球數比低于0.6,其中南昌恒源進球僅為20個,深圳紅鉆失球高達53個,與第一二類球隊相比,進攻和防守指標偏低是導致成績不佳的主要原因。
4.2.2技戰術水平的方差分析在2011賽季中超聯賽球隊的各技戰術指標之間,控球率、攻入前場30 m次數、射門數、進球率、傳球數、傳中數、嘗試突破次數、突破成功率、前場定位球、搶斷、頭球、被射門次數、被射正次數、被攻入本方后場30 m次數都存在顯著性差異(表5),也就是說,聯賽中強隊與弱隊技戰術水平的發揮主要體現在這些方面。控球率、傳球、攻入前場30 m次數、前場定位球、射門和進球這些指標反映了隊伍對比賽的整體控制以及進攻時的效率,例如廣州恒大的這些指標都很高,因此可以說該隊進攻效率高;而突破相關的指標反映了球隊中進攻時球員的個人能力和自信心,廣州恒大的嘗試突破次數是聯賽所有隊伍中最高的,這很大程度上取決于前場的克萊奧、穆里奇以及孔卡;搶斷、失球、被射門次數、被攻入本方后場30 m次數,這些指標都反映了防守的穩定性,天津泰達的被射門次數是聯賽里最少的,被攻入本方后場30 m次數以及被射正數量也僅僅高于北京國安,但是卻失球41個,說明其防守的穩定性不夠。因此,提高進攻效率、鼓勵球員發揮、以及加強防守穩定性是提高中超聯賽球隊技戰術發揮的關鍵,這些也需要從青少年訓練時就加以培養。

圖1 2011賽季中超聯賽球隊Q型聚類

表5 2011賽季中超聯賽球隊的各技戰術指標方差分析
注:Sig.<0.05表示有顯著性差異。
本次研究對2011賽季中國足球超級聯賽進行了多元統計分析,首先對技戰術指標進行了主成分分析,在主成分分析中,將22個變量降維至6個主成分。通過主成分綜合模型得分高低得到的球隊排名與實際積分榜有較強的相關性,驗證了主成分分析取得了較好的成果,同時也說明進行的降維是有意義的且為后續的聚類分析做了充足的準備。
在聚類分析中,利用主成分分析的成果最終將16支球隊分為四類:第一類為廣州恒大與北京國安,是絕對的爭冠行列;第二類有遼寧宏運、江蘇舜天、青島中能和長春亞泰等4支隊伍,它們的進攻雖然不如第一類的球隊犀利,但都有著出色的防守,因此也取得了不俗的成績;聚在第三類的6支球隊,雖然在某些方面有些許出彩的方面,但在攻防兩端都存在不同程度的問題,因此成績也不甚理想;第四類的球隊則是聯賽中的弱隊,各項指標均落后于其他球隊。該結果也與實際情況較為相符,并很好的解釋了各類球隊的特點。
聚類分析的結果表明,防守是一支球隊立足的根本,只有先做好防守,才能夠在聯賽中立足;而要想加入爭冠行列,則必須做好攻防兩端的各個方面,不能存在短板。
方差分析的結果表明,強隊和弱隊的差距主要集中在控球率、攻入前場30 m次數、射門數、進球率、傳球數、傳中數、嘗試突破次數、突破成功率等指標上。提高進攻效率,鼓勵進攻時球員大膽運用技術動作以及加強防守穩定性是提高成績的關鍵。這說明利用中超聯賽數據庫的指標,運用多元統計分析的相關知識,能夠客觀的反映出比賽中各隊的實際水平,為球隊的發展和比賽成績的提高提供建設性建議。
使用主成分分析以及Q型聚類,可以使復雜的問題變得明確,因此分析的結果反映了一定的實際意義,可以為評價球隊實力的提供參考依據。但是足球場上情況千變萬化,本次研究仍然存在一定的局限性和待改進之處,例如有些因素需要進一步優化、統計方法需要更新等,以便更加有效的對聯賽進行分析。
致謝:本次研究使用了CSLdata公司提供的網絡數據,在此感謝CSLdata的工作人員辛苦和卓有成效的數據工作。本次研究得到了“北京市大學生科學研究創新項目”的支持。
[1]陳益群.18屆世界杯足球賽冠軍意大利隊比賽分析與研究[J].南京體育學院學報,2006,20(6):16-19.
[2]王君,馬成全,鄭鷺賓.第12屆歐洲足球錦標賽冠軍希臘隊比賽分析與研究[J].北京體育大學學報,2005,28(9):1 289-1 290,1 293.
[3]奚天明.第十三屆亞洲杯足球賽進攻行動的統計與分析[J].北京體育大學學報,2005,28(10):1 439-1 441.
[4]秦志輝.第12屆亞洲杯足球決賽中、日、韓各隊對抗中技術運用情況的對比分析[J].中國體育科技,2002,38(2):19-22.
[5]王凱,呂曉偉,何江川.2009年賽季中國足球超級聯賽16只參賽隊技、戰術結構差異多元統計分析[J].中國體育科技,2010,46(5):33-37.
[6]金光春,單忠紀,翟緒軍,等.基于主成分分析的黑龍江墾區農業循環經濟發展評價的研究[J].黑龍江八一農墾大學學報,2014,26(4):90-94.
[7]華志強,張春生,陳麗瑩,等.基于主成分分析方法的旅游資源吸引力的綜合評價[J].湖北民族學院學報(自然科學版),2015,33(4): 399-401.
[8]王玉勝,扈強,梁榮,等.工業等級煙葉質量的主成分分析和聚類分析評價[J]. 安徽農業科學,2014,42(27):9 518-9 519,9 543.
[9]趙高長,覃飛.基于主成分分析的高校排課算法研究[J].長春大學學報,2015,25 (2):45-51.
[10]盧紋岱.SPSS for windows統計分析[M].第三版.北京:電子工業出版社,2006.
[11]陳及治.體育統計[M].北京:人民體育出版社,2002.
[12]凌士銀,詹陽.當代歐洲足球強隊在比賽中的防守行為研究[J].武漢體育學院學報,2008,42(2):83-88,96.
(責任編輯:朱寶昌)
Evaluation of Comprehensive Technique and Tactics on 2011 Chinese Super League Based on Principal Component Analysis and Cluster Analysis
LIU Tianbiao1a, KE Hongjie1b, CAO Xuewei1c, MA Ruiyao2, ZHAO Xin1a
(1 Beijing Normal University, 1a College of Physical Education and Sports,1b School of Mathematical Sciences, 1c School of Systems Science, Beijing, 100875;2 Beijing Greatwall Life Insurance Co., Ltd; China)
Both principal component analysis and cluster analysis were used to evaluate the comprehensive technical and tactical abilities of each football team based on 22 typical indexes in Chinese Football Super League database. The analyzed results were also tested by methods of Spearman’s correlation coefficient and analysis variance. This paper proved that joint application of principal component analysis and cluster analysis might quantify the comprehensive technical and tactical ability effectively, and the results could illustrate objectively the performance of each football team.
football; Chinese Super League (CSL); comprehensive technical and tactical ability; principal component analysis; cluster analysis
10.3969/J.ISSN.1672-7983.2016.01.007
2016-01-14; 修改稿收到日期: 2016-03-10
G843
A
1672-7983(2016)01-0035-08
劉天彪,男,博士,講師。主要研究方向:體育科學。