侯 威
(云南財經大學統計與數學學院 云南 昆明 650000)
聚類分析在美職籃數據中的應用
侯 威
(云南財經大學統計與數學學院 云南 昆明 650000)
聚類分析是機器學習領域、模式識別領域等研究方向的重要研究課題之一,在識別數據內部結構方面具有極其重要的作用。本文選取美國男子職業籃球聯賽賽季數據,選取聯盟中鋒,進行聚類分析。結果發現,全能型中鋒球員較少,大部分中鋒為藍領球員。
聚類分析;機器學習;藍領;中鋒
美國男子職業籃球聯賽,即美職籃①,做為全球最頂尖的籃球聯賽代表著當今籃球最高的水準,也引領者當今世界籃球發展的潮流,美職籃吸引著世界各地頂尖的籃球選手,美職籃成立近70年來,一個接一個的傳奇選手為世界各地球迷奉獻了一場接一場的籃球盛宴,在美職籃漫長歷史中,不斷涌現的偉大的球員一直刷新著美職籃的記錄數據,進入21世紀,本世紀前十年隨著姚明奧尼爾等一批傳奇中鋒退役,最近幾年,美職籃進入小球時代,中鋒的作用被不斷看衰,外線后衛等投手不斷涌現。雖然,美職籃中的中鋒作用在不斷看衰,但是中鋒在內線的巨大殺傷力,較容易的得分方式,中鋒搶籃板為球隊創造二次進攻的機會,讓我們無法忽視中鋒在美職籃中的重要作用。利用機器學習方法,分析美職籃中的中鋒數據,探索當今小球當道的時代背景下,美職籃中鋒今后的發展趨勢,具有重要的研究意義。
數據選取自美職籃2016-2017賽季常規賽球員數據,包括美職籃32支球隊各個球員在常規賽81場比賽中各個方面的統計數據。里面的數據均是球員在整個常規賽賽季的表現匯總數據。考量一個中鋒的數據,主要包括:蓋帽次數、籃板數、前場籃板數、后場籃板數、得分。本文選取的指標為場均得分和場均籃板數。
#第一步:當k=5時,他會隨機選取5個點作為中心點,然后計算所有點到這5個點的距離
#第二步:將每一個點劃到不同的簇
#第三步:將每一個簇中的點計算橫縱坐標的均值,計算出新的中心點(可以是不是實際的點)
#第四步:重新計算每一個點到中心點的距離,重新劃分屬于不同的簇
#第五步:不斷的更新中心點,不斷的重新劃分簇,直到再怎么更新中心點,簇里的元素都不再發生變化了
(一)讀取數據
選取球員中位置為中鋒的遠動員,選取球員的本賽季總共的出場次數、賽季總得分和賽季籃板總數三個指標。代碼如下:
#取出中鋒的數據,“C”就是位置為中鋒的球員。
point_guards = nba[nba["pos"]=="C"]
#pts代表是總得分,g代表是打了多少場球
point_guards["ppg"]= point_guards[′pts′]/point_guards[′g′]
point_guards[[′pts′,′g′,′ppg′]].head(5)
#trb代表籃板的次數
point_guards[′ptrb′]= point_guards[′trb′]/point_guards[′g′]
(二)對數據進行聚類
(1)畫出散點圖
以球員場均得分為橫坐標值,場均籃板數為縱坐標值,畫出散點圖如下圖1。

圖1 散點圖
可以從圖中大致看出,能拿到兩雙數據(場均得分和場均籃板數均為10)的球員 較少,說明在小球背景下,中鋒得分和搶籃板能力受到限制。
(2)聚類分析
利用K均值聚類,根據選取的兩個指標隨機把球員分為5類,結果見下圖2。

圖2 隨機選取質心聚類
經過幾次不斷計算,一直到得到的分類簇基本不再發生變化,即聚類的結果收斂,結果如下圖3。

圖3 聚類結果
從最終的聚類結果可以看到,我們把中鋒球員分為5類,聚類的最終效果還是比較理想。但是我們只能從上圖,大概看到聚類的效果,為了更準確地顯示聚類效果,選取原始數據的所有指標進行聚類,打印顯示出來。
打印出來的比較理想的最終聚類結果如下。
[′Alexis Ajinca′,′Chris Andersen′,′Aron Baynes′,′Jason Collins′,′Samuel Dalembert′,′Andre Drummond′,′Vitor Faverani′,′Marcin Gortat′,′Josh Harrellson′,′Spencer Hawes′,′Kosta Koufos′,′Ian Mahinmi′,"Kyle O′Quinn",′Daniel Orton′,′Miles Plumlee′,′Robert Sacre′,′Larry Sanders′,′Tiago Splitter′,′Jeremy Tyler′,′Jonas Valanciunas′,′Nikola Vucevic′,′Jeff Withey′,′Cody Zeller′,′Bismack Biyombo′,′Andris Biedrins′]
[′Andrew Bynum′,′Drew Gooden′,′Roy Hibbert′,′Enes Kanter′,′Viacheslav Kravtsov′,′Robin Lopez′,′Timofey Mozgov′,′Mike Muscala′,′Greg Oden′,′Kelly Olynyk′,′Zaza Pachulia′,′Miroslav Raduljica′,′Henry Sims′,′Greg Smith′,′Tyler Zeller′,′Hilton Armstrong′]
[′Andrea Bargnani′,′Chris Bosh′,′DeMarcus Cousins′,′Anthony Davis′,′Melvin Ely′,′Marc Gasol′,′Pau Gasol′,′Justin Hamilton′,′Al Horford′,′Chris Kaman′,′Brook Lopez′,′JaVale McGee′,′Byron Mullens′,′Nikola Pekovic′,′Kevin Seraphin′,′Marreese Speights′,"Amar′e Stoudemire",′Brandan Wright′][′Steven Adams′,′Cole Aldrich′,′Joel Anthony′,′Omer Asik′,′Gustavo Ayon′,′Andrew Bogut′,′Tyson Chandler′,′Dewayne Dedmon′,′Gorgui Dieng′,′Joel Freeland′,′Kevin Garnett′,′Rudy Gobert′,′Bernard James′,′Ognjen Kuzmic′,′Alex Len′,′Meyers Leonard′,′Nazr Mohammed′,′Erik Murphy′,′Kendrick Perkins′,′Greg Stiemsma′,′Hasheem Thabeet′,′Anderson Varejao′]
[′DeAndre Jordan′,′Dwight Howard′,′Joakim Noah′,′Al Jefferson′,′Aaron Gray′,′Chuck Hayes′,"Hamady N′Diaye",′Dexter Pittman′]
從上面聚類結果可以看到,賽季中場均分達到20分以上的同時又能搶下10個籃板以上的中鋒比較上,有相當一部分中鋒球員屬于藍領,即他們能夠搶到較多的藍板,但是對籃筐的攻擊殺傷力沒有較小,這說明:隨著上世紀模奧拉朱旺,大衛羅賓遜等傳奇中鋒的謝幕,現在美職籃比賽防守強度下降,同時現在美職籃小球當道,會遠投的球員主導球場,中鋒球員的籃下勾手等基本功不再被看重,中鋒球員的得分能力被削弱,更多的中鋒偏向于搶籃板,為球隊的投手,得分手們創造更多的投籃機會。
【注釋】
①為了方便表述,把美國男子職業籃球聯賽簡稱為美職籃。
[1]朱明.數據挖掘[M].北京:中國科學技術大學出版社,2002.
[2]Willi Richert,Luis Pedro Coelho著.機器學習系統設計[M].劉峰譯.北京:人民郵電出版社
[3]張建萍,劉希亞.基于聚類分析的K均值算法研究與應用[J].計算機應用研究,2007,24(5):166-168.
[4]趙法信,王國業.數據挖掘中聚類分析算法研究[J].通化師范學院學,2005,3:11-13.
[5]袁方,周志勇.宋鑫.初始聚類中心優化的K均值算法[J].計算機工程,2007,33(3):65-66.
侯威(1992-),男,漢族,河南許昌人,云南財經大學統計與數學學院,研究方向:經濟統計。