中圖分類號:TP181 文獻標識碼:A 文章編號:2096-4706(2025)08-0065-06
Abstract:With the accumulation of sports data and therapid development of Artificial Intellgence technology, it is particularly important touse Big Data and Machine Learming methods tooptimize player position prediction. However, traditionalmethodsoftenignorethecomplexstructuralrelationshipsbetweenplayers,whicharecrucialforpositionprediction. Therefore,this paper proposes a player position prediction model based onNode2Vecand Light Gradient Boosting Machine (LGBM).Through data mining andanalysis,thebasicdataofCBAplayers inthre seasons are crawled,andtheLGBMmodelis usedtopredictthepositionofplayers.Combied withhyper-parameteroptimizationandNode2Vec graphembeddngalgorithm, the accuracyof the modelitself is further improved.Theexperimentalresults show thatthe modelcan notonlyeffectively optimizetheteam'sieupandtacticalarrngements,butalsoprovide strongsupportfor thetamtoenhanceitscompetitiveess and overall performance.
Keywords: Machine Learning; Light Gradient Boosting Machine; Node2Vec; prediction model
0 引言
隨著比賽數據的逐漸增多和分析技術的進步,對球員位置的分析已成為運動研究的重要方向。傳統上,球員位置的評估主要依賴于教練和分析師的主觀判斷,這種方法常常受到經驗和個人偏見的影響。近年來,數據科學和人工智能[技術的飛速發展為球員位置的量化評估提供了新的思路。這些分析方法不僅能夠處理球員在比賽中的基本統計數據,如得分、助攻和防守等數據,還能深入挖掘與球員表現相關的多維特征,從而為球隊在戰術安排、人員配置和球員選拔等方面做出更為科學的決策[2]。通過這些創新的技術手段,球隊能夠更精準地識別和優化球員的最佳位置,提升整體競爭力。
目前關于球員位置的研究主要集中在數據分析[3]和機器學習[4的應用。符巍[5]提出了一種結合數據包絡分析和多元邏輯回歸的運動隊成績預測方法。該方法通過多元邏輯回歸分析運動隊獲勝概率與比賽結果的關系,然后利用數據包絡分析評估球員組合效率,以優化球員選擇和比賽時間安排。Anil等[分析美國國家籃球協會(NBA)15個賽季的統計數據,采用層次聚類方法對球員進行分組,并且結合調整后的正負值、平均分差等績效指標,評估球員個體成就。Nouraie等[提出了一種基于機器學習模型的算法,用于確定足球運動員的合適位置。該算法利用FIFA數據集,邏輯回歸模型在所有位置上實現了 9 9 . 8 4 % 的平均準確率。Raajesh等[通過采用K-means聚類算法,根據球員的歷史表現數據和擊球率對球員進行分類,從而幫助教練和選拔者組成更平衡的團隊。Yagin等[通過全球導航衛星系統對一支足球隊日常訓練數據進行追蹤,采用隨機森林、梯度提升樹、集成分類與回歸樹等算法創建模型預測足球運動員位置,研究結果顯示,隨機森林模型實現了 100 % 的準確率,表明其能夠準確預測所有球員位置。隨著運動追蹤技術的應用,楊杰[提出了一種基于加速度傳感器的球員位置跟蹤與分析方法,解決了現有無線傳感器方法中精度不足和數據類型有限的問題。該方法不僅能確定球員的場上位置,還能識別球員動作,實驗結果顯示該方法性能良好,可以滿足實際球員分析需求。
本文的主要貢獻有以下方面:
1)籃球作為一項對戰術要求極高的運動,球員的位置選擇和移動直接影響比賽的結果。然而,在籃球領域,系統性的位置預測研究仍然顯得不足。盡管在其他運動項目已經有許多相關研究,利用先進的數據分析技術來預測球員的位置、優化戰術布局并提升團隊的整體表現,但在籃球領域的研究仍然有限。本文通過構建CBA球員與比賽數據的交互模型,充分利用其結構信息來提升預測模型的準確性。這種細化的方式能夠更精準地識別影響球員位置選擇的關鍵因素,從而為球隊提供更加科學的人員配置和戰術安排。
2)本研究采用輕量級梯度提升機(LightGradientBoostingMachine,LGBM)與Node2Vec算法,旨在實現對運動員場上位置的精確預測。LGBM作為一種高效的機器學習模型,具備處理大規模數據集的能力,并能挖掘出復雜的特征關系,從而對運動員在不同位置上的表現進行準確評估。同時,本研究引入Node2Vec算法進行數據增強,該方法利用圖嵌入技術,能夠有效地捕捉運動員之間的相互作用關系以及比賽場上的動態信息。通過這兩種技術的結合,顯著提升了對運動員場上位置的預測精度,并為球隊在戰術規劃和人員配置方面提供了更為科學的數據支撐。
1 數據準備
1. 1 數據描述
通過Python爬取了CBA球員3個賽季(2021—2022、2022—2023和2023—2024)的基礎數據。CBA球員基礎數據主要包括球員身體數據(年齡、身高、體重等)和球員表現數據(得分、排名、籃板等),共計41個特征。
1.2 數據預處理
在數據預處理過程中,特征選擇是減少高維數據冗余和噪聲特征的重要步驟。通過去除無關或冗余的特征,可以有效降低算法的學習時間和空間復雜度,避免維數災難,提升模型的運行效率和泛化能力。在本次數據集中,原始特征共有41個,其中包含一些信息重復的特征,例如球員姓名與球員編號、球隊名稱與球隊編號等。經過對特征的篩選和清理,刪除這些重復特征后,最終保留的特征數量為34個,保留了對模型預測任務有重要貢獻的信息,為后續分析奠定了良好的基礎,如表1所示。
本文通過機器學習算法,從球員身體數據和球員表現數據中提取關鍵信息,從而實現對球員位置的預測。
2 球員位置預測算法
2.1 LGBM算法
LGBM算法是對梯度提升決策樹(GradientBoostingDecisionTree,GBDT)算法的改進[1],改進主要體現在基于Histogram的決策樹算法[12]。其基本思想是:首先把連續的浮點特征值離散化成 k 個整數,并構造一個寬度為 k 的直方圖。在遍歷數據的時候,根據離散化后的值作為索引在直方圖中累積統計量,當遍歷一次數據后,直方圖累積了需要的統計量,然后根據直方圖的離散值,遍歷尋找最優的分割點。直方圖做差加速的基本思想是:一個葉子的直方圖可以由它的父節點的直方圖與它兄弟的直方圖做差得到,如圖1(a)所示。
圖1為LGBM算法相關內容,它擺脫了傳統的按層生長的決策樹策略,而是使用了帶有深度限制的按葉子生長算法。該算法每次從當前所有葉子中,找到分裂增益最大的一個葉子,然后分裂,如此循環,直至結束。其算法原理如圖1(b)所示。
此外,LGBM算法還可以直接輸入類別特征,并且支持高效并行[13],可以實現大樣本下的快速運算。
2.2 模型優化
在確定基模型后,要提高模型的準確率,一般通過超參數調節、數據增強或擴充以及模型集成等方法進行模型優化。本文通過超參數調節和數據增強實現模型的優化。
2.2.1 超參數調整
超參數調整對LGBM模型至關重要,因為它能夠顯著影響模型的性能和泛化能力。LGBM作為一種高效的梯度提升決策樹算法,具有多個可調的超參數,如迭代次數、學習率、最大樹深度、正則化參數(L1,L2)、樹的最大葉子數和分支節點最小權重等。合理的超參數設置可以提高模型的預測準確性,并增強其在大規模數據上的處理能力。例如,較小的學習率通常需要更多的樹,而過多的樹可能導致過擬合,反之亦然。通過精心調整這些超參數,可以提升LGBM模型的表現,使其在不同數據集上的效果更加穩健。
LGBM算法一般使用網格搜索(GridSearch,GS)、隨機搜索(RandomSearch)和貝葉斯優化(BayesianOptimization)等超參數優化技術,這些技術可以幫助自動化這一過程,從而找到最佳的參數組合。
網格搜索和隨機搜索[14對每種超參數組合都是獨立計算的,容易造成計算浪費,但方法簡單。而貝葉斯優化算法則利用中間計算信息指導之后超參數的選擇。
貝葉斯優化是基于數據使用貝葉斯定理估計目標函數的后驗分布,然后再根據分布選擇下一個采樣的超參數組合[15]。它充分利用了前一個采樣點的信息,其優化的工作方式是通過對目標函數形狀的學習,找到使結果向全局最優提升的參數組合。概率函數為:
其中, f ( x ) 為 x 的目標函數值, 為到目前為止最優的 x 的目標函數值, μ ( x ) 、 σ ( x ) 分別為高斯過程所得到的目標函數的均值和方差,即 f ( x ) 的后驗分布。 ξ 為權重系數。
通過下式求取 x
其中, 為前 t 個樣本,在正態分布的假定下,最終得到:
其中,
2.2.2 數據增強
為了應對數據集中存在的高維性和稀疏性問題,引入潛在變量模型來捕捉全局關系結構模式。將Node2Vec圖嵌入算法應用于原始數據集,生成更多嵌入樣本,形成增強數據集。
Node2Vec圖嵌入算法通過控制隨機游走的方式,在一定程度上實現了對網絡結構的廣度優先和深度優先搜索[1],從而有效地捕捉圖的全局和局部結構信息。具體而言,Node2Vec利用兩個超參數 p 和 q 控制游走的偏好,進而調節對局部鄰域和全局關系的關注程度。在游走過程中生成的節點序列通過SkipGram模型映射為低維嵌入向量,使得相鄰節點在向量空間中具有更高的相似度,從而捕捉到節點間豐富的局部與全局關系。Skip-Gram模型的目標函數如下:
其中, V 為所有節點的集合。 N ( u ) 為節點 u 的上下文節點(在游走中與 u 相鄰的節點)。 是給定節點 u 時生成上下文節點
的概率。
這種嵌入方式應用于籃球球員數據時,有助于深入理解球員得分數PTS與投籃次數FGA的關系。主要分為以下步驟:
1)對高維數據進行相關性分析,通過相關矩陣分析變量之間的關系,得出球員得分數PTS與投籃次數FGA之間的相關性較強,如圖2所示。
2)根據特征關系矩陣圖,從原始數據集中抽取PTS和FGA,并將他們組成一個新的邊列表數據框,如圖3所示。
3)將邊列表框轉化為圖對象,計算每個節點的特征向量中心值和度,并將結果拼接到原始數據集中。
4)根據圖對象訓練并創建Node2Vec模型,并保存好模型和節點嵌入。
5)獲取得分和投籃次數的嵌入向量,并將它們拼接成一個新的嵌入向量,再與原始數據集進行拼接。
2.2.3 性能指標
對于分類算法,常用的評價標準包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值等。準確率即所有預測正確的占比,精確率表示預測為正確類別中實際正確的占比,召回率指所有實際為正確類別的樣本中被正確預測的比例。F1值綜合反映了模型性能,F1值越大,說明分類效果越好。
在二分類評價指標的基礎上,CBA球員位置的分類評價指標采用加權平均值,每種類別的準確率、精確率、召回率、F1值等分別表示為 ,
,
,
為權重,共有 n 個類別。
模型的整體指標為單個指標的加權平均值,權重由每個因素的個數決定。
3 實例驗證
3.1 預測模型
首先,通過常用的機器學習算法對原數據進行分類與比較,對于CBA球員數據的33個特征,輸入特征為球員身體數據和球員表現數據,輸出數據為球員的位置,即控球后衛、得分后衛、中鋒、小前鋒和大前鋒。通過算法從輸入特征中提取信息從而實現對球員位置的預測。選取 20 % 數據為測試集,其余 80 % 數據為訓練集,訓練得到模型的準確率如圖4所示。
從對比實驗結果可以看出,LGBM在該任務中的預測效果最佳。圖中顯示,LGBM的準確率達到了 62 % ,優于XGB( 60 % )、邏輯回歸( 5 5 % )和K-最近鄰算法( 52 % ),這說明LGBM在整體預測任務中的表現更為優越。
3.2 超參數優化
采用多種優化方法對模型進行調優,得到了更全面的模型評價指標。具體而言,在實驗過程中,應用了網格搜索、貝葉斯優化策略,對模型的超參數進行了系統調整,優化后對應模型的最優參數如表2所示。
從最優參數表可知,LGBM模型的學習率為0.1,經過網格搜索和貝葉斯優化后,學習率分別提高到
0.15和0.20。較高的學習率可以加快模型的收斂速度,但可能會影響模型的穩定性,因此選擇學習率需要平衡速度與精度。
在貝葉斯優化后的LGBM中,最大樹深度被調高至11,網格搜索優化后為8,而原始LGBM為7,更大的樹深度允許模型更好地捕捉數據中的復雜特征,但可能會增加過擬合的風險。因此網格搜索和貝葉斯優化后分別引入了 正則化(0.8和
),有助于防止模型過擬合。
通過網格搜索和貝葉斯優化對LGBM模型進行超參數調節計算各項指標的加權平均值,如表3所示。
上述結果表明,Bayes-LGBM模型可以從復雜的CBA數據中提取相應特征,實現球員位置分類,得到相對較高的準確率、精確率、召回率和F1指數,具體結構如表4所示。
結果說明,相比于未通過超參數調整的LGBM模型,Bayes-LGBM模型對球員位置的選擇有一定的提升,但從整體的識別精度來看,還需要進一步優化。
3.3 Node2Vec圖嵌入優化
通過Node2Vec圖嵌入算法進行數據增強,然后再通過LGBM實現球員位置的預測。Node2Vec-LGBM模型評價指標如表5所示。
此時的模型準確率可達到 9 9 . 5 % ,即幾乎可以完全準確預測球員的位置。Node2Vec-LGBM模型的混淆矩陣如圖5所示。
4球員位置預測
選取某一球員2024年某場次的信息,進一步驗證所提出的Node2Vec-LGBM模型優越性。輸入球員“高登”的信息,如表6所示。
將信息代入訓練好的Node2Vec-LGBM模型中,輸出結果成功預測為“控球后衛”,這一結果與實際信息相符。該實驗結果說明,Node2Vec-LGBM模型不僅在訓練數據中表現出色,甚至在未經訓練的新數據上依舊能夠準確地預測球員的位置。Node2Vec算法通過捕捉圖的全局和局部結構特征,使得球員的復雜關系被有效量化,而LGBM則進一步利用這些嵌入特征進行分類。在這種模型架構下,即使面對全新球員的數據,模型依然能夠識別出相似特征,進而準確判斷球員的位置。這樣的技術不僅可以提高球隊在賽場上的競爭力,還為運動分析和個性化訓練策略提供了新方向。
5結論
本文基于LGBM模型,通過CBA球員的身體特征和球員表現特征對球員的位置進行預測,根據球員身體素質和表現情況就可以確定該球員適合哪一位置。通過對近3年數據的訓練,說明LGBM模型在該數據集上的表現最好,而通過超參數調節后,模型的準確率可達 71 % ,即該模型對于球員位置的預測結果具有一定的參考意義。
若為追求更高的準確率,還可以通過Node2Vec圖嵌入算法進行數據增強,得到的Node2Vec-LGBM模型預測準確率可達 9 9 . 5 % 。在2024年新數據上進一步驗證了該模型,說明模型具有較強的泛化能力和魯棒性。未來,可以通過更多未經訓練的數據集進一步驗證模型的優越性,更好地為球員的位置提供一定的決策參考。
參考文獻:
[1]霍波,李彥鋒,高騰,等.體育人工智能領域關鍵技術的研究現狀和發展方向[J].首都體育學院學報,2023,35(3):233-256.
[2] YUCEBA\$ S C.A Deep Learming Analysis for the EffectofIndividualPlayerPerformancesonMatch Results[J].NeuralComputingandApplications,2022,34(15):12967-12984.
[3]王澤軍,游松輝.大數據背景下基于位置數據的足球戰術分析方法及發展趨勢[J].上海體育學院學報,2021,45(9):
[4]金映言,賈俊,洪敏杰,等.面向NBA球員的數據分析和可視化[J].計算機應用與軟件,2021,38(8):84-91+174.
[5]符巍.基于數據驅動與數據包絡分析的運動隊成績預測[J].山東體育學院學報,2021,37(4):102-111.
[6]ANILDUMANE,SENNAROGLUB,TUZKAYA G.AClusterAnalysisofBasketballPlayersforEachofthe Five Traditionally Defined Positions [J].Proceedings of the Institution ofMechanical Engineers,Part P: Journal of Sports Engineering and Technology,2024,238(1):55-75.
[7]NOURAIEM,ESLAHCHIC.PositioningSoccer PlayersforSuccess:AData-Driven MachineLearningApproach [J].Computational Mathematics and ComputerModelingwithApplications(CMCMA),2023,2(1):24-33.
[8]RAAJESHS,MARTINN,JIJIJ,etal.Cricket Team SelectionandPlayerAnalysisusingDataAnalytics[C]//2O24IEEE RecentAdvancesin Intelligent Computational Systems (RAICS). Kothamangalam:IEEE,2024:1-6.
[9]YAGINFH,HASANUCH,CLEMENTEFM, et al.Proceedings of the Institution of Mechanical Engineers, Part P:Journal of Sports Engineering and Technology [EB/OL].[2024-09-28].https://journals.sagepub.com/doi/ abs/10.1177/17543371231199814.
[10]楊杰.一種基于傳感器的球員追蹤方法[J].微型電腦應用,2023,39(3):12-16.
[11]王飛,黃濤,楊曄.基于Stacking多模型融合的IGBT器件壽命的機器學習預測算法研究[J].計算機科學,2022,49(S1):784-789.
[12]HUJ,CAOBX,ZHAOJX,etal.Researchon HumanActivity BehaviorRecognition TechnologyBased on LGBMModel[C]//2023IEEEInternationalConferenceon Sensors,Electronics and Computer Engineering (ICSECE). Jinzhou:IEEE,2023:920-923.
[13]魏志強,張浩,陳龍.一種采用SmoteTomek和LightGBM算法的Web異常檢測模型[J].小型微型計算機系統,2020,41(3):587-592.
[14]李海霞,宋丹蕾,孔佳寧,等.傳統機器學習模型的超參數優化技術評估[J].計算機科學,2024,51(8):242-255.
[15]李愛華,劉婉昕,陳思帆,等.面向不平衡數據的SMOTE-BO-XGBoost集成信用評分模型研究[J/OL].中國管理科學,2025:1-10[2025-03-24].https://doi.org/10.16381/j.cnki.issn1003-207x.2023.0635.
[16]HAJ,PARKS.NCMD:Node2vec-BasedNeuralCollaborative Filtering for PRedicting MiRNA-Disease Association[J].IEEE/ACM Transactions on Computational Biology andBioinformatics,2023,20(2):1257-1268.
作者簡介:何家麗(1999一),女,漢族,山西長治人,碩士在讀,研究方向:機器學習;楊軍(1986一),男,漢族,湖北荊州人,副教授,博士,研究方向:孤立子與可積系統。
江臺州人,助教,碩士,研究方向:計算機視覺;羅艷玲(1982.06一),女,漢族,湖北宜昌人,副教授,碩士,研究方向:計算機視覺;盧娜(1983.04—),女,漢族,湖北武漢人,講師,碩士,研究方向:計算機視覺;胡定興(1996.10一),男,漢族,江西南昌人,助教,碩士,研究方向:深度學習、自然語言處理;朱大琴(1981.06—),女,漢族,湖北天門人,講師,碩士,研究方向:思想政治教育研究、教學研究與教學改革。