何牧
(揚州市職業大學體育學院 江蘇 揚州 225000)
我國在過去10年里,通過引進和自主創新等方式,走出了一條適合中國國情的全民健身路線,推動了全民健身運動的蓬勃開展。與此同時,伴隨著“互聯網+”和電子商務興起并不斷發展壯大,我國體育事業也取得了長足發展。在國家對社會辦體育的政策支持下,近年來我國運動員通過參加職業賽事以及借助互聯網手段等方式積累了大量寶貴經驗。
我國的競技體育和社會運動項目經過多年快速發展,在運動成績、運動競賽管理、比賽組織管理和運動員培訓等方面積累了豐富經驗。但由于缺乏科學的統計分析方法,這些領域在很大程度上還停留在經驗時代,這就造成了體育科研成果產出效率低下并不能滿足當前對新技術手段的需求。隨著大數據分析能力提高以及信息通訊技術發展,體育科研人員可以更好地把握相關領域的發展趨勢,并為未來進一步研究提供科學依據。因此,本文主要對運動員競技比賽質量、運動訓練效果和運動競賽管理等領域進行數據分析,進而為提高我國競技比賽質量提供有益借鑒和啟示。
大數據是一種能夠全面記錄和管理信息的技術手段。大數據通過大量數據采集、挖掘和處理,可以從多種角度幫助人們了解某一領域或行業的發展情況。隨著計算機技術、數據科學與人工智能學科的發展和應用日益深入,在一定程度上改變了體育科研工作者的工作方式。近年來,隨著大數據分析技術的不斷發展,基于不同學科領域內大數據研究方法的結合,可以對運動項目開展深入細致地科學分析。體育科研人員利用大數據分析技術從各個方面提高運動項目競技比賽質量水平,包括運動員的身體狀態、訓練效果以及運動成績等等。目前體育科研工作者已經將大數據分析方法應用到了眾多領域中。比如,利用大數據技術進行對運動員心理狀態、身體素質和訓練效果情況等方面研究;針對籃球運動員身體和心理狀態進行相關數據統計;結合籃球教練員實際經驗進行數據對比與分析等。基于這些研究方法對于運動員、教練員以及決策者都具有重要意義。
我國體育科研人員在利用大數據分析技術提高比賽質量方面也已經取得了很多成績。比如,利用大數據對籃球比賽過程中各項數據進行實時記錄并進行相關研究;結合運動員身體狀態、訓練效果以及比賽結果等方面進行比賽訓練效果評估;同時針對運動員心理波動以及傷病風險問題進行分析研究等。通過對大數據的全面分析,我們可以對體育運動項目的競技能力提升做出科學決策并有效改善競賽管理效率等方面作出貢獻,進而為國家培養更多高素質人才打下良好基礎。但是隨著大數據在體育領域中應用程度越來越深,也出現了一些亟待解決的問題。比如,數據收集困難、數據挖掘技術缺乏以及統計方法存在缺陷等等;此外也有很多其他因素影響了運動競賽管理、運動訓練和運動技術的有效應用等問題。基于以上背景,本文對國內外在利用大數據分析技術方面做出研究和探索提出了一些建議:首先要對體育大數據有一個全面深刻地了解;其次要利用大數據技術提高體育競技比賽質量;最后通過數據驅動提高運動員訓練水平并幫助運動員在比賽中取得優異成績;此外對于運動競賽管理、運動訓練及競賽方面的研究也有很多值得借鑒之處。
當前,隨著大數據時代的到來,體育領域對于大數據分析也有了更加深刻的理解。首先,通過研究發現運動員訓練水平與訓練效率之間存在顯著的正相關關系,這也從側面說明了提升運動員競技水平和競技比賽質量的重要性;其次,從競技體育領域來看,基于大數據分析的比賽質量提升方法可以為體育賽事組織提供借鑒;再次,在過去10年中,我國大眾體育消費市場快速發展;伴隨著“互聯網+”運動健康理念和電子商務迅速發展以及電子商務平臺迅速普及,電子商務已經成為人們購買商品或服務的主要方式之一;最后,隨著我國網絡基礎設施日益完善,大數據分析方法也被廣泛運用于體育領域中;與此同時,“互聯網+”運動健康產業也取得了較大進步。
但在對相關研究文獻進行統計時可以發現:當前國內數據分析相關研究并不多見;同時對于該領域相關概念的定義和分類尚未形成統一且具有代表性的分類標準;這一點與當前國外大數據分析研究現狀有著較大差距;通過對體育大數據領域近10年來國內文獻、國外文獻以及相關論文進行分析可以發現:國內對于如何利用大數據分析方法來提升運動水平等問題并沒有一個統一的認識。因此目前國內對于“大數據”和“數據分析”這兩個概念存在較大的模糊認識;同時也有部分體育行業人士對大數據分析并不太了解。此外,雖然大數據分析已經被廣泛應用于各個領域中。但其目前依然沒有形成一個統一的分類標準。因此在未來需要加強對該領域相關概念的進一步普及和培訓。
體育數據通常包含訓練、比賽和賽事三個方面。訓練(training)是指運動過程中發生的一系列生理或生化反應。比賽(training),是指在一個體育比賽過程中運動員和其伙伴所進行的運動活動,通常包括各種競賽活動和非競賽活動,也稱為非賽或競技賽(fight-training)。例如,在足球比賽中,根據一場足球比賽的時間長短和勝負判定結果,可分為世界杯足球賽、歐洲聯賽、亞洲聯賽以及其他聯賽。賽事(tournament)是指比賽結束后所進行的一系列活動。包括各種類型的賽事,如世界錦標賽、奧運會比賽等。
賽事通常可以分為以下三類:一類是傳統的運動項目賽事,包括奧運會、世界錦標賽、世界杯足球賽等;一類是新興的運動項目如:馬拉松、高爾夫等;一類是其他體育運動形式,比如馬拉松和自行車。運動員通過競賽的方式實現體育價值并獲得經濟利益的同時,也伴隨著風險與挑戰——成績不穩定導致的風險與回報不對稱現象也在一定程度上影響著競技體育的健康發展與運動員自身經濟利益之間存在著微妙平衡。因此,通過建立一個有效模型來實現上述目標顯得尤為重要。本文基于體育大數據平臺和研究領域中相關文獻進行了梳理和分析,主要分為兩大部分:一是分類模型研究;二是體育大數據分析方法研究。
研究發現,分類模型可分為兩類:一類是基于概率論,另一類是基于機器學習的。其中,基于概率論的分類模型主要有Logistic、Logarithmic和Loginoidal三種,其在數據特征上都需要處理訓練數據集。但無論是Logistic模型還是Logarithmic模型,都存在不足。在此基礎上提出了兩種改進的分類方法:基于機器學習的分類方法和基于深度學習的分類方法。
然而,對于實際應用中存在的復雜因素影響,其分類效果往往會大打折扣。由于訓練樣本數據分布不均,導致訓練出的模型精度不高。另外,由于不同人、不同機構對同一賽事有不同的理解,因此對比賽結果會有很大差別。由于在傳統體育賽事中數據樣本不夠充足,因此本文提出了一個基于數據預處理和機器學習分類的方法來對比賽結果進行預測和判斷。此外還引入了兩種基于機器學習方法來識別異常值:Fisher and Bonferroni et al和Kaggle數據集上的一項研究。
本文主要研究的體育大數據分析方法主要包括基于文本挖掘的文本分類方法、基于聚類的統計分析方法、基于時間序列特征的數據挖掘方法以及基于機器學習算法的統計分析方法。本文主要研究了兩種算法:(1)基于特征的文本分類:通過特征選擇和分類器設計來提取樣本集中能夠表征文本信息的特征,并將其應用于訓練樣本集中;(2)基于聚類算法:利用聚類算法對訓練和測試樣本進行聚類,并根據聚類結果將訓練和測試樣本劃分為若干類別,然后對這些類別進行數據描述,以便于進一步研究這些類別之間存在的相關性。通過機器學習算法和傳統方法結合使用,實現了對大量非結構化體育數據(如文字、圖片、視頻、音頻等)的挖掘工作,從而發現了大量具有潛在價值的信息。此外,本文還針對體育比賽數據進行了分析和總結。研究發現:運動員成績具有不確定性,且與成績相關的變量在不同比賽階段和比賽環境下是不同的(如競技能力、心理素質、體能能力等)。
本研究通過國家體育總局、中國體科所以及中國奧委會和各省市體育局官方網站獲取了大量數據,并對數據進行了分類與統計。(1)競技項目基本信息:通過國家體育總局官方網站獲取的相關競技體育數據,如比賽項目、成績(名次),以及相關運動員的年齡、性別以及個人基本信息等;(2)訓練信息:通過國家體育總局及各省市體育局官方網站獲得訓練信息;(3)成績分析:將在競技比賽中取得優異成績的運動員與其他運動員進行比較分析,如參加世界比賽的情況和參加國內比賽的情況;(4)教練員信息:通過中國體科所和各省市體育局官網獲取教練員信息,包括教練員姓名、年齡、性別、執教項目、所屬單位以及執教年份等,為后續分析提供依據;(5)媒體信息:主要為媒體網站獲得的相關媒體信息;(6)社交媒體:網絡社交網站包括新浪微博和騰訊微博兩個主要社交媒體平臺;(7)觀眾參與數據收集自中國國家體育總局官方網站,包括參與數據;(8)電視轉播數據;體育總局官方視頻平臺的視頻資源;各省市體育局官方體育頻道等。通過對這些數據進行分類與統計,可以更加清晰地把握我國競技體育和社會運動項目在過去10年中所取得的發展趨勢,以及在未來十年中所面臨的挑戰與機遇。同時結合近年來國內外大數據領域學者在不同層面上對相關問題進行的討論等,也為我國競技體育和社會運動項目的發展提供了有益參考。
當前,隨著移動互聯網技術和電子商務等新興技術在國內的廣泛應用和快速發展,大數據已成為一個炙手可熱的領域。本文所采用到的來自于國家體育總局和中國奧委會兩個官方網站收集到的數據來自以下幾個方面:一是國家體育總局官方網站;二是中國奧委會官網;三是國際奧委會官網;四是中國足球協會官網;五是各省市體育局官方網站;六為社會力量辦體育、企業辦比賽等。
在很大程度上,運動員競技比賽質量提高有賴于以下幾個方面:(1)科學訓練和科學化訓練。科學訓練是提高運動成績的關鍵環節,尤其是當運動員處于特定狀態時,只有在具備較高身體素質基礎上合理使用訓練方法、制定科學計劃才能取得理想效果。科學訓練要遵循“三個結合”、“四個階段”等原則,即:技術與思想相結合、技術與體能相結合、運動強度與負荷相結合、身體訓練與心理素質相結合(包括有氧運動的規律)。運動員在不同階段應根據自己的能力、狀態來安排訓練計劃,從而取得最佳成績;(2)運動員個體之間存在著差異。不同項目間的發展水平和個人天賦有著很大差異,而同一項目的不同階段則會產生很強的可比性,這是保證運動員發揮出最佳競技水平所必須具備的條件。因此為促進運動員科學訓練和科學化訓練,可以從兩個方面入手:一方面是采用個體訓練和群體研究相結合、個體差異研究和群體一致性研究等方法,找出每位隊員在不同階段和個人方面存在的具體問題;另一方面則是采用大數據技術對每位運動員在身體能力、競技能力等方面進行全方位的分析與評價;(3)運動員信息技術水平提升。隨著計算機硬件性能、數據存儲容量以及計算速度等方面不斷提高和完善,可以為運動員提供更加準確、便捷和個性化的信息服務;(4)充分發揮“互聯網+”優勢。
本文主要采用了文獻資料法、專家訪談法以及比較分析的方法。從文獻資料方面來看,我們首先從數據入手,結合了“十三五”規劃的目標,通過對《關于實施促進全民健身計劃(2016-2020年)的意見》等相關文件中提到的重點項目進行分類,我們可以看到目前體育大數據研究領域主要關注的是體育大數據技術、數據應用和分析等方面,通過對這幾個方面進行綜合分析后能夠發現體育大數據在運動訓練和比賽等相關領域中具有很大的潛力。
從專家訪談方面來看,專家們根據自身研究方向提出了許多具有指導性的意見和建議。通過比較分析方法來看,我們對專家們所提出建議進行了梳理總結,并且利用 SWOT方法對每一項內容所具有的優勢和劣勢進行了分析。綜合考慮國內外大數據研究領域存在的問題以及對未來發展趨勢做出預測之后,結合大數據領域目前研究最活躍的領域和當前重點項目展開分析。
本文主要采用了統計分析、案例和數理模型四種方法。統計分析部分主要包括回歸建模、灰色預測、多元線性回歸以及聚類模型等;案例研究部分涵蓋了美國奧運代表團訓練模式分析、中國體育總局訓練基地運動員訓練模式變化特征與規律、美國運動員競技能力差異及特點等方面;數理模型部分主要包括運動項目數據集結構化特征與預測結果等。比較分析部分首先利用 SWOT方法,結合當前運動項目數據集中的優勢和劣勢以及國外相關案例進行比較;接著將研究結果運用到中國競技體育實際,進而預測未來中國競技體育在未來幾年內可能面臨的問題。以上是本文主要采取的研究方法。接下來就文章內容進行了總結。文章從數據收集到最后處理呈現兩個階段:第一個階段主要是數據收集;第二個階段就是在對數據進行歸類整理并對其進行預測分析;第三個階段為對預測結果進行檢驗評估并進一步指導訓練計劃。
在大數據時代,人們已經習慣于利用技術手段來解決問題。在此過程中,數據分析方法本身也得到了不斷改進。但是,對于大數據時代的體育研究者而言,在對現有數據進行分析時,仍然存在一些問題。
第一是數據來源方面的問題。目前,絕大多數學者都傾向于使用互聯網等非結構化信息進行研究,這會導致研究對象在統計上的不準確或者說缺失信息。從大數據角度看,體育大數據的來源并不少,但是由于沒有經過訓練或者數據處理水平較低等原因導致統計誤差大。對于不同運動員個體而言,大數據分析的結果可能也存在差異;而對于不同國家或地區而言則可能會存在差異問題;
第二是相關概念和術語方面的問題。目前大數據領域出現了大量關于大數據技術、大數量概念、大數據技術等方面的相關理論或研究成果,但并沒有形成統一的標準體系和分類體系;同時這些概念或者術語本身也具有一定的模糊性或不確定性;
第三是數據挖掘和分析方面存在的問題。首先在數據挖掘層面上,目前還沒有形成統一標準和體系;其次是在數據挖掘和分析方法上還存在著一定的局限性;
第四是技術路線上存在誤區。從大數據技術和相關領域專家學者研究提出了多種不同技術路線、不同層次概念和術語來對數據挖掘問題進行解釋;
第五是數據分析本身存在一些缺陷或不足之處。盡管目前相關領域已經出現了一批專業人才,但大多數仍處于起步階段、經驗較少并不成熟;同時研究人員所采用的方法都是基于統計層面上進行數據收集、整理和挖掘,而不是在理論研究基礎上進行數據挖掘,這樣得出的結論往往有很大局限性明顯;
第六是大數據分析模型本身缺乏可擴展性問題。大數據分析模型主要有兩種:一種是基于數據驅動、模型選擇、預測等傳統方法建立起來的機器學習模型;另一種則是采用傳統統計算法進行數據處理建立起來的機器學習模型。前者雖然在某些方面具有一定優勢,但在某些方面存在很大局限性或限制而不能完全發揮作用;而后者則具有一些明顯優勢或局限性;
第七是大數據分析本身不夠完善或存在局限性問題,主要表現為如下幾個方面:(1)對大數據分析能力不足;(2)對相關概念及術語等理解不夠準確;(3)沒有考慮到不同類型體育比賽之間差異性問題;(4)對數據處理水平較低所導致結果不夠準確等;(5)缺乏大數據分析中所涉及到大量理論和方法知識方面的相關理論知識和研究經驗;此外很多學者還缺乏運用大數據分析方法所需的統計基礎知識、相關領域知識和數學分析方法知識等;
第八是數據本身所具有不確定性、偶然性問題造成應用局限問題導致了對大數據分析能力不足或不夠強等問題影響了大數據分析模型建立過程中可能出現的偏差問題,進而導致模型本身存在諸多局限性或誤差問題、以及大數據研究方法本身不夠完善等問題造成大數據分析模型應用困難問題,這些也會影響到人們對大數據庫模型建立過程中存在偏差或可能出現偏差等問題所可能帶來損失時的補償與彌補方案及相應措施設計的合理性提出質疑等方面工作。
通過對過去10年我國運動員競技比賽質量的大數據分析,我們可以發現以下幾個方面。在國家對社會辦體育的支持下,部分運動員已經開始參加職業賽事,并取得了不俗成績。通過大數據對過去10年我國運動員競技比賽質量進行分析,我們發現我國當前的運動項目在“以賽促練”、“以賽帶訓”等方面還存在諸多不足。通過分析近10年不同類型項目成績變化發現,我國競技運動總體上發展良好,但仍存在著發展不均衡、不充分和結構性矛盾突出的問題。