付燁 覃靜薇 王蘭妹 劉袁
(廣西師范大學體育與健康學院 廣西 桂林 541006)
隨著信息時代的到來,體育科研人員必須順應時代的發展,主動適應時代的變化,轉變科學研究的思維模式。在處理調查對象時,應以總體觀念取代傳統的隨機抽樣觀念。在處理數據類型時,應從非結構的角度來看待傳統的結構數據,并且能夠承受大量的無序和錯誤。此外,要善于從眾多的體育實務中發現新的、有價值的主題,并積極地尋找這些預測的成因。隨著“大數據戰略”被提上了國家戰略,體育科研和大數據的結合將會更加緊密地推動我國體育事業的發展。
自2012年以來,“大數據”一詞逐漸受到重視,其定義源自于信息時代的大量數據爆炸,以及與之相關的技術發展和革新。在大數據時代,數據已經滲透到了社會的方方面面。從某些方面來說,體育就是一堆數據。從科研的角度來看,體育是最好的,也是最適合做大數據實驗的。IBM公司從1994年開始就把大數據應用與已與體育研究緊密聯系在一起。基于數據挖掘,利用人工智能技術從體育實踐中獲取海量的數據,探索未知的體育模型和知識。盡管人們已經認識到大數據的重要性,但中國科學院的李國杰表示,相對于大數據的經濟價值,大數據的科學價值似乎并不被人們所關注。其實,隨著大數據的研究思路的改變,人們對大數據的認識也會逐漸增加,并且能夠更好地利用大數據進行科學研究。
(1)小數據時代下隨機抽樣是體育科學研究的歷史必然。
在小數據時代,由于資料的記錄、儲存和分析手段的限制,科研工作僅限于小規模的調查。為了使研究變得簡單可行,研究人員必須對數據的選擇進行權衡,因此,取樣就成了科研的必然選擇。同時,在多種取樣方法中,采用隨機取樣方法是最佳的。隨機取樣法是一種取樣方法,它使得所有的單元都具有一個已知的、非零的可能性。一般情況下,隨機取樣與取樣的隨機性密切相關,并不會隨著取樣量的增多而提高。這是因為,在樣本數目達到某個閾值之后,新的樣本所能提供的特性會逐步降低,就像經濟上的邊際效應遞減效果一樣。比如,在全國范圍內的體育人口普查中,采用預先設定的隨機抽樣計劃,僅針對整體中的一部分進行調查。隨機抽樣在國內外已有很好的應用前景,但其存在的缺陷也是不可忽略的:在實踐中,很難做到完全隨機性的采樣。取樣必須做到公平,不得帶有任何的主觀色彩。反之,結果往往是錯誤的,而且當樣本的條件非常復雜時,最佳樣本就很難掌握。而想要用隨機抽樣來掌握被試的全部特性,就會成為一種奢侈。此外,隨機取樣方法不適用于研究不同類型的情形。由于取樣速率隨機錯誤的結果會隨著進一步的分解而大幅提高。此外,在體育社會科學的傳統研究中,通常采用問卷的形式進行數據搜集,但這些數據通常沒有時間上的連貫性。所以這些機構的預測與推理往往具有局限性。
(2)“信息技術”和“大數據國家戰略”使體育科學研究中總體研究成為可能。
在信息技術革命的今天,我國的體育科學研究從“隨意性”向“全局性”轉變。在小資料年代,隨機抽樣是我國體育科學研究的重要組成部分。由于實驗手段的限制,科學實驗采用了小樣本、資料權衡、隨機取樣等方法。雖然隨機取樣是一種可行的方法,但是它也存在著一定的限制,難以達到完全的隨機性。且在條件較復雜的條件下,很難掌握最佳樣本。在大數據時代,以開放的數據獲得途徑為基礎,進行技術進步和實施大數據戰略,為體育科研提供了技術依據和體制保障。信息科技的發展,催生了許多新的科技工具的出現,如,“可穿戴”裝置于2013年的興起,使人類行為、位置、生理指標的大量紀錄與分析成為可能。新技術的發展將為洞察社會輿情和社會心理提供更多的技術可能性。美國StatsLLC于2013年9月在NBA 2013-2014賽季的全部比賽中采用了體感跟蹤技術。該技術使用了Stats的SporsVU球員追蹤系統,可以跟蹤速度、距離、球員之間的距離,最關鍵的是,所收集到的資料都是被試對象正常狀態的記錄,是一種多元的數據,不會受到任何不相干的因素的干擾,盡管其中有“噪音”數據,但研究不再需要考慮研究中和問卷調查中的偏頗(包括研究者在設計和問卷調查時的偏誤,以及由于自己的社會作用而導致的日常心理和行為)。同時,越來越多的信息獲取途徑也在推動著“大數據”的發展。美國白宮科學技術政策辦公室于2012年3月公布《大數據研究和發展計劃》,并成立了“大數據高級指導組”,這是美國將大數據提升至國家戰略水平的標志。2011年11月,歐盟就公開了數據開放策略。可以預見,隨著全球范圍內大力推行大數據戰略,大數據也成為了我國信息化建設中的一個關鍵環節。
隨著大數據采集與挖掘技術的不斷發展,“大數據”國家戰略的實施將為體育科研應用提供技術依據和體制保證。而以整體研究為基礎的體育科學研究所,其成效是明顯的。以芝加哥大學的經濟學家史蒂夫列維特為例,他在日本“相撲”中進行了一項關于非法操縱競賽結果的調查。他對過去64000次的相撲紀錄進行了分析。調查發現:雖然偶爾也會有一些違法的行為,但都不會涉及到大眾最關注的賽事。冠軍聯賽也有被人操控的危險,但統計表明,負面的比賽更多地發生在一些不受重視的聯賽后面。這是因為相撲體育中的利益不對稱性。如果一場比賽的勝負對于一方來說是非常關鍵的,而對于另外一方來說,這是一種非法的操縱。如果是隨機抽取,那么這種結果很有可能是不存在的。
(1)小數據時代下體育科學研究結構型數據的精確性。
在信息量缺乏的年代,科研工作最基本的要求就是確保科研工作的質量。但是,由于所收集到的數據量很少,所以在小數據時代,精確成為科學研究的最基本的需求。在許多的研究中,研究者們常常會把精力放在對測量工具的優化上,以提高調查結果的準確性。此外,通過隨機取樣來減少科研費用,對精度的要求也越來越高。這是因為研究所能收集到的資料有限,所以對每一份資料的準確性都有很大的影響,如果有一份資料出錯,很可能會影響到最終的研究成果。但在實際應用中,由于數據的不正確性,研究人員往往會時時關注預防和避免差錯。為了降低采樣錯誤發生的可能性,研究人員采用了不同的方法來進行采樣。例如,為了檢驗研究結果的精確度,研究者們往往會進行反復的試驗,以檢驗和驗證樣品中可能出現的系統偏差。這無疑是一項耗時耗力的工作,而在實踐中,這種規避策略的執行難度較大。
(2)大數據時代下體育科學研究非結構型數據的混亂性與包容性。
在大數據時代,對數據準確性的需求已經逐漸淡出人們的視野。由于放寬了容錯率,研究所可以獲得更多的數據,各種數據的增多對于他們的研究來說,將會有更多的新的理論和知識。在這種情況下,大數據并不比小數據有更多優點,但大數據能產生更好的效果。由于資料種類的增加,研究所獲取的資料會出現一片混亂的狀況,這主要是因為測量角度和測量工具的差異,從而導致資料的錯綜復雜。此外,不一致的格式,提取或處理數據也會造成混亂。而在大數據時代,為了獲取海量的數據,研究人員往往會忽視個體數據的準確性,因為數據的完整性可以讓他們更好地掌握研究的細節。體育研究中的資料是雜亂無章地拼湊起來的,比如,把體育影像資料與生理學資料混雜在一起。而且,要想讓計算機辨認出它們,就必須給它們打上不同的標簽,而且它們都有一個統一的分類準則。但是它為我們的搜尋提供了一個更加深入和廣泛的方法。所以,在這種情況下,“混亂”是一種在大數據時代進行體育科學研究的常規方式。另外,傳統的數據庫都是事先設置好的,有序的格式庫。這是一個有組織的數據庫。但是,在大數據時代,這個數據庫不需要事先設置,它的數據結構是多種多樣的。在大數據時代,非結構數據庫打破了以往數據庫所要求的時間一致性,采用“無限近似于樣本等于全局”的方式進行數據處理。而且,這份材料的質量也很重要。在大數據時代,對數據的處理技術進行研究,不僅能確保數據的完整性和可信度,而且還能確保數據的準確性。還可以通過多種途徑、多角度收集和挖掘被試的觀測資料,從而使研究者更加客觀、真實地了解體育的客觀規律。
在大數據時代,體育科研思維的轉變,反映在新的研究范式中,以新的主題發現為基礎。傳統的體育科學研究是從體育的實踐問題出發,探索與研究對象的關系,以及總體的表現方式。由于資料有限,研究途徑有限,研究多采用理論方法,以理論為依據,引導研究者選取相關對象,搜集相關資料,分析相關關系,論證相關問題,若不符合,就重復試驗,直至得出結論,這樣的范式會導致研究進展緩慢,受到偏見的影響,很容易出現錯誤。而在大數據時代,體育科學研究的新范式,則是基于已有的相關因果關系的研究。分析關聯是大數據的核心和對事件的發展的預測。從關聯中發現新的問題在大數據時代,由于不同領域之間的關聯關系不斷被發掘,這給我們的研究帶來了新的機遇與挑戰。一方面,許多關聯的發現為研究者們提供了新的研究方向;另一方面,不同領域知識之間的相互關聯,需要有一個更為完整的知識系統。
在小數據時代,體育科研往往從體育實踐活動中所出現的問題入手,尋找與其相關的研究對象。這種以假定為起點的因果關系研究具有一定的歷史背景。在大數據時代以前,由于資料稀少,信息采集的渠道也不暢通。因此,一般的方法就是利用基于理論的假設來引導研究人員選擇合適的相關對象;其次,對關聯對象的相關資料進行相關分析,以確定該關聯對象的適用性。如果不行,那就再來一次實驗。研究人員對這些假設進行了反復的檢驗,最終得到了研究的假說的驗證。但是,這個模式對于研究的推進十分緩慢,而且研究成果也會受到個體和群體的偏頗的影響,從而使研究在建立假設、驗證假設、選取相關對象時出現失誤。
大數據的關鍵在于通過關聯關系的分析來預測未來的發展。從操作上來說,這是一種統計上的關系。對事物進行有效的關聯,不能揭示其內在的運作規律。此外,在實務上,僅有的體育現象已不再存在,比如,體育研究中存在社會學、心理學甚至環境氣象學等方面的問題。麻省理工學院對美國職棒聯盟11896次的投球得分圖進行了分析,結果顯示:在投球時,環境的影響要遠遠大于心理上的影響,因此,叫暫停并沒有什么意義,不如去了解一下氣候條件。通過對這些數據進行復雜的分析,可以發現它們之間的非線性關系,而且不是單純的線性關系,而是一種非常復雜的關系。在大數據時代,新的分析方法和思維方式為體育科學的研究開辟了新的視野和新的前景,同時也讓研究者們了解了許多過去沒有發現的體育規律,了解了以往所不能了解的體育現象和體育發展的規律。
體育科學受到大數據時代的影響,其學科的思維和激情得到了激發,體育學科從單一片面的發展方式轉為全面的、多樣化發展,可以有效地克服目前我國體育事業中的一些問題。近年來,體育科學與行為科學、社會心理學、管理學、產業經濟學、心理學等多學科的融合,對其發展起到了積極的促進作用。體育科學研究是體育領域的一個重大課題,包括體育研究課題、體育可持續發展研究課題、人才培養優化、國家體育國力研究課題、體育管理經營課題、體育產業研究課題等等,都要求體育科學研究按照高度綜合與高度分化的發展趨勢進行研究。因此,高層次的綜合性和差別性成為當前體育教學發展的重要方向。
在大數據背景下,體育科研思維的發展要求改革科研方式,加快發展的步伐。以邵偉德等學者為例,對體育科學的研究方法進行了統計,結果顯示,體育訓練是論文中的主要內容,并將先進的生物化學分析儀、三維成像與三維數字成像技術與攝像技術、解析法、灰色關聯法、計算機仿真法等現代科學研究方法,以增強體育科學的科學性,同時也能有效地改善科學研究的質量。當前,我國的體育科學研究正逐步向跨學科發展,各種科學的研究方法不斷地移植、滲透和融合,使得體育科學的研究手段在大數據的背景下不斷地變得復雜和多樣化。當前,傳統的單一研究手段難以有效地處理體育研究中的問題,需要采取綜合性的研究手段。比如,在體育科學研究中,利用數學運算對有關數據進行統計分析,從而提高科學研究的準確性和科學性。在大數據時代,科學的認識和方法學的邊界較為模糊,這就導致了不同學科的不同方法的融合,從而增強了體育科學的研究價值,并使其研究的方式更為多樣化和綜合性更強。
高校體育科研工作者要順應新的發展趨勢,充分利用大數據技術,轉變傳統的體育學科研究模式,采用現代化、綜合的科學思想和方法,進行體育科學的創新和創新。體育科研作為一項全新的學科,必須突破傳統思維模式,為體育科研的變革奠定基礎。在信息化條件下,近幾年的研究表明,我國體育工作者的思維觀念由封閉性向全面開放性、創新性轉變,反映了我國體育工作者思維模式的轉變。其中,辯證思維、立體思維、系統思維等與想象思維、直覺思維等非邏輯思維模式和方法,在競技體育科學思維改革過程中得到了廣泛的應用,進而全面深刻地推動了競技體育科學思維的發展,使得它在體育科學問題的選擇上更加具有獨特性、科學性、創新性和價值性。
由于大數據在我國的發展尚處于探索的階段,其在體育中的運用更是一片空白,今后還有很長的一段路要走,并在實踐中逐步完善。當前,在大數據環境下,體育發展面臨著三大難題。第一:個人隱私面臨的挑戰。大數據是一柄雙刃劍,在為高校體育改革帶來科學、高效、創新的同時,也存在著對個人信息的泄漏和個人隱私的侵害。在大數據時代,個人信息、家庭背景已被視為“公共機密”,由此引發一系列的社會倫理問題。如何充分有效地挖掘數據背后的價值,同時又能保證數據的安全性和不侵犯個人隱私,是一個值得思考的問題;第二,技術人員面臨的挑戰。大數據意味著大量的、復雜的數據,需要技術支撐,否則數據只是數據,無法轉換成有意義的資料。數據存儲、數據挖掘、數據分析等都是需要解決的問題。但是,目前國內對這些技術的掌握還不夠成熟,很多地區教育部門都缺少對大數據的支持,同時也沒有建立信息體系及學校的教學平臺。因此,從認知、學習到熟練運用大數據,到運用到實踐中,仍然需要一段時間。而在我國,雖然作為一個“人才大國”,但在對大數據的認識與應用上,還存在著嚴重不足的問題。
在信息技術飛速發展的今天,我國的體育研究人員要積極地適應新的形勢,積極地改變自己的研究思路,實現自我發展。觀念轉換需要采取全樣本代替隨意取樣,以非結構數據代替結構數據,并能從體育活動中挖掘出與之相關的、新穎的話題。要發展我國的體育科學研究之路,在信息技術的發展過程中,體育科學思維的發展需要通過綜合性的、思維創造性的全面性和方法的多樣性來完成。