薛紅強
(西安航空學院 體育部,陜西 西安 710077)
淺析數據挖掘在學生體質健康測試中的應用
薛紅強
(西安航空學院 體育部,陜西 西安 710077)
通過對國內外有關數據挖掘在體育領域中應用的相關文獻進行分析,認為數據挖掘能夠在學生體質健康測試、國民體質監測數據處理等方面能夠充分發揮其潛在的價值。針對數據挖掘技術的基本原理在學生體質健康測試領域的應用進行了研究,闡述其概念、類型及使用方法,并討論和分析它在學生體質健康測試數據分析工作中的運用,提出基于學生體質健康測試的數據挖掘模式,從而有效地提高學生體質健康水平,為學校體育科研工作提供一些新的研究思路和方法。
數據挖掘;學生體質;健康測試
2002年7月,教育部頒布實施了《學生體質健康標準》,在全國范圍內開始了“學生體質健康”測試工作。從“標準”開始實施至今,各級教育部門和大多數高校按教育部要求如期上報測試數據,同時也從相關部門得到了相應的數據反饋。但面對著大量的數據,數據處理僅僅停留在對數據的平均值分析或進行一般的數據統計,這已不能適應新形勢下學校體育改革的需要。在這些數據中,必然存在我們尚未發現的,對我們提高體育教學水平、學生鍛煉效果非常有價值的數據信息。如何從這些海量數據中,深入尋找各項數據之間的關聯,進而發掘深層次內在聯系,對學生體質健康測試數據進行深層次挖掘,為教學改革、體育科研提供及時準確、有價值的信息,將是我們研究的重點。本文提出運用數據挖掘理論對學生體質健康測試數據進行分析,為有效地提高學生體質健康水平和高校的體育教學改革提供參考。
數據挖掘( Data Mining) 是“發掘大量數據中尚未被發現的知識, 是從系統內部智能的自動獲取知識的過程”。數據挖掘在國內外各個領域都得到了廣泛的應用, 它不只是對數據進行粗略的訪問查詢, 同時也能夠指出數據之間的內在的聯系[1]。
目前, 數據挖掘(DM)的重要性在如下領域得到廣泛認可,如:電子商務、生物醫療、犯罪研究、商業應用、Internet 等。數據挖掘在科學研究方面也有著廣泛的應用,主要有生物研究、氣象研究、醫學研究、水文地質研究和考古等[2]。近幾年國外已將數據挖掘(DM)應用于許多體育領域中。如最先從事數據統計分析的先驅之一Bill James 提出全美職業棒球大聯盟(MLB)中的應用;籃球數據挖掘專家John Hollinger,提出了在美國職業籃球聯盟(NBA)中的進行應用;《職業橄欖球計劃》主編Schatz 對橄欖球的數據挖掘分析等[3]。
與此同時,許多學國內學者提出,隨著體育改革的進一步深化,體育競賽、國民體質監測等領域也積累了大量的數據,根據數據挖掘的基本原理及步驟,利用現有的數據挖掘工具,可以對現有的體育數據進行挖掘處理,使數據發揮其應有的作用[4]。但由于我國體育數據管理相對不很完善,相關體育數據的采集不規范,相關體育項目數據庫的建設工作有待于進一步開展,同時適用體育領域的數據挖掘(DM)工具開發比較薄弱等諸多原因,導致數據挖掘(DM)在體育領域尚處于起步階段,推廣與廣泛應用還有一定難度。現有文獻多為數據樣本規模較小的探索性研究。如戴敏、黃亞樓“對體能、技戰術等數據資源的挖掘研究”,為提高運動員競技水平提供了參考;高洪歌從數據挖掘技術入手,介紹了“運用數據挖掘算法在乒乓球比賽技戰術分析中的應用方法和實現過程”[5-7]。近些年,隨著高校體育改革的深入,面向高等院校的體育數據挖掘研究也逐步開展起來。
《學生體質健康標準》頒布實施已經近十年了,在此期間,各級教育主管部門以及各高校認真測試,及時準確地向有關部門上報數據,積累了大量的數據資料。同時各地區、各高校也得到有關部門的一定的數據反饋,這些反饋數據主要是數理統計結果匯總,并沒有與學生其他信息如體育課成績數據、學生信息數據等相關數據進行關聯分析,進行深層次的數據挖掘,從中獲取更為有價值的信息。
目前我國各級學校對于學生體質健康數據的處理與運用,基本上以相關部門反饋的數據表為主進行分析比對。這些數據表基本采用數理統計的方法對數據進行均值分析,列出各級數據的百分比;或套用相關的評價公式對數據進行簡單的評價,僅有“優、良、及格”等級。這樣做只能局限于數據本身數值大小的比較,在尋求數據之間的相互關聯信息、挖掘有價值信息方面的作用十分有限。換個思路,對體質健康測試數據進行分析,即通過數據倉庫的建立與利用現有的數據挖掘技術相結合就能夠較為容易地挖掘出數據深層次的規律。例如:將學生體育課成績數據與積累收集的學生體質健康數據相結合,從中挖掘出造成學生體育課成績與體質健康水平相關聯的因素,為提高學生健康水平及體育課成績提供有效地指導與幫助;將學生自然狀況數據與體質健康數據測試結合,對造成不同地區體質狀況差異的原因可以進一步探究;同樣也可以根據學生體質健康測試數據、學生參與體育鍛煉數據、學生體育課成績數據等挖掘出影響學生健康的原因,為學生提高自身健康水平提出指導意見。
值得一提的是,教育部根據近些年學生體質健康測試數據,結合各地區實際情況,對測試數據深度挖掘分析,調整了學生體質健康測試評價標準。于近期頒布了新的《國家學生體質健康標準(2014年修訂版)》,新標準著重提高《標準》應用的信度、效度和區分度,著重強化其教育激勵、反饋調整和引導鍛煉的功能,著重提高其教育監測和績效評價的支撐能力。數據挖掘在學生體質健康測試中的運用可見一斑。
總之,運用數據挖掘(DM)對學生相關數據信息與體質健康測試數據進行關聯數據分析,找出體質數據中有用的模式與規則,深入尋找各項指標因素與體質測試數據間的內在相互聯系,發現各因素之間的動態變化規律,更為有效地提高學生體質健康水平。
基于學生體質健康測試的數據挖掘模式如圖1所示。

圖1 學生體質健康測試數據挖掘模式
基于學生體質健康測試的數據挖掘模式其基本過程包括以下三個階段:
第一階段:主要以各類數據匯總、待挖掘數據的選擇、數據的預處理、數據的縮減等為主的數據倉庫建立工作。
數據庫挖掘前的準備:數據庫中主要包含以下一些數據表,學生來源信息(學號、姓名、班級、生源所在地、城鄉等);學生體質健康測試成績(學號、姓名、性別、班級、身高體重、肺活量、柔韌力量類項目成績、速度靈巧類項目成績和耐力類項目成績等);學生體育課成績、個體參與鍛煉情況等。
定義問題:對目標有一個清晰、明確及可行的定義,即通過相關數據挖掘欲得到的數據結論。如:將學生體育課成績數據與積累收集的學生體質健康數據相結合,從中挖掘出造成學生體育課成績與體質健康水平相關聯的因素。
建立數據挖掘庫:根據所定義的問題,收集學生體質健康測試數據(學號、姓名、性別、班級、身高體重、肺活量、柔韌力量類項目成績、速度靈巧類項目成績和耐力類項目成績等)、學生信息數據(學號、姓名、班級、生源所在地、城鄉等)、學生體育課成績、個體參與鍛煉情況等建立數據倉庫。同時對噪聲數據、空缺數據進行與處理,并將預處理后的數據規范化,轉換成數據挖掘算法所要求的格式,完成數據的轉換。
第二階段:通過確定目標、確定算法、數據挖掘以及模式識別和知識評價這幾個階段的工作, 即運用特定的數據挖掘算法,從數據中提取出用戶所需要的知識。
分析數據:找出對解決問題有較大影響的數據字段集及決定是否需要定義導出字段等。
準備建摸數據:根據所定義的問題,對數據庫中的字段變量、記錄進行篩選,并根據現有的變量進行轉換,生存新的變量和字段。它主要是指為建立模型準備部分數據的過程。
建立模型:選擇一定的挖掘算法,利用相關的數據挖掘工具對數據進行處理。
第三階段:將系統發現的知識以用戶能了解的方式呈現,并且根據需要進行知識的評價。如果發現知識和用戶挖掘的目標不一致,則重復以上階段,最終獲得可用知識。
模型的解釋和評價:模型建立好后,要有對它的結果進行評價及解釋的過程。
實施: 模型建立并驗證之后通常有兩種使用方法。一種是提供給相關分析人員做參考的行動方案及建議,即對定義問題提出解決方案。另一種是在應用了模型之后, 還需對其實施效果不斷地監控, 與具體實施過程出現的問題以及教學實踐相結合,及時修訂實施方案。
數據挖掘(DM)是一種新興的信息技術,在許多領域中有著廣泛的應用,在體育領域的運用也有一定的普遍性。但數據挖掘在學生體質健康測試數據處理中的實踐尚處于起步階段,相關經驗與積累較少,在實際應用還存在以下問題:
首先,缺乏綜合能力較強的研究人員。一般基層從事體育研究的人員要么對體育專業知識及運動項目特點較為熟悉,要么對數據挖掘技術運用較為熟悉,在完成某個研究項目過程中需要花費大量的時間和精力進行溝通與協調。在實踐中,既熟悉體育知識又熟悉數據挖掘技術的跨學科體育技術人員非常缺乏。
其次,數據挖掘在體育領域的應用雖取得一定成就,但由于起步較晚,在學生體質健康測試數據處理中應用較為有限,雖然在某些方面取得了一些成果,也有效解決了若干運動實踐中的問題,但相關的理論性研究還較為缺乏,如相關數據平臺的建立、挖掘工具的通用化、大眾化還有待進一步開展,這也影響了數據挖掘應用研究的深度和廣度,限制了研究成果的進一步推廣與運用。
在深化教育改革的形勢下,信息技術將起到十分重要的作用。隨著教育體制改革的深入開展,素質教育的觀念得到普遍認可,“以人為本,健康第一”的教育思想得到深入的貫徹。體育教學是學校體育改革與發展的重要環節,如何推進體育教學的科學化開展至關重要。學生體質健康測試已經成為學校體育工作的重要組成部分,是衡量學校體育教學工作水平的重要指標,也是評價學生體質健康水平的主要依據。利用數據挖掘工具將學生的體質健康測試數據與相關數據結合建立數據倉庫,進而對其進行數據挖掘,其結果對體育教學過程中教與學都具有實際指導意義。本文以研究數據挖掘的基本技術原理作為出發點, 構建基于學生體質健康測試的數據挖掘模式,為促使我國的體育教育事業得到進一步的發展拋磚引玉,也為學校體育科研工作提供一些新的研究思路和方法。
[1] 李慧玲,林子.數據倉庫和數據挖掘在高校體育數據分析中的應用[J]. 廣州體育學院學報,2005(5):126-128.
[2] 謝向陽.數據挖掘在體育數據分析中的研究與應用[J].博碩論壇,2013(23):9-10.
[3] 徐赟,張輝.數據挖掘在體育領域中的應用[J].武漢體育學院學報,2012(11):27-30.
[4] 肖剛云,龍建軍,王文莉.試論數據挖掘DM技術在體育領域中應用狀況[J].文教資料,2006(10)140-141.
[5] 喬克滿,汪德秀.數據挖掘技術在體育領域的研究現狀與應用前景[J].巢湖學院學報,2010(3):31-35.
[6] 黃謙,石勇.數據挖掘在體育訓練指導中的應用研究[J].廣州體育學院學報2009(6):106-111.
[7] 李明,劉潔.芻議數據挖掘在體育信息化中的具體運用[J].電子測試2013(18):255-256.
[責任編輯、校對:東 艷]
On the Application of Data Mining in Students' Physical Fitness Test
XUE Hong-qiang
(Department of Physical Education, Xi'an Aeronautical University, Xi'an 710077, China)
Through the analysis on domestic and overseas literature concerning the application of data mining in the sports field, the author discovers the potential value of data mining in students' physical fitness test and national physical monitoring. The article studies the application of data mining in students' physical fitness test, elaborates on its concept, type, and using method, and brings forth the data mining mode based on students' physical fitness test, thus effectively enhancing their physical fitness level and offering some new ideas and methods to physical workers in universities.
data mining; students' physics; fitness test
2014-07-14
薛紅強(1971-),男,江蘇鎮江人,副教授,從事體育教學與訓練方面的研究。
G807.4
A
1008-9233(2014)06-0087-04