薛紅強(qiáng)
(西安航空學(xué)院 體育部,陜西 西安 710077)
淺析數(shù)據(jù)挖掘在學(xué)生體質(zhì)健康測(cè)試中的應(yīng)用
薛紅強(qiáng)
(西安航空學(xué)院 體育部,陜西 西安 710077)
通過(guò)對(duì)國(guó)內(nèi)外有關(guān)數(shù)據(jù)挖掘在體育領(lǐng)域中應(yīng)用的相關(guān)文獻(xiàn)進(jìn)行分析,認(rèn)為數(shù)據(jù)挖掘能夠在學(xué)生體質(zhì)健康測(cè)試、國(guó)民體質(zhì)監(jiān)測(cè)數(shù)據(jù)處理等方面能夠充分發(fā)揮其潛在的價(jià)值。針對(duì)數(shù)據(jù)挖掘技術(shù)的基本原理在學(xué)生體質(zhì)健康測(cè)試領(lǐng)域的應(yīng)用進(jìn)行了研究,闡述其概念、類型及使用方法,并討論和分析它在學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)分析工作中的運(yùn)用,提出基于學(xué)生體質(zhì)健康測(cè)試的數(shù)據(jù)挖掘模式,從而有效地提高學(xué)生體質(zhì)健康水平,為學(xué)校體育科研工作提供一些新的研究思路和方法。
數(shù)據(jù)挖掘;學(xué)生體質(zhì);健康測(cè)試
2002年7月,教育部頒布實(shí)施了《學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》,在全國(guó)范圍內(nèi)開始了“學(xué)生體質(zhì)健康”測(cè)試工作。從“標(biāo)準(zhǔn)”開始實(shí)施至今,各級(jí)教育部門和大多數(shù)高校按教育部要求如期上報(bào)測(cè)試數(shù)據(jù),同時(shí)也從相關(guān)部門得到了相應(yīng)的數(shù)據(jù)反饋。但面對(duì)著大量的數(shù)據(jù),數(shù)據(jù)處理僅僅停留在對(duì)數(shù)據(jù)的平均值分析或進(jìn)行一般的數(shù)據(jù)統(tǒng)計(jì),這已不能適應(yīng)新形勢(shì)下學(xué)校體育改革的需要。在這些數(shù)據(jù)中,必然存在我們尚未發(fā)現(xiàn)的,對(duì)我們提高體育教學(xué)水平、學(xué)生鍛煉效果非常有價(jià)值的數(shù)據(jù)信息。如何從這些海量數(shù)據(jù)中,深入尋找各項(xiàng)數(shù)據(jù)之間的關(guān)聯(lián),進(jìn)而發(fā)掘深層次內(nèi)在聯(lián)系,對(duì)學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)進(jìn)行深層次挖掘,為教學(xué)改革、體育科研提供及時(shí)準(zhǔn)確、有價(jià)值的信息,將是我們研究的重點(diǎn)。本文提出運(yùn)用數(shù)據(jù)挖掘理論對(duì)學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)進(jìn)行分析,為有效地提高學(xué)生體質(zhì)健康水平和高校的體育教學(xué)改革提供參考。
數(shù)據(jù)挖掘( Data Mining) 是“發(fā)掘大量數(shù)據(jù)中尚未被發(fā)現(xiàn)的知識(shí), 是從系統(tǒng)內(nèi)部智能的自動(dòng)獲取知識(shí)的過(guò)程”。數(shù)據(jù)挖掘在國(guó)內(nèi)外各個(gè)領(lǐng)域都得到了廣泛的應(yīng)用, 它不只是對(duì)數(shù)據(jù)進(jìn)行粗略的訪問(wèn)查詢, 同時(shí)也能夠指出數(shù)據(jù)之間的內(nèi)在的聯(lián)系[1]。
目前, 數(shù)據(jù)挖掘(DM)的重要性在如下領(lǐng)域得到廣泛認(rèn)可,如:電子商務(wù)、生物醫(yī)療、犯罪研究、商業(yè)應(yīng)用、Internet 等。數(shù)據(jù)挖掘在科學(xué)研究方面也有著廣泛的應(yīng)用,主要有生物研究、氣象研究、醫(yī)學(xué)研究、水文地質(zhì)研究和考古等[2]。近幾年國(guó)外已將數(shù)據(jù)挖掘(DM)應(yīng)用于許多體育領(lǐng)域中。如最先從事數(shù)據(jù)統(tǒng)計(jì)分析的先驅(qū)之一Bill James 提出全美職業(yè)棒球大聯(lián)盟(MLB)中的應(yīng)用;籃球數(shù)據(jù)挖掘?qū)<襃ohn Hollinger,提出了在美國(guó)職業(yè)籃球聯(lián)盟(NBA)中的進(jìn)行應(yīng)用;《職業(yè)橄欖球計(jì)劃》主編Schatz 對(duì)橄欖球的數(shù)據(jù)挖掘分析等[3]。
與此同時(shí),許多學(xué)國(guó)內(nèi)學(xué)者提出,隨著體育改革的進(jìn)一步深化,體育競(jìng)賽、國(guó)民體質(zhì)監(jiān)測(cè)等領(lǐng)域也積累了大量的數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘的基本原理及步驟,利用現(xiàn)有的數(shù)據(jù)挖掘工具,可以對(duì)現(xiàn)有的體育數(shù)據(jù)進(jìn)行挖掘處理,使數(shù)據(jù)發(fā)揮其應(yīng)有的作用[4]。但由于我國(guó)體育數(shù)據(jù)管理相對(duì)不很完善,相關(guān)體育數(shù)據(jù)的采集不規(guī)范,相關(guān)體育項(xiàng)目數(shù)據(jù)庫(kù)的建設(shè)工作有待于進(jìn)一步開展,同時(shí)適用體育領(lǐng)域的數(shù)據(jù)挖掘(DM)工具開發(fā)比較薄弱等諸多原因,導(dǎo)致數(shù)據(jù)挖掘(DM)在體育領(lǐng)域尚處于起步階段,推廣與廣泛應(yīng)用還有一定難度。現(xiàn)有文獻(xiàn)多為數(shù)據(jù)樣本規(guī)模較小的探索性研究。如戴敏、黃亞樓“對(duì)體能、技戰(zhàn)術(shù)等數(shù)據(jù)資源的挖掘研究”,為提高運(yùn)動(dòng)員競(jìng)技水平提供了參考;高洪歌從數(shù)據(jù)挖掘技術(shù)入手,介紹了“運(yùn)用數(shù)據(jù)挖掘算法在乒乓球比賽技戰(zhàn)術(shù)分析中的應(yīng)用方法和實(shí)現(xiàn)過(guò)程”[5-7]。近些年,隨著高校體育改革的深入,面向高等院校的體育數(shù)據(jù)挖掘研究也逐步開展起來(lái)。
《學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》頒布實(shí)施已經(jīng)近十年了,在此期間,各級(jí)教育主管部門以及各高校認(rèn)真測(cè)試,及時(shí)準(zhǔn)確地向有關(guān)部門上報(bào)數(shù)據(jù),積累了大量的數(shù)據(jù)資料。同時(shí)各地區(qū)、各高校也得到有關(guān)部門的一定的數(shù)據(jù)反饋,這些反饋數(shù)據(jù)主要是數(shù)理統(tǒng)計(jì)結(jié)果匯總,并沒(méi)有與學(xué)生其他信息如體育課成績(jī)數(shù)據(jù)、學(xué)生信息數(shù)據(jù)等相關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,進(jìn)行深層次的數(shù)據(jù)挖掘,從中獲取更為有價(jià)值的信息。
目前我國(guó)各級(jí)學(xué)校對(duì)于學(xué)生體質(zhì)健康數(shù)據(jù)的處理與運(yùn)用,基本上以相關(guān)部門反饋的數(shù)據(jù)表為主進(jìn)行分析比對(duì)。這些數(shù)據(jù)表基本采用數(shù)理統(tǒng)計(jì)的方法對(duì)數(shù)據(jù)進(jìn)行均值分析,列出各級(jí)數(shù)據(jù)的百分比;或套用相關(guān)的評(píng)價(jià)公式對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的評(píng)價(jià),僅有“優(yōu)、良、及格”等級(jí)。這樣做只能局限于數(shù)據(jù)本身數(shù)值大小的比較,在尋求數(shù)據(jù)之間的相互關(guān)聯(lián)信息、挖掘有價(jià)值信息方面的作用十分有限。換個(gè)思路,對(duì)體質(zhì)健康測(cè)試數(shù)據(jù)進(jìn)行分析,即通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的建立與利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)相結(jié)合就能夠較為容易地挖掘出數(shù)據(jù)深層次的規(guī)律。例如:將學(xué)生體育課成績(jī)數(shù)據(jù)與積累收集的學(xué)生體質(zhì)健康數(shù)據(jù)相結(jié)合,從中挖掘出造成學(xué)生體育課成績(jī)與體質(zhì)健康水平相關(guān)聯(lián)的因素,為提高學(xué)生健康水平及體育課成績(jī)提供有效地指導(dǎo)與幫助;將學(xué)生自然狀況數(shù)據(jù)與體質(zhì)健康數(shù)據(jù)測(cè)試結(jié)合,對(duì)造成不同地區(qū)體質(zhì)狀況差異的原因可以進(jìn)一步探究;同樣也可以根據(jù)學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)、學(xué)生參與體育鍛煉數(shù)據(jù)、學(xué)生體育課成績(jī)數(shù)據(jù)等挖掘出影響學(xué)生健康的原因,為學(xué)生提高自身健康水平提出指導(dǎo)意見。
值得一提的是,教育部根據(jù)近些年學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù),結(jié)合各地區(qū)實(shí)際情況,對(duì)測(cè)試數(shù)據(jù)深度挖掘分析,調(diào)整了學(xué)生體質(zhì)健康測(cè)試評(píng)價(jià)標(biāo)準(zhǔn)。于近期頒布了新的《國(guó)家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)(2014年修訂版)》,新標(biāo)準(zhǔn)著重提高《標(biāo)準(zhǔn)》應(yīng)用的信度、效度和區(qū)分度,著重強(qiáng)化其教育激勵(lì)、反饋調(diào)整和引導(dǎo)鍛煉的功能,著重提高其教育監(jiān)測(cè)和績(jī)效評(píng)價(jià)的支撐能力。數(shù)據(jù)挖掘在學(xué)生體質(zhì)健康測(cè)試中的運(yùn)用可見一斑。
總之,運(yùn)用數(shù)據(jù)挖掘(DM)對(duì)學(xué)生相關(guān)數(shù)據(jù)信息與體質(zhì)健康測(cè)試數(shù)據(jù)進(jìn)行關(guān)聯(lián)數(shù)據(jù)分析,找出體質(zhì)數(shù)據(jù)中有用的模式與規(guī)則,深入尋找各項(xiàng)指標(biāo)因素與體質(zhì)測(cè)試數(shù)據(jù)間的內(nèi)在相互聯(lián)系,發(fā)現(xiàn)各因素之間的動(dòng)態(tài)變化規(guī)律,更為有效地提高學(xué)生體質(zhì)健康水平。
基于學(xué)生體質(zhì)健康測(cè)試的數(shù)據(jù)挖掘模式如圖1所示。

圖1 學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)挖掘模式
基于學(xué)生體質(zhì)健康測(cè)試的數(shù)據(jù)挖掘模式其基本過(guò)程包括以下三個(gè)階段:
第一階段:主要以各類數(shù)據(jù)匯總、待挖掘數(shù)據(jù)的選擇、數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的縮減等為主的數(shù)據(jù)倉(cāng)庫(kù)建立工作。
數(shù)據(jù)庫(kù)挖掘前的準(zhǔn)備:數(shù)據(jù)庫(kù)中主要包含以下一些數(shù)據(jù)表,學(xué)生來(lái)源信息(學(xué)號(hào)、姓名、班級(jí)、生源所在地、城鄉(xiāng)等);學(xué)生體質(zhì)健康測(cè)試成績(jī)(學(xué)號(hào)、姓名、性別、班級(jí)、身高體重、肺活量、柔韌力量類項(xiàng)目成績(jī)、速度靈巧類項(xiàng)目成績(jī)和耐力類項(xiàng)目成績(jī)等);學(xué)生體育課成績(jī)、個(gè)體參與鍛煉情況等。
定義問(wèn)題:對(duì)目標(biāo)有一個(gè)清晰、明確及可行的定義,即通過(guò)相關(guān)數(shù)據(jù)挖掘欲得到的數(shù)據(jù)結(jié)論。如:將學(xué)生體育課成績(jī)數(shù)據(jù)與積累收集的學(xué)生體質(zhì)健康數(shù)據(jù)相結(jié)合,從中挖掘出造成學(xué)生體育課成績(jī)與體質(zhì)健康水平相關(guān)聯(lián)的因素。
建立數(shù)據(jù)挖掘庫(kù):根據(jù)所定義的問(wèn)題,收集學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)(學(xué)號(hào)、姓名、性別、班級(jí)、身高體重、肺活量、柔韌力量類項(xiàng)目成績(jī)、速度靈巧類項(xiàng)目成績(jī)和耐力類項(xiàng)目成績(jī)等)、學(xué)生信息數(shù)據(jù)(學(xué)號(hào)、姓名、班級(jí)、生源所在地、城鄉(xiāng)等)、學(xué)生體育課成績(jī)、個(gè)體參與鍛煉情況等建立數(shù)據(jù)倉(cāng)庫(kù)。同時(shí)對(duì)噪聲數(shù)據(jù)、空缺數(shù)據(jù)進(jìn)行與處理,并將預(yù)處理后的數(shù)據(jù)規(guī)范化,轉(zhuǎn)換成數(shù)據(jù)挖掘算法所要求的格式,完成數(shù)據(jù)的轉(zhuǎn)換。
第二階段:通過(guò)確定目標(biāo)、確定算法、數(shù)據(jù)挖掘以及模式識(shí)別和知識(shí)評(píng)價(jià)這幾個(gè)階段的工作, 即運(yùn)用特定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí)。
分析數(shù)據(jù):找出對(duì)解決問(wèn)題有較大影響的數(shù)據(jù)字段集及決定是否需要定義導(dǎo)出字段等。
準(zhǔn)備建摸數(shù)據(jù):根據(jù)所定義的問(wèn)題,對(duì)數(shù)據(jù)庫(kù)中的字段變量、記錄進(jìn)行篩選,并根據(jù)現(xiàn)有的變量進(jìn)行轉(zhuǎn)換,生存新的變量和字段。它主要是指為建立模型準(zhǔn)備部分?jǐn)?shù)據(jù)的過(guò)程。
建立模型:選擇一定的挖掘算法,利用相關(guān)的數(shù)據(jù)挖掘工具對(duì)數(shù)據(jù)進(jìn)行處理。
第三階段:將系統(tǒng)發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),并且根據(jù)需要進(jìn)行知識(shí)的評(píng)價(jià)。如果發(fā)現(xiàn)知識(shí)和用戶挖掘的目標(biāo)不一致,則重復(fù)以上階段,最終獲得可用知識(shí)。
模型的解釋和評(píng)價(jià):模型建立好后,要有對(duì)它的結(jié)果進(jìn)行評(píng)價(jià)及解釋的過(guò)程。
實(shí)施: 模型建立并驗(yàn)證之后通常有兩種使用方法。一種是提供給相關(guān)分析人員做參考的行動(dòng)方案及建議,即對(duì)定義問(wèn)題提出解決方案。另一種是在應(yīng)用了模型之后, 還需對(duì)其實(shí)施效果不斷地監(jiān)控, 與具體實(shí)施過(guò)程出現(xiàn)的問(wèn)題以及教學(xué)實(shí)踐相結(jié)合,及時(shí)修訂實(shí)施方案。
數(shù)據(jù)挖掘(DM)是一種新興的信息技術(shù),在許多領(lǐng)域中有著廣泛的應(yīng)用,在體育領(lǐng)域的運(yùn)用也有一定的普遍性。但數(shù)據(jù)挖掘在學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)處理中的實(shí)踐尚處于起步階段,相關(guān)經(jīng)驗(yàn)與積累較少,在實(shí)際應(yīng)用還存在以下問(wèn)題:
首先,缺乏綜合能力較強(qiáng)的研究人員。一般基層從事體育研究的人員要么對(duì)體育專業(yè)知識(shí)及運(yùn)動(dòng)項(xiàng)目特點(diǎn)較為熟悉,要么對(duì)數(shù)據(jù)挖掘技術(shù)運(yùn)用較為熟悉,在完成某個(gè)研究項(xiàng)目過(guò)程中需要花費(fèi)大量的時(shí)間和精力進(jìn)行溝通與協(xié)調(diào)。在實(shí)踐中,既熟悉體育知識(shí)又熟悉數(shù)據(jù)挖掘技術(shù)的跨學(xué)科體育技術(shù)人員非常缺乏。
其次,數(shù)據(jù)挖掘在體育領(lǐng)域的應(yīng)用雖取得一定成就,但由于起步較晚,在學(xué)生體質(zhì)健康測(cè)試數(shù)據(jù)處理中應(yīng)用較為有限,雖然在某些方面取得了一些成果,也有效解決了若干運(yùn)動(dòng)實(shí)踐中的問(wèn)題,但相關(guān)的理論性研究還較為缺乏,如相關(guān)數(shù)據(jù)平臺(tái)的建立、挖掘工具的通用化、大眾化還有待進(jìn)一步開展,這也影響了數(shù)據(jù)挖掘應(yīng)用研究的深度和廣度,限制了研究成果的進(jìn)一步推廣與運(yùn)用。
在深化教育改革的形勢(shì)下,信息技術(shù)將起到十分重要的作用。隨著教育體制改革的深入開展,素質(zhì)教育的觀念得到普遍認(rèn)可,“以人為本,健康第一”的教育思想得到深入的貫徹。體育教學(xué)是學(xué)校體育改革與發(fā)展的重要環(huán)節(jié),如何推進(jìn)體育教學(xué)的科學(xué)化開展至關(guān)重要。學(xué)生體質(zhì)健康測(cè)試已經(jīng)成為學(xué)校體育工作的重要組成部分,是衡量學(xué)校體育教學(xué)工作水平的重要指標(biāo),也是評(píng)價(jià)學(xué)生體質(zhì)健康水平的主要依據(jù)。利用數(shù)據(jù)挖掘工具將學(xué)生的體質(zhì)健康測(cè)試數(shù)據(jù)與相關(guān)數(shù)據(jù)結(jié)合建立數(shù)據(jù)倉(cāng)庫(kù),進(jìn)而對(duì)其進(jìn)行數(shù)據(jù)挖掘,其結(jié)果對(duì)體育教學(xué)過(guò)程中教與學(xué)都具有實(shí)際指導(dǎo)意義。本文以研究數(shù)據(jù)挖掘的基本技術(shù)原理作為出發(fā)點(diǎn), 構(gòu)建基于學(xué)生體質(zhì)健康測(cè)試的數(shù)據(jù)挖掘模式,為促使我國(guó)的體育教育事業(yè)得到進(jìn)一步的發(fā)展拋磚引玉,也為學(xué)校體育科研工作提供一些新的研究思路和方法。
[1] 李慧玲,林子.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在高校體育數(shù)據(jù)分析中的應(yīng)用[J]. 廣州體育學(xué)院學(xué)報(bào),2005(5):126-128.
[2] 謝向陽(yáng).數(shù)據(jù)挖掘在體育數(shù)據(jù)分析中的研究與應(yīng)用[J].博碩論壇,2013(23):9-10.
[3] 徐赟,張輝.數(shù)據(jù)挖掘在體育領(lǐng)域中的應(yīng)用[J].武漢體育學(xué)院學(xué)報(bào),2012(11):27-30.
[4] 肖剛云,龍建軍,王文莉.試論數(shù)據(jù)挖掘DM技術(shù)在體育領(lǐng)域中應(yīng)用狀況[J].文教資料,2006(10)140-141.
[5] 喬克滿,汪德秀.數(shù)據(jù)挖掘技術(shù)在體育領(lǐng)域的研究現(xiàn)狀與應(yīng)用前景[J].巢湖學(xué)院學(xué)報(bào),2010(3):31-35.
[6] 黃謙,石勇.數(shù)據(jù)挖掘在體育訓(xùn)練指導(dǎo)中的應(yīng)用研究[J].廣州體育學(xué)院學(xué)報(bào)2009(6):106-111.
[7] 李明,劉潔.芻議數(shù)據(jù)挖掘在體育信息化中的具體運(yùn)用[J].電子測(cè)試2013(18):255-256.
[責(zé)任編輯、校對(duì):東 艷]
On the Application of Data Mining in Students' Physical Fitness Test
XUE Hong-qiang
(Department of Physical Education, Xi'an Aeronautical University, Xi'an 710077, China)
Through the analysis on domestic and overseas literature concerning the application of data mining in the sports field, the author discovers the potential value of data mining in students' physical fitness test and national physical monitoring. The article studies the application of data mining in students' physical fitness test, elaborates on its concept, type, and using method, and brings forth the data mining mode based on students' physical fitness test, thus effectively enhancing their physical fitness level and offering some new ideas and methods to physical workers in universities.
data mining; students' physics; fitness test
2014-07-14
薛紅強(qiáng)(1971-),男,江蘇鎮(zhèn)江人,副教授,從事體育教學(xué)與訓(xùn)練方面的研究。
G807.4
A
1008-9233(2014)06-0087-04