林藝俊 沈良忠
摘要:近幾年來,大學生的體測成績一直呈現下降趨勢,引起了關注。該文以我校學生體測成績為數據樣本,利用決策樹ID3算法基于Weka平臺進行處理后得到的影響大學生體測成績的影響因素,提供大學生提高體測成績的參考。
關鍵詞:數據挖掘;決策樹;體測成績;Weka
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)02-0230-02
Research on the Score of College Students Physical Test Based on Decision Tree
LIN Yi-jun, SHEN Liang-zhong*
(School of Information Engineering, Wenzhou Business College, Wenzhou 325000,China)
Abstract: In recent years, the score of college students' physical test has been showing a downward trend which attracted much attention. In this paper, the physical test score of our students are used, and the decision tree ID3 algorithm and the software Weka are adopted to analyze the factors influencing the score of physical test, which can provide good suggestions for the student to improve their physical test score.
Key words: Data Mining; Decision Tree; Score of Physical Test; Weka
現代科技的發展已經很大程度上改變了現代年輕人的生活方式,通過電腦以及各種移動終端設備能夠非常方便的獲取各類信息。但是,我們也發現現在年輕人也越來越沉迷于網絡世界,越來越多的年輕人更變得越來越宅,積極主動參加戶外運動或者鍛煉的年輕人變得越來越少。根據2014年國民體質監測公報中有關全國學生體質與健康調研結果,當代大學生身體素質與2010年相比繼續呈現下降趨勢,同時視力不良檢出率又居高不下,繼續呈現低齡化傾向,而且各年齡段學生肥胖檢出率持續上升[1]。相關研究表明, 19歲到22歲年齡組的男生在速度、爆發力、耐力等素質指標持續下降,女生指標也不容樂觀[2]。一直以來,國家教育主管部門都非常重視大學生的身體素質健康問題,國家教委、國家體委等相關部門為了鼓勵和推動學生積極參加體育鍛煉,特意頒布了《國家學生體質健康標準》,要求各學校每學年開展覆蓋本校各個年級學生關于該《標準》的測試工作,其中明確指出普通高中、中等職業學校和普通高等學校學生畢業時,如果測試的成績達不到50分者按肄業處理[3]。
基于當代大學生體質情況對國家未來發展的重要意義,本文使用決策樹算法對教務系統中的體測數據進行分析,希望能夠得出大學生體質健康檢測成績中的各項目對于成績影響的結論,提供大學生在體測訓練時進行參考,指導大學生通過平時的加強鍛煉來增長體測成績中的短板項目,幫助他們通過體質健康測試,順利畢業。
1 學生體測成績
1.1 數據獲取
本文以2016年第二學期我校信息工程學院大三體質測試成績作為研究對象,該數據從學校教務系統導出,數據具有高完整性。由于男生和女生的體測項目有所不同,故將體測成績分兩大部分進行處理,同時刪除姓名,班級等不必要字段,保留各體測項目的成績信息,對于個別申請免測學生信息進行刪除,得到可用數據,男生部分189條數據記錄,女生部分28條數據記錄。部分數據如表1和表2所示。
1.2 數據預處理
由于本文使用決策樹ID3算法對數據進行分析處理[4],因此需要對數據進行離散化處理。體測最后的總成績滿分為60分,42分以及以上為及格,42分以下為不及格,以42分為臨界點,將及格的成績記為“Y”,將不及格的成績記為“N”,將各項體測成績按照大于等于80分記錄為“A”,分數小于80分大于等于60分記錄為“B”,小于60分,即本項目成績不及格的記錄為“C”,一共將數據分割為三個層次。同時,將各個項目的列表名字由中文修改為拼音首字母縮寫,如50米跑修改為“WSM”,立定跳遠修改為“LDTY”,坐位體前屈修改為“ZWTQQ”,男生1000米跑修改為“YQM”,女生800米跑修改為“BBM”,引體向上修改為“YTXS”,仰臥起坐修改為“YWQZ”,將數據再次處理后,如下表格3、表格4所示:
2 決策樹算法
決策樹算法作為數據挖掘中的一個重要部分,它是一種特殊但又非常重要的分類器,通過決策樹我們可以將一組無序、無規則,但是有類別標號的樣本中推倒出決策樹的分類規則。決策樹包含三種結點,即根節點、內部節點、葉節點。決策樹從根節點到葉節點的每一條有向性路徑都對應一條分類規則,因此利用決策樹可以很好地將未知樣本進行分類。基于決策樹技術進行成績數據的分析研究,可以讓數據分析結果更為直觀,便于理解[5]。
3 基于決策樹的體測成績分析
本文采用Weka軟件中決策樹ID3算法進行決策樹分析,根據所使用不同屬性的數據標記按有向邊進行連接。由于體質測試男生和女生測試的項目是不同的,因此將數據分開進行分析。根據運行結果,男生數據得到的決策樹根節點為YTXS(引體向上),女生數據得到的決策樹根節點為LDTY(立定跳遠),生成的決策樹如圖1和圖2所示。endprint
由生成的決策樹可以刊出,男生體質測驗五個項目中最關鍵的是引體向上,然后依次是一千米長跑、立定跳遠、坐位體前屈和50米短跑;女生體質測驗五個項目中,最關鍵的是立定跳遠,然后依次是五十米短跑、800米長跑、坐位體前屈和仰臥起坐。根據生成的決策樹模型,可以得出以下結論:
① 男生體質測驗起主導因素的是引體向上,其作為一項力量和耐力型的測驗,主要考驗男生上肢肌肉發展水平,握力和上肢力量需要克服自身重力才能完成一次。如果能在該項目上拿到及格以上,對于通過體育測試就能較為輕松,但是目前大部分的男生引體向上及格并不是特別多。一千米長跑項目次之,在長跑項目上獲得優良就能基本上讓體測順利通過。如果男生在引體向上、一千米長跑、立定跳遠這3個項目上都無法獲得單項及格,那么即使另外的2個項目能夠及格,也無法拿到體測成績及格。
② 女生體質測驗占主導地位的是立定跳遠,如果立定跳遠能拿到良好以上,體測及格會較為輕松,如果立定跳遠單項不及格,那么很有可能會導致體測不及格的情況。50米短跑次之,女生在爆發力上較男生來說相對弱一些,如果能在該單項上及格,也能比較容易通過測試。此外,女生特定的仰臥起坐測試,對于女生的成績影響基本可以忽略。
③ 無論是男生還是女生來說,立定跳遠和長跑的成績在體測中都較為重要,如果能夠在這兩個項目上拿到較好的成績,體測及格也會較為容易。平時,立定跳遠只需要一塊平地即可練習;現代大學校園基本都有田徑場,長跑的訓練也比較容易,建議學生可以每天抽空進行慢跑活動,慢慢調整自己的步伐,通過持續的鍛煉提升長跑成績。
④ 坐位體前屈作為男女都需要測試的項目,盡管男生的柔韌性相較于女生相對較弱,但在體質檢測中對于主導項目和次主要項目能夠拿到較好成績的同學來說,坐位體前屈的成績并沒有特別大的影響,但是對于前兩項中下游的同學還是有一定影響的,建議大學生在空閑時候可以多做作立正后觸摸腳尖的運動。
4 結束語
近年來,大學生身體素質持續呈現下降的趨勢已經引起了相關教育主管部門的重視,各個也在出臺相關的制度鼓勵學生積極參與體育鍛煉。本文利用決策樹技術對我校學生體測成績進行了深入挖掘,通過決策樹模型對當前的體測成績所反映的情況進行了分析,同時提出了如果加強體測成績的建議,對學校教學管理部門以及學生的都有積極的參考意義。
參考文獻:
[1] 國家體育總局.《2014年國民體質監測公報》[EB/OL].(2015-11-25)
[2] 姜淼淼. 大學生體質健康的干預對策[J]. 冰雪運動,2016,38(3):94-96.
[3] 中華人民共和國教育部.教育部關于印發《國家學生體質健康標準(2014年修訂)》的通知 [Z]教體藝[2014]5號(2014-7-7)
[4] 李四海,張忠文. WEKA中的Id3決策樹算法[J]. 長春大學學報,2011,21(2):67-69.
[5] 黃德才.數據倉庫與數據挖掘教程[M].清華大學出版社,2016.endprint