








引言
學生體質測試的數據對每個國家來說都是十分重要的資料,既要妥善保管又要充分地分析利用,所以目前建立一種新型的青少年體質健康數據分析處理系統或平臺對國家具有重要的意義。通過青少年體質健康數據處理系統進行科學合理地配置數據處理功能,便于實現體質測試后各類各項指標的統計分析,快速方便地給出體質數據以及數據分析的可視化的結果。便于學生及教師對學生體質狀況的直觀了解,通過該系統改善青少年學生體質干預的措施,優化目前體質數據分析處理系統的不足。本研究運用目前系統開發、數據庫搭建以及結果可視化的最新技術來進行系統的開發,以一個新的視角對大數據視域下青少年體質測試的數據進行處理分析,能夠從客觀上更好地了解學生的健康狀況,對研究青少年的真實健康狀態具有實際的應用價值。同時豐富了這一領域的研究成果,為促進青少年體質發展提供理論支持和實踐經驗。
1無監督聚類分析
1.1大數據分析采用聚類算法
欲分析體質健康各項因素對樣本體質健康的影響,應學習樣本集的概率分布。常用的參數估計方法往往需要假定樣本集符合某一概率分布,隨后根據樣本集擬合該分布中的參數。但該概率分布的選取需要主觀的先驗,往往難以擬合出與真實分布近似的模型。而非參數估計的方法不加入任何先驗知識,根據數據本身的特點與性質,擬合數據分布。在此我們使用無監督聚類算法——K均值聚類對體質健康測試數據進行分析。K均值聚類是一種典型的無監督機器學習聚類算法,通過預先設定聚類個數,隨機初始化中心點,將各個數據劃分至特征空間內歐式距離最近的類別中心;隨后根據各個類的數據分布,重新計算類中心點的坐標;根據更新后的類中心點的坐標,重新更新各數據點的類簇歸屬,不斷反復直至類中心點的坐標不再移動,達到收斂。在對體質健康數據應用K均值聚類算法前,我們對數據進行了篩選與清理,去除了“城鄉”、“性別”等不能直接反映體質健康的數據,只保留了體質健康指標相關的數據,并對少量缺失數據以樣本群體均值進行填充。隨后對數據進行了歸一化處理,對體質健康數據中的特征,應用變換將其標準化,以消除數值對整體分布帶來的影響。聚類算法收斂后,通過核密度估計,分析各群體各屬性的概率密度分布,以探究各體質健康因素對人群的影響。
1.2無監督聚類結果實現路徑
無監督聚類結果頁面
2.學生體質健康數據無監督分類結果
本研究數據來源為陜西省2014年全國學生體質測試數據。2.1各年齡階段人群分類示意圖隨機把研究對象分為四類:男性健康群體、男性不健康群體、女性健康群體、女性不健康群體。通過數據分析結果如下圖:
從上圖中可以看出,7—14歲群體男女生身體素質和健康水平差異不顯著,身體素質的優劣區分度不大,但是從15—16歲開始,男女生身體素質差異程度逐漸拉大,從17歲以后,男女差別更大。身體素質優劣區分隨著年齡的增加區分度逐漸增加。
2.2 7歲群體聚類分析結果
從表中可以看出,一共有四類0,1,2,3.對于群體1與群體2,其握力均為正值,顯著高于群體均值,故判斷群體1和群體2為男性群體。同理判斷群體0和群體3為女性群體。針對群體1與群體2,群體1的BMI為負值,故該群體為男性健康群體,群體2為男性不健康群體,同理3為女性健康群體,0為女性不健康群體。
通過對四個群體聚類分析,7歲學生男性健康群體和男性不健康群體在體重、BMI、胸圍、50米、立定跳遠、耐力跑、皮脂厚度等指標兩群體差異顯著,視力、身高、坐高、肺活量、脈搏、握力、血壓、坐位體前屈、斜身引體等指標兩群體差異不明顯。7歲學生女性健康群體和女性不健康群體在身高、坐高、體重、BMI、胸圍等指標兩群體差異顯著,視力、肺活量、脈搏、50米、立定跳遠、耐力跑、握力、血壓、坐位體前屈、斜身引體、皮脂厚度等指標兩群體差異不明顯。
2.3 15歲群體聚類分析結果
從表中可以看出,一共有四類0,1,2,3.對于群體2與群體3,其身高、立定跳遠和50米成績綜合分析其為男性群體,其中群體3為男性健康群體,群體2為男性不健康群體。同理判斷群體0和群體1為女性群體。根據50米成績和BMI數據,確定群體0為女性健康群體,群體1為女性不健康群體。
通過對四個群體聚類分析,15歲學生男性健康群體和男性不健康群體在體重、BMI、胸圍、立定跳遠、耐力跑、皮脂厚度等指標兩群體差異顯著,視力、身高、坐高、肺活量、脈搏、50米、握力、血壓、坐位體前屈、引體向上等指標兩群體差異不明顯。15歲學生女性健康群體和女性不健康群體在BMI、50米、立定跳遠、仰臥起坐、皮脂厚度等指標兩群體差異顯著,視力、身高、坐高、體重、胸圍、肺活量、脈搏、耐力跑、握力、血壓、坐位體前屈等指標兩群體差異不明顯。
2.4 22歲群體聚類分析結果
從表中可以看出,一共有四類0,1,2,3.對于群體0與群體2,其身高、立定跳遠和50米成績綜合分析其為男性群體,其中群體0為男性健康群體,群體2為男性不健康群體。同理判斷群體1和群體3為女性群體。根據50米成績和BMI數據,確定群體1為女性健康群體,群體3為女性不健康群體。
通過對四個群體聚類分析,22歲學生男性健康群體和男性不健康群體在體重、BMI、胸圍、耐力跑、皮脂厚度等指標兩群體差異顯著,視力、身高、坐高、肺活量、50米、脈搏、立定跳遠、握力、血壓、坐位體前屈、引體向上等指標兩群體差異不明顯。22歲學生女性健康群體和女性不健康群體在BMI、脈搏、耐力跑、皮脂厚度等指標兩群體差異顯著,視力、身高、坐高、體重、胸圍、肺活量、握力、血壓、坐位體前屈、50米、立定跳遠、仰臥起坐等指標兩群體差異不明顯。
3結論
3.1 K均值聚類是一種典型的無監督機器學習聚類算法,能有效地對體質健康測試數據進行分析。
3.2從分類圖中可看出,7-14歲男女生身體素質和健康水平差異不顯著,身體素質的優劣區分度不大,但是從15-16歲開始,男女生身體素質差異程度逐漸拉大,從17歲以后,男女差別更大。身體素質優劣區分隨著年齡的增加區分度逐漸增加。
3.3通過對四個群體聚類分析,7歲學生男性健康群體和男性不健康群體對比結果,體重、BMI、胸圍、50米、立定跳遠、耐力跑、皮脂厚度等指標差異顯著,視力、身高、坐高、肺活量、脈搏、握力、血壓、坐位體前屈、斜身引體等指標差異不明顯。7歲學生女性健康群體和女性不健康群體對比結果,身高、坐高、體重、BMI、胸圍等指標差異顯著,視力、肺活量、脈搏、50米、立定跳遠、耐力跑、握力、血壓、坐位體前屈、斜身引體、皮脂厚度等指標差異不明顯。
3.4通過對四個群體聚類分析,15歲學生男性健康群體和男性不健康群體對比結果,體重、BMI、胸圍、立定跳遠、耐力跑、皮脂厚度等指標差異顯著,視力、身高、坐高、肺活量、脈搏、50米、握力、血壓、坐位體前屈、引體向上等指標差異不明顯。15歲學生女性健康群體和女性不健康群體對比結果,BMI、50米、立定跳遠、仰臥起坐、皮脂厚度等指標差異顯著,視力、身高、坐高、體重、胸圍、肺活量、脈搏、耐力跑、握力、血壓、坐位體前屈等指標差異不明顯。
3.5通過對四個群體聚類分析,22歲學生男性健康群體和男性不健康群體對比結果,體重、BMI、胸圍、耐力跑、皮脂厚度等指標差異顯著,視力、身高、坐高、肺活量、50米、脈搏、立定跳遠、握力、血壓、坐位體前屈、引體向上等指標兩群體差異不明顯。22歲學生女性健康群體和女性不健康群體對比結果,BMI、脈搏、耐力跑、皮脂厚度等指標差異顯著,視力、身高、坐高、體重、胸圍、肺活量、握力、血壓、坐位體前屈、50米、立定跳遠、仰臥起坐等指標差異不明顯。
參考文獻:
[1]邢文華.中國青少年體質的現狀及加強青少年體育的緊迫性[J].青少年體育,2012(01):5-6.
[2]李琳等.俄羅斯年前青少年體育發展戰略及其啟示武漢體育學院學報,2012(5):10-13.
[3]燕凌,李京誠,韓桂鳳等.19世紀以來美國中小學體育發展歷程及其啟示[J].體刊,2015,(5):87-91.DOI:10.3969/j.issn.1006-7116.2015.05.017.
[4]王樂,張業安,王磊.近10年屏幕時間影響青少年體質健康的國外研究進展[J].體育學刊,2016,23(02):138-144.
[5]高剛,季瀏.試述美國青少年體質健康測試發展及對我國的啟示[J].成都體育學院學報,2013,39(6):22-26.DOI:10.3969/j.issn.1001-9154.2013.06.004.
[6]王永恒.數據分析系統發展的現狀探討[J].科技創新與應用,2015,(29):95.
[7]王元卓,靳小龍,程學旗等.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138.DOI:10.3724/SP.J.1016.2013.01125.
[8]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究狀學思考[J].中國科學院院刊,2012,27(6):647-657.DOI:10.3969/j.issn.1000-3045.2012.06.001.
作者簡介:武洛生(1969.04-)男,漢族,籍貫:河北邯鄲,畢業院校:西安體育學院,畢業專業:體育教育,學歷:本科,工作單位:西安體育學院,職稱:教授,研究方向:體育教學與訓練。
陜西省軟科學項目,大數據視域下提高學生體質健康水平的研究。2019KM170。