周義 陳婕 孟翔 汪小蕓 張豹
收稿日期:2023-06-27
基金項目:貴州省2022年省級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(S202214440127)
DOI:10.19850/j.cnki.2096-4706.2024.04.009
摘? 要:體質測試作為反饋大學生體質健康水平的根本途徑,為高校開展學生健康干預工作提供了數據支撐,但如何對體測數據進行科學分析及合理使用也變得尤為重要。文章通過數據挖掘技術研究大學生體測數據,分別采用決策樹、樸素貝葉斯、貝葉斯神經網絡對體測數據進行預測,結果顯示,貝葉斯神經網絡的預測準確率最高。利用CART決策樹對體測數據進行分類,由此可得到最優(yōu)決策樹,由最優(yōu)決策樹分析影響大學生體質水平的重要因素,進一步探討體測成績對大學生身體素質的影響和作用,從而提高大學生參與校園運動的熱情和興趣。
關鍵詞:數據挖掘;決策樹;樸素貝葉斯;貝葉斯神經網絡;校園運動
中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2024)04-0041-05
Research on Campus Sports Based on Data Mining
ZHOU Yi, CHEN Jie, MENG Xiang, WANG Xiaoyun, ZHANG Bao
(Science College, Guizhou Institute of Technology, Guiyang? 550003, China)
Abstract: Physical fitness testing, as the fundamental way to provide feedback on the physical health level of college students, provides data support for universities to carry out student health intervention work. However, it has become particularly important to scientifically analyze and reasonably use physical fitness data. This paper uses data mining techniques to study the physical measurement data of college students, and uses decision trees, naive Bayes, and Bayesian neural networks to predict the physical measurement data. The results show that Bayesian neural networks have the highest prediction accuracy. By using the CART decision tree to classify physical testing data, the optimal decision tree can be obtained. It analyzes the important factors that affect the physical fitness level of college students through the optimal decision tree, further explore the impact and role of physical testing scores on the physical fitness of college students, and thereby enhance their enthusiasm and interest in participating in campus sports.
Keywords: data mining; Decision Tree; naive Bayes; Bayesian Neural Networks; campus sports
0? 引? 言
隨著數據挖掘技術的更新迭代,使用數據挖掘工具對高校學生的體測數據進行挖掘和處理已成為一種新的發(fā)展趨勢。在我國,對此展開了多方面的研究,比如利用Clementine 12.0數據挖掘軟件分析高校學生體測中各項指標之間的關聯規(guī)則[1],從而對各個指標的影響因素做出判斷。本文運用Jupyter Lab數據挖掘軟件對大學生體測數據進行分類分析。由于高校學生體測數據的數量較為龐大,而數據挖掘工具在此方面的應用也并未成熟,尤其是缺乏高效的數據挖掘算法,基于此,本文擬對大學生體測數據進行特征分析,并運用決策樹算法、樸素貝葉斯算法以及貝葉斯神經網絡算法,有效降低數據計算量,提升預測準確度,并將這些算法應用到對大學生體測數據的挖掘分析之中,從多維角度實現對大學生身心狀況的測試和評價。這有助于引導大學生轉變“重文輕體”的思想觀念,提高大學生身體素質,促進學生德智體美勞全面發(fā)展[2]。
1? 基于分類算法的數據挖掘
數據挖掘是一個從紛亂龐雜到協調有序的有效信息提取過程,是充分挖掘數據價值的過程[3],也是統計分析的延伸和擴展,涉及多種技術和方法,如神經網絡、決策樹、模糊算法、關聯規(guī)則法等。隨著數據挖掘技術在諸多領域的廣泛應用,數據挖掘理論逐漸形成,并以數據挖掘過程規(guī)范和數據挖掘技術為核心內容。數據挖掘的應用涵蓋商業(yè)、醫(yī)療、金融、教育、政府等多個領域,可以應用于市場營銷分析、疾病預測和診斷、信用評估和風險管理、教育評估和決策支持、政府決策和公共服務等方面。數據挖掘的持續(xù)發(fā)展,不僅為我們提供了更多富有價值的信息,也為我們提供了更多的機會。
1.1? CART決策樹
CART決策樹是一種可以從復雜、不規(guī)則數據中找出最優(yōu)數據的分類模型,其形式主要是建立一個二分枝模型,從而對復雜的數據進行最優(yōu)決策分類,并通過分類實現數據預測。該算法的分類主要是通過計算Gini系數選取屬性集中的某個屬性,將當前待分類的樣本集分為兩個子樣本集,并循環(huán)往復此步驟,直至當前待分類的樣本集被判定為葉節(jié)點或達到停止分類的條件[4-6]。
CART決策樹選取的分裂屬性為基尼系數,假設類的總數為J,P表示特征,Pj表示第j個特征在樣本總數中所占的比例,則基尼系數的計算式為:
(1)
樣本集合M的基尼系數為:
(2)
其中,| M |表示集合M總樣本數,| Cj |表示集合M中屬性為j的樣本子集數,基尼系數Gini(M)表示集合M的不確定性。
1.2? 樸素貝葉斯
樸素貝葉斯的目標是通過訓練數據集學習聯合概率分布P(X,Y),并由貝葉斯定理將聯合概率轉化為先驗概率分布和條件概率分布之積[7]。給定數據集T = {(x1, y1), (x2, y2), …, (xn, yn)},其中N表示樣本總數,xi = (xi(1), xi(2), …, xi(n))T是一個n維向量,yi ∈ {c1, c2, …, ck},k表示標簽類別數。首先計算先驗概率:
(3)
再給出條件概率:
(4)
由式(2)可以看出,條件概率有指數級的參數數目,直接計算的工作量巨大,而貝葉斯關于條件概率提出一個條件獨立的假設,即:
(5)
對于給定數據x = (x(1), x(2), …, x(M))T,聯立(1)(3)可得:
(6)
在分類時,樸素貝葉斯通過學習到的模型將后驗概率最大的類作為x的類輸出[8],最終的分類函數為:
(7)
1.3? 貝葉斯神經網絡
隨著深度學習的不斷發(fā)展,神經網絡因其強大的非線性擬合能力而備受關注。其中,貝葉斯神經網絡是一種將貝葉斯理論和神經網絡融合在一起進行數據挖掘的方法。它的優(yōu)點在于將不確定性考慮在內使模型更加可靠。具體來說,貝葉斯神經網絡是在貝葉斯原理的基礎上引入了神經網絡的權值,在權值的后驗概率下進一步優(yōu)化目標函數,并利用權值的最大后驗概率來計算神經網絡的權值,進而構建一種新型的貝葉斯神經網絡建模。這個模型在處理小數據集、避免過擬合和提高模型泛化能力方面具有優(yōu)勢。一個神經網絡模型可以視為一個條件分布模型P( y | x, w),其中y表示標簽數據,x表示輸入數據,w表示神經網絡的權值,D表示數據集,將輸入數據轉換為高斯分布以獲得更高可能性的參數。
(8)
通過最大似然估計(MLE)方法最大化后驗概率獲得參數點估計:
(9)
在最大似然估計中,將w取不同值概率視為相等,即并不對w做出先驗估計。如果為w引入先驗估計,就變成最大后驗估計(MAP)[9]:
(10)
按照已知的先驗分布,基于貝葉斯原理對神經網絡的不確定因素進行分析,得到網絡結構的后驗概率,使得后驗概率最大的網絡參數是最優(yōu)的。
2? 數據處理
2.1? 數據的相關性分析
由于男、女生的體測項目和成績評判標準有所不同,需按性別將數據集分成兩組。在進行具體的分析之前,需要對分類得到的數據集進行數據的相關性分析,檢測數據集中體測項目與最終成績之間的關系。本文使用皮爾遜相關系數來檢驗不同特征之間的相關性,假設有兩個變量X、Y,兩個變量之間的皮爾遜相關系數計算式為:
(11)
其中,cov表示變量之間的協方差,σ表示標準差,E表示期望。相關系數的符號“+”“-”分別表示正相關、負相關,值的大小代表了兩個變量之間影響關系的強弱程度。
從表1男性相關性分析中可以看出,各個項目之間的相關性不是太強,有益于神經網絡訓練。此外,圖中最后一列,即總分等級與各測試項目之間的相關系數中,1 000米測試與總分等級的相關性最大,表明1 000米測試對總分等級的影響因子最大,而立定跳遠、引體向上和50米測試對總分等級的影響也較大。
從表2女性相關性分析中可以看出,50米測試和800米測試之間存在較強的相關性,而其余各個項目之間的相關性并不是太強。此外,圖中最后一列,即總分等級與各測試項目之間的相關系數中,800米測試和50米測試的成績與總分等級的相關性很大,表明對于女生來說,短、長跑測試對總分等級的影響因子最大。
2.2? 數據的歸一化處理
歸一化是將數據的絕對數值轉化為相對數值的一種線性尺度變換過程。通常,神經網絡的隱層采用Sigmoid轉換函數,為提高訓練速度和靈敏性以及有效避開Sigmoid函數的飽和區(qū),一般要求輸入數據的值在0~1之間[10]。為確保所構建的模型具備一定的外推功能,需要將預處理數據的值控制在0.2~0.8之間。基于此,本文采用標準差方法對樣本數據進行歸一化處理,即:
(12)
其中,μ表示向量x的均值,σ表示向量x的標準差,使原始體測數據在0~1之間變化。
3? 模型預測結果分析及比較
3.1? 歸一化數據與原始數據對比
貝葉斯神經網絡輸入歸一化是對神經網絡輸入數據進行處理的方法。樣本數據歸一化處理后,模型在訓練集上的準確率經過500次迭代后,收斂至90%左右,而未經歸一化處理的原始數據,經過500次迭代后仍未收斂。因此,在求解精度上,歸一化處理后的數據經過模型計算優(yōu)于未歸一化的數據[11],模型測試結果表明,輸入向量各分量經歸一化處理后,預測效果優(yōu)于轉化前的數據,如圖1所示。
圖1? 歸一化與未歸一化數據對比
3.2? CART決策樹結果分析
文中使用JupyterLab實現CART決策樹的編程,將大學生體測原始數據導入處理,獲得男、女生最優(yōu)決策樹,結果如圖2、圖3所示。
從圖2來看,在男生體測數據的訓練集中有7 748
個數據,劃分為4個類別,數量分別為2 483、5、
5 043、213,對應的標簽分別是不及格、優(yōu)秀、及格、良好,其中及格的數量最多。此外,Gini系數表示樣本的不確定性,Gini的值越大,表明樣本集合的不確定性越大[12]。而決策樹會把Gini系數下降最快的特征作為根節(jié)點,所以選擇1 000米測試作為第一個根節(jié)點,表明1 000米測試是影響男生體測成績的第一要素,而立定跳遠和引體向上也是影響男生體測成績的重要因素。
從圖3來看,在女生體測數據的訓練集中有2 195
個數據,劃分為4個類別,數量分別為312、1、
1 747、135,對應的標簽分別是不及格、優(yōu)秀、及格、良好,其中及格的數量最多。而決策樹會把Gini系數下降最快的特征作為根節(jié)點,所以選擇800米測試作為第一個根節(jié)點,表明800米測試是影響女生體測成績的第一要素,而50米測試也是影響女生體測成績的重要因素。
3.3? 決策樹、樸素貝葉斯與貝葉斯神經網絡比較
在本實驗中,選用決策樹、樸素貝葉斯和貝葉斯神經網絡三種分類器進行對比。選擇數據集中80%的樣本作為訓練樣本集,剩下20%的樣本用作測試樣本集,將選區(qū)的訓練集數據作為輸出,帶入貝葉斯神經網絡中,用訓練好的網絡對測試集數據進行分類,并分析分類效果。最后,將相同的訓練集數據和測試集數據分別帶入決策樹和高斯樸素貝葉斯進行性能對比,實驗結果如表3和表4所示。
從結果可以看出,取同樣的數據和特征,在預測男、女生的體測成績中,貝葉斯神經網絡的準確率達到93%以上,比決策樹和樸素貝葉斯的準確率都高;從精確率上看,貝葉斯神經網絡的預測結果也高于決策樹和樸素貝葉斯。說明貝葉斯神經網絡在分類準確率和精確率兩個方面均優(yōu)于決策樹和樸素貝葉斯。
貝葉斯神經網絡適用于具有復雜輸入輸出關系的數據挖掘,且預測時不需要建立精確的數學模型。通過對實驗數據的歸一化處理,顯著提高了網絡模型的求解效率,同時,該模型能夠通過分析大樣本數據來確定影響學生體測成績的關鍵因素,并對這些因素之間的相關性進行定量分析,具有較好的泛化能力。與決策樹相比,貝葉斯神經網絡不僅具備優(yōu)良的非線性性能,還具備貝葉斯后驗概率的真實性。
表3? 不同算法對于男生體測成績預測結果的對比
算法 指標
準確率 精確率 召回率
決策樹 0.868 4 ± 0.007 2 81.32 83.13
樸素貝葉斯 0.889 0 ± 0.004 7 88.82 80.29
貝葉斯神經網絡 0.934 5 ± 0.004 3 88.91 81.45
表4? 不同算法對于女生體測成績預測結果的對比
算法 指標
準確率 精確率 召回率
決策樹 0.883 4 78.43 78.43
樸素貝葉斯 0.908 9 86.04 82.55
貝葉斯神經網絡 0.938 1 90.41 85.46
4? 通過數據挖掘進行體質分析
模型預測結果表明,該高校學生體測成績良好及優(yōu)秀率不足2.85%。從整體上來看,該高校學生的體質健康水平有待進一步提高。
結合男生相關性分析和最優(yōu)決策樹,1 000米測試對男生成績影響最大,而引體向上和立定跳遠次之。1 000米作為男生體能、耐力和爆發(fā)力的測試,主要檢驗男生的心肺功能、下肢力量以及肌肉發(fā)展水平是否達到正常水準。結合相關性和Gini系數來看,Gini系數低的因素相關性也較差,說明在日常訓練中男生應根據自身的不足,補足短板,進行專項的體能和耐力訓練,全面提升自己的體質健康水平。
在女生的體測項目中,起決定性作用的是800米和50米測試,表明一部分女生在有氧、無氧耐力上與標準水平還有一定的差距,而這類女生可以考慮適當增加身體鍛煉的頻次以及提升鍛煉的效果,比如加強日常跑步訓練,進行跳繩等有氧鍛煉。如果女生能夠在這兩個項目中取得優(yōu)異成績,那么女生體測的及格率將會大大提高。
5? 結? 論
學生的體質健康水平一直以來都是高校重點關注的一項指標,而體測數據不僅是學生體質健康水平的一種直觀反映,更是高校學子身體機能的綜合體現。本文通過數據挖掘技術探索體測成績與高校學生身體素質的關系,利用決策樹、樸素貝葉斯、貝葉斯神經網絡進行了相應處理,再利用CART決策樹得到最優(yōu)分類模型,提取出當前學生的體測成績并進行了分析,進而有效干預高校學生身體素質的發(fā)展,為進一步采取相應措施提供可循依據。
參考文獻:
[1] 張雪琴,江帆,席本玉.基于數據挖掘的學生體質健康測試平臺設計及應用研究 [J].電子設計工程,2022,30(13):87-90+95.
[2] 趙東健.教學型職業(yè)院校體育實踐課思政進課堂的實現途徑研究 [J].青少年體育,2022(6):34-35+42.
[3] 朱曉飛.移動Wi-Fi網絡環(huán)境下學生上網行為數據分析及應用 [D]. 新鄉(xiāng):河南師范大學,2020.
[4] 于淼,陳穎,丁康,等.基于CART決策樹模型的北京市春季氣傳花粉濃度與植被空間結構關系研究 [J].北京林業(yè)大學學報,2023,45(1):121-131.
[5] 張艷可,王金亮,蘇懷,等.基于CART決策樹的雙尺度流域單元地貌分類研究——以北回歸線(云南段)地區(qū)為例 [J].地理與地理信息科學,2021,37(2):84-92.
[6] 張睎偉,王磊,汪西原.基于CART決策樹的沙地信息提取方法研究 [J].干旱區(qū)地理,2019,42(5):1133-1140.
[7] 王子涵,楊秀芝,段現銀,等.基于貝葉斯神經網絡的機床熱誤差建模 [J].制造技術與機床,2022(1):141-145.
[8] 貢保才讓,色差甲,慈禎嘉措,等.基于Naive Bayes的藏文人名性別自動識別 [J].青海師范大學學報:自然科學版,2017,33(4):11-15.
[9] 向新明.面向貝葉斯神經網絡的概率計算電路設計 [D].成都:電子科技大學,2021.
[10] 葉子健,劉士文,景冰璇,等.基于神經網絡和支持向量機的體測分析模型 [J].科學技術創(chuàng)新,2021(34):55-57.
[11] 馬湧,孫彥廣.貝葉斯神經網絡在蒸氣管網預測中的應用 [J].中國冶金,2014,24(6):53-57.
[12] 張居營.大話Python機器學習 [M].北京:中國水利水電出版社,2019.
作者簡介:周義(2000—),男,漢族,貴州畢節(jié)人,本科在讀,研究方向:數據挖掘;通訊作者:張豹(1988—),男,漢族,安徽阜陽人,講師,碩士研究生,研究方向:數據安全。