999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的校園運動研究

2024-06-01 22:43:17周義陳婕孟翔汪小蕓張豹
現代信息科技 2024年4期
關鍵詞:數據挖掘

周義 陳婕 孟翔 汪小蕓 張豹

收稿日期:2023-06-27

基金項目:貴州省2022年省級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(S202214440127)

DOI:10.19850/j.cnki.2096-4706.2024.04.009

摘? 要:體質測試作為反饋大學生體質健康水平的根本途徑,為高校開展學生健康干預工作提供了數據支撐,但如何對體測數據進行科學分析及合理使用也變得尤為重要。文章通過數據挖掘技術研究大學生體測數據,分別采用決策樹、樸素貝葉斯、貝葉斯神經網絡對體測數據進行預測,結果顯示,貝葉斯神經網絡的預測準確率最高。利用CART決策樹對體測數據進行分類,由此可得到最優(yōu)決策樹,由最優(yōu)決策樹分析影響大學生體質水平的重要因素,進一步探討體測成績對大學生身體素質的影響和作用,從而提高大學生參與校園運動的熱情和興趣。

關鍵詞:數據挖掘;決策樹;樸素貝葉斯;貝葉斯神經網絡;校園運動

中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2024)04-0041-05

Research on Campus Sports Based on Data Mining

ZHOU Yi, CHEN Jie, MENG Xiang, WANG Xiaoyun, ZHANG Bao

(Science College, Guizhou Institute of Technology, Guiyang? 550003, China)

Abstract: Physical fitness testing, as the fundamental way to provide feedback on the physical health level of college students, provides data support for universities to carry out student health intervention work. However, it has become particularly important to scientifically analyze and reasonably use physical fitness data. This paper uses data mining techniques to study the physical measurement data of college students, and uses decision trees, naive Bayes, and Bayesian neural networks to predict the physical measurement data. The results show that Bayesian neural networks have the highest prediction accuracy. By using the CART decision tree to classify physical testing data, the optimal decision tree can be obtained. It analyzes the important factors that affect the physical fitness level of college students through the optimal decision tree, further explore the impact and role of physical testing scores on the physical fitness of college students, and thereby enhance their enthusiasm and interest in participating in campus sports.

Keywords: data mining; Decision Tree; naive Bayes; Bayesian Neural Networks; campus sports

0? 引? 言

隨著數據挖掘技術的更新迭代,使用數據挖掘工具對高校學生的體測數據進行挖掘和處理已成為一種新的發(fā)展趨勢。在我國,對此展開了多方面的研究,比如利用Clementine 12.0數據挖掘軟件分析高校學生體測中各項指標之間的關聯規(guī)則[1],從而對各個指標的影響因素做出判斷。本文運用Jupyter Lab數據挖掘軟件對大學生體測數據進行分類分析。由于高校學生體測數據的數量較為龐大,而數據挖掘工具在此方面的應用也并未成熟,尤其是缺乏高效的數據挖掘算法,基于此,本文擬對大學生體測數據進行特征分析,并運用決策樹算法、樸素貝葉斯算法以及貝葉斯神經網絡算法,有效降低數據計算量,提升預測準確度,并將這些算法應用到對大學生體測數據的挖掘分析之中,從多維角度實現對大學生身心狀況的測試和評價。這有助于引導大學生轉變“重文輕體”的思想觀念,提高大學生身體素質,促進學生德智體美勞全面發(fā)展[2]。

1? 基于分類算法的數據挖掘

數據挖掘是一個從紛亂龐雜到協調有序的有效信息提取過程,是充分挖掘數據價值的過程[3],也是統計分析的延伸和擴展,涉及多種技術和方法,如神經網絡、決策樹、模糊算法、關聯規(guī)則法等。隨著數據挖掘技術在諸多領域的廣泛應用,數據挖掘理論逐漸形成,并以數據挖掘過程規(guī)范和數據挖掘技術為核心內容。數據挖掘的應用涵蓋商業(yè)、醫(yī)療、金融、教育、政府等多個領域,可以應用于市場營銷分析、疾病預測和診斷、信用評估和風險管理、教育評估和決策支持、政府決策和公共服務等方面。數據挖掘的持續(xù)發(fā)展,不僅為我們提供了更多富有價值的信息,也為我們提供了更多的機會。

1.1? CART決策樹

CART決策樹是一種可以從復雜、不規(guī)則數據中找出最優(yōu)數據的分類模型,其形式主要是建立一個二分枝模型,從而對復雜的數據進行最優(yōu)決策分類,并通過分類實現數據預測。該算法的分類主要是通過計算Gini系數選取屬性集中的某個屬性,將當前待分類的樣本集分為兩個子樣本集,并循環(huán)往復此步驟,直至當前待分類的樣本集被判定為葉節(jié)點或達到停止分類的條件[4-6]。

CART決策樹選取的分裂屬性為基尼系數,假設類的總數為J,P表示特征,Pj表示第j個特征在樣本總數中所占的比例,則基尼系數的計算式為:

(1)

樣本集合M的基尼系數為:

(2)

其中,| M |表示集合M總樣本數,| Cj |表示集合M中屬性為j的樣本子集數,基尼系數Gini(M)表示集合M的不確定性。

1.2? 樸素貝葉斯

樸素貝葉斯的目標是通過訓練數據集學習聯合概率分布P(X,Y),并由貝葉斯定理將聯合概率轉化為先驗概率分布和條件概率分布之積[7]。給定數據集T = {(x1, y1), (x2, y2), …, (xn, yn)},其中N表示樣本總數,xi = (xi(1), xi(2), …, xi(n))T是一個n維向量,yi ∈ {c1, c2, …, ck},k表示標簽類別數。首先計算先驗概率:

(3)

再給出條件概率:

(4)

由式(2)可以看出,條件概率有指數級的參數數目,直接計算的工作量巨大,而貝葉斯關于條件概率提出一個條件獨立的假設,即:

(5)

對于給定數據x = (x(1), x(2), …, x(M))T,聯立(1)(3)可得:

(6)

在分類時,樸素貝葉斯通過學習到的模型將后驗概率最大的類作為x的類輸出[8],最終的分類函數為:

(7)

1.3? 貝葉斯神經網絡

隨著深度學習的不斷發(fā)展,神經網絡因其強大的非線性擬合能力而備受關注。其中,貝葉斯神經網絡是一種將貝葉斯理論和神經網絡融合在一起進行數據挖掘的方法。它的優(yōu)點在于將不確定性考慮在內使模型更加可靠。具體來說,貝葉斯神經網絡是在貝葉斯原理的基礎上引入了神經網絡的權值,在權值的后驗概率下進一步優(yōu)化目標函數,并利用權值的最大后驗概率來計算神經網絡的權值,進而構建一種新型的貝葉斯神經網絡建模。這個模型在處理小數據集、避免過擬合和提高模型泛化能力方面具有優(yōu)勢。一個神經網絡模型可以視為一個條件分布模型P( y | x, w),其中y表示標簽數據,x表示輸入數據,w表示神經網絡的權值,D表示數據集,將輸入數據轉換為高斯分布以獲得更高可能性的參數。

(8)

通過最大似然估計(MLE)方法最大化后驗概率獲得參數點估計:

(9)

在最大似然估計中,將w取不同值概率視為相等,即并不對w做出先驗估計。如果為w引入先驗估計,就變成最大后驗估計(MAP)[9]:

(10)

按照已知的先驗分布,基于貝葉斯原理對神經網絡的不確定因素進行分析,得到網絡結構的后驗概率,使得后驗概率最大的網絡參數是最優(yōu)的。

2? 數據處理

2.1? 數據的相關性分析

由于男、女生的體測項目和成績評判標準有所不同,需按性別將數據集分成兩組。在進行具體的分析之前,需要對分類得到的數據集進行數據的相關性分析,檢測數據集中體測項目與最終成績之間的關系。本文使用皮爾遜相關系數來檢驗不同特征之間的相關性,假設有兩個變量X、Y,兩個變量之間的皮爾遜相關系數計算式為:

(11)

其中,cov表示變量之間的協方差,σ表示標準差,E表示期望。相關系數的符號“+”“-”分別表示正相關、負相關,值的大小代表了兩個變量之間影響關系的強弱程度。

從表1男性相關性分析中可以看出,各個項目之間的相關性不是太強,有益于神經網絡訓練。此外,圖中最后一列,即總分等級與各測試項目之間的相關系數中,1 000米測試與總分等級的相關性最大,表明1 000米測試對總分等級的影響因子最大,而立定跳遠、引體向上和50米測試對總分等級的影響也較大。

從表2女性相關性分析中可以看出,50米測試和800米測試之間存在較強的相關性,而其余各個項目之間的相關性并不是太強。此外,圖中最后一列,即總分等級與各測試項目之間的相關系數中,800米測試和50米測試的成績與總分等級的相關性很大,表明對于女生來說,短、長跑測試對總分等級的影響因子最大。

2.2? 數據的歸一化處理

歸一化是將數據的絕對數值轉化為相對數值的一種線性尺度變換過程。通常,神經網絡的隱層采用Sigmoid轉換函數,為提高訓練速度和靈敏性以及有效避開Sigmoid函數的飽和區(qū),一般要求輸入數據的值在0~1之間[10]。為確保所構建的模型具備一定的外推功能,需要將預處理數據的值控制在0.2~0.8之間。基于此,本文采用標準差方法對樣本數據進行歸一化處理,即:

(12)

其中,μ表示向量x的均值,σ表示向量x的標準差,使原始體測數據在0~1之間變化。

3? 模型預測結果分析及比較

3.1? 歸一化數據與原始數據對比

貝葉斯神經網絡輸入歸一化是對神經網絡輸入數據進行處理的方法。樣本數據歸一化處理后,模型在訓練集上的準確率經過500次迭代后,收斂至90%左右,而未經歸一化處理的原始數據,經過500次迭代后仍未收斂。因此,在求解精度上,歸一化處理后的數據經過模型計算優(yōu)于未歸一化的數據[11],模型測試結果表明,輸入向量各分量經歸一化處理后,預測效果優(yōu)于轉化前的數據,如圖1所示。

圖1? 歸一化與未歸一化數據對比

3.2? CART決策樹結果分析

文中使用JupyterLab實現CART決策樹的編程,將大學生體測原始數據導入處理,獲得男、女生最優(yōu)決策樹,結果如圖2、圖3所示。

從圖2來看,在男生體測數據的訓練集中有7 748

個數據,劃分為4個類別,數量分別為2 483、5、

5 043、213,對應的標簽分別是不及格、優(yōu)秀、及格、良好,其中及格的數量最多。此外,Gini系數表示樣本的不確定性,Gini的值越大,表明樣本集合的不確定性越大[12]。而決策樹會把Gini系數下降最快的特征作為根節(jié)點,所以選擇1 000米測試作為第一個根節(jié)點,表明1 000米測試是影響男生體測成績的第一要素,而立定跳遠和引體向上也是影響男生體測成績的重要因素。

從圖3來看,在女生體測數據的訓練集中有2 195

個數據,劃分為4個類別,數量分別為312、1、

1 747、135,對應的標簽分別是不及格、優(yōu)秀、及格、良好,其中及格的數量最多。而決策樹會把Gini系數下降最快的特征作為根節(jié)點,所以選擇800米測試作為第一個根節(jié)點,表明800米測試是影響女生體測成績的第一要素,而50米測試也是影響女生體測成績的重要因素。

3.3? 決策樹、樸素貝葉斯與貝葉斯神經網絡比較

在本實驗中,選用決策樹、樸素貝葉斯和貝葉斯神經網絡三種分類器進行對比。選擇數據集中80%的樣本作為訓練樣本集,剩下20%的樣本用作測試樣本集,將選區(qū)的訓練集數據作為輸出,帶入貝葉斯神經網絡中,用訓練好的網絡對測試集數據進行分類,并分析分類效果。最后,將相同的訓練集數據和測試集數據分別帶入決策樹和高斯樸素貝葉斯進行性能對比,實驗結果如表3和表4所示。

從結果可以看出,取同樣的數據和特征,在預測男、女生的體測成績中,貝葉斯神經網絡的準確率達到93%以上,比決策樹和樸素貝葉斯的準確率都高;從精確率上看,貝葉斯神經網絡的預測結果也高于決策樹和樸素貝葉斯。說明貝葉斯神經網絡在分類準確率和精確率兩個方面均優(yōu)于決策樹和樸素貝葉斯。

貝葉斯神經網絡適用于具有復雜輸入輸出關系的數據挖掘,且預測時不需要建立精確的數學模型。通過對實驗數據的歸一化處理,顯著提高了網絡模型的求解效率,同時,該模型能夠通過分析大樣本數據來確定影響學生體測成績的關鍵因素,并對這些因素之間的相關性進行定量分析,具有較好的泛化能力。與決策樹相比,貝葉斯神經網絡不僅具備優(yōu)良的非線性性能,還具備貝葉斯后驗概率的真實性。

表3? 不同算法對于男生體測成績預測結果的對比

算法 指標

準確率 精確率 召回率

決策樹 0.868 4 ± 0.007 2 81.32 83.13

樸素貝葉斯 0.889 0 ± 0.004 7 88.82 80.29

貝葉斯神經網絡 0.934 5 ± 0.004 3 88.91 81.45

表4? 不同算法對于女生體測成績預測結果的對比

算法 指標

準確率 精確率 召回率

決策樹 0.883 4 78.43 78.43

樸素貝葉斯 0.908 9 86.04 82.55

貝葉斯神經網絡 0.938 1 90.41 85.46

4? 通過數據挖掘進行體質分析

模型預測結果表明,該高校學生體測成績良好及優(yōu)秀率不足2.85%。從整體上來看,該高校學生的體質健康水平有待進一步提高。

結合男生相關性分析和最優(yōu)決策樹,1 000米測試對男生成績影響最大,而引體向上和立定跳遠次之。1 000米作為男生體能、耐力和爆發(fā)力的測試,主要檢驗男生的心肺功能、下肢力量以及肌肉發(fā)展水平是否達到正常水準。結合相關性和Gini系數來看,Gini系數低的因素相關性也較差,說明在日常訓練中男生應根據自身的不足,補足短板,進行專項的體能和耐力訓練,全面提升自己的體質健康水平。

在女生的體測項目中,起決定性作用的是800米和50米測試,表明一部分女生在有氧、無氧耐力上與標準水平還有一定的差距,而這類女生可以考慮適當增加身體鍛煉的頻次以及提升鍛煉的效果,比如加強日常跑步訓練,進行跳繩等有氧鍛煉。如果女生能夠在這兩個項目中取得優(yōu)異成績,那么女生體測的及格率將會大大提高。

5? 結? 論

學生的體質健康水平一直以來都是高校重點關注的一項指標,而體測數據不僅是學生體質健康水平的一種直觀反映,更是高校學子身體機能的綜合體現。本文通過數據挖掘技術探索體測成績與高校學生身體素質的關系,利用決策樹、樸素貝葉斯、貝葉斯神經網絡進行了相應處理,再利用CART決策樹得到最優(yōu)分類模型,提取出當前學生的體測成績并進行了分析,進而有效干預高校學生身體素質的發(fā)展,為進一步采取相應措施提供可循依據。

參考文獻:

[1] 張雪琴,江帆,席本玉.基于數據挖掘的學生體質健康測試平臺設計及應用研究 [J].電子設計工程,2022,30(13):87-90+95.

[2] 趙東健.教學型職業(yè)院校體育實踐課思政進課堂的實現途徑研究 [J].青少年體育,2022(6):34-35+42.

[3] 朱曉飛.移動Wi-Fi網絡環(huán)境下學生上網行為數據分析及應用 [D]. 新鄉(xiāng):河南師范大學,2020.

[4] 于淼,陳穎,丁康,等.基于CART決策樹模型的北京市春季氣傳花粉濃度與植被空間結構關系研究 [J].北京林業(yè)大學學報,2023,45(1):121-131.

[5] 張艷可,王金亮,蘇懷,等.基于CART決策樹的雙尺度流域單元地貌分類研究——以北回歸線(云南段)地區(qū)為例 [J].地理與地理信息科學,2021,37(2):84-92.

[6] 張睎偉,王磊,汪西原.基于CART決策樹的沙地信息提取方法研究 [J].干旱區(qū)地理,2019,42(5):1133-1140.

[7] 王子涵,楊秀芝,段現銀,等.基于貝葉斯神經網絡的機床熱誤差建模 [J].制造技術與機床,2022(1):141-145.

[8] 貢保才讓,色差甲,慈禎嘉措,等.基于Naive Bayes的藏文人名性別自動識別 [J].青海師范大學學報:自然科學版,2017,33(4):11-15.

[9] 向新明.面向貝葉斯神經網絡的概率計算電路設計 [D].成都:電子科技大學,2021.

[10] 葉子健,劉士文,景冰璇,等.基于神經網絡和支持向量機的體測分析模型 [J].科學技術創(chuàng)新,2021(34):55-57.

[11] 馬湧,孫彥廣.貝葉斯神經網絡在蒸氣管網預測中的應用 [J].中國冶金,2014,24(6):53-57.

[12] 張居營.大話Python機器學習 [M].北京:中國水利水電出版社,2019.

作者簡介:周義(2000—),男,漢族,貴州畢節(jié)人,本科在讀,研究方向:數據挖掘;通訊作者:張豹(1988—),男,漢族,安徽阜陽人,講師,碩士研究生,研究方向:數據安全。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發(fā)展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫(yī)診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發(fā)實踐
主站蜘蛛池模板: 国产视频久久久久| 国产一级在线播放| 亚洲 欧美 日韩综合一区| 国产精品吹潮在线观看中文| 亚洲免费播放| 制服丝袜一区| 国产91小视频在线观看| 国产精品第一区| 福利在线不卡| 一级毛片基地| 亚洲综合九九| 国产精品欧美在线观看| 特级aaaaaaaaa毛片免费视频| 欧美一区二区三区国产精品| 麻豆精品久久久久久久99蜜桃| 成人在线观看一区| 亚洲综合极品香蕉久久网| 福利视频一区| 日韩精品成人网页视频在线| 国产第一福利影院| 国产成人欧美| 国产精品三级av及在线观看| h视频在线播放| 三级欧美在线| 日韩精品无码免费专网站| 91色国产在线| 亚洲精品无码在线播放网站| 欧美亚洲国产精品第一页| 亚洲VA中文字幕| 2021天堂在线亚洲精品专区| 午夜不卡视频| 美女一级毛片无遮挡内谢| 亚洲娇小与黑人巨大交| 日本高清免费不卡视频| 亚洲无线一二三四区男男| 91九色国产在线| 国产精品亚洲欧美日韩久久| 精品人妻一区二区三区蜜桃AⅤ| 精品久久久久无码| 国产成人综合网| 午夜小视频在线| 亚洲av无码专区久久蜜芽| 无码丝袜人妻| 国模视频一区二区| 免费无码AV片在线观看国产| 久久一本日韩精品中文字幕屁孩| 精品久久综合1区2区3区激情| 尤物特级无码毛片免费| 久久国产V一级毛多内射| 天堂成人av| 日韩第八页| 浮力影院国产第一页| 看国产毛片| 久久青草精品一区二区三区| 国产亚洲精品无码专| 国产高清在线观看91精品| 欧美色图久久| 中文字幕日韩丝袜一区| 亚洲综合精品香蕉久久网| 啊嗯不日本网站| 夜精品a一区二区三区| 亚洲一区二区三区在线视频| 欧美激情视频在线观看一区| 国产真实乱子伦精品视手机观看| 54pao国产成人免费视频| 中文字幕在线看| 亚洲天堂网站在线| 欧美在线视频不卡| 国产成人综合久久| 亚洲精品欧美重口| 国产a在视频线精品视频下载| 免费aa毛片| 黄色网址手机国内免费在线观看| 精品中文字幕一区在线| 国产精品视频系列专区| 国产一区二区网站| 国产视频一二三区| 91年精品国产福利线观看久久 | 91精品国产自产在线观看| 九九香蕉视频| 精品91自产拍在线| 久久久久国产精品嫩草影院|