999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的高校學生成績預測

2023-04-29 00:00:00李凱偉
計算機時代 2023年12期

摘" 要: 以某校本科生的歷史成績數據、一卡通消費數據、校園網日志數據和圖書館刷卡記錄數據為基礎,提出一種利用學生行為數據來預測學生成績的方法。選擇五種常用于教育數據挖掘的預測方法(邏輯回歸算法、支持向量機算法、決策樹算法、K近鄰算法和樸素貝葉斯算法),通過Stacking集成進行模型優化,實驗結果表明,相較于單獨利用成績和單獨利用分類模型預測成績,該方法準確率更高,該研究對于輔助教學管理,促進智慧校園建設有一定意義。

關鍵詞: 教育數據挖掘; 成績預測; 組合優化

中圖分類號:TP391" " " " " 文獻標識碼:A" " "文章編號:1006-8228(2023)12-220-04

Grade prediction of university student based on machine learning

Li Kaiwei

(School of Big Data and Computer Science, Shanxi Institute of Science and Technology, Jincheng, Shanxi 048000, China)

Abstract: Based on the historical performance data, one card consumption data, campus network log data, and library card swiping record data of undergraduate students in a certain university, a method for predicting student grades using student behavior data is proposed. Five commonly used prediction methods (logistic regression algorithm, support vector machine algorithm, decision tree algorithm, K-nearest neighbor algorithm, and naive Bayesian algorithm) for educational data mining are selected for model optimization through Stacking integration. Experimental results show that this method has higher accuracy compared to predicting grades using grades alone and classification models alone. This study has certain significance for assisting teaching management and promoting the construction of smart campuses.

Key words: education data mining; grade prediction; combination optimization

0 引言

學生成績預警,是教育大數據分析的一個重要研究方向,旨在通過數據挖掘對學生相關數據進行成績預測,為學生和教學管理者提供一定的決策支持。

高校擴招政策實施后,在校生人數逐年上升,在教學過程中,教師難以了解每位學生的知識掌握情況;而且,傳統的統計掛科方式一般在課程結束后進行預警,具有滯后性,已無法滿足高校培養新時代高質量人才的需求。隨著數字化校園的建設,高校積累了大量的學生數據,通過分析學生生活學習數據,預判學生未來的學習成績,實現從簡單的查詢到預測性分析的轉變,可以提前為在校生提供預警,從而提高教學質量,促進智慧校園的發展。

1 相關工作

教育數據挖掘(educational data mining,簡稱EDM),就是將教學過程中或教育需求采集的數據資源,運用統計學、數據挖掘和機器學習等相關技術,轉化為有價值的信息。C. Romero和Ventura兩人分階段歸納了1995年至2005年的數據挖掘在傳統教育系統、特定的網絡課程、學習內容管理系統,以及自適應和智能的網絡教育系統中的應用[1];周慶等人[2]總結了EDM研究的相關背景知識,并指出在大數據時代背景下,EDM面臨著政策、資源和技術等多方面的機遇和挑戰。李宇帆等人[3]對EDM進行了系統性梳理,概括工作流程,詳細介紹了數據挖掘技術在教育領域的應用場景。

學業成績預測作為教育數據挖掘領域中一個研究方向,也引起了很多學者的關注,Polyzou A 等人[4]根據課程銜接關系,利用先修課程來預測現學課程的表現。張鴻博[5]提出在學業成績數據基礎上,結合校園網數據進行分析,結果表明,可以獲得更為準確的預測。王崢[6]收集學生個人信息數據和時空軌跡數據,構建學生個人行為畫像以及社交行為畫像,設計學業預警與社交分析系統,分析影響成績的因素。Krejcar Ondrej[7]提出一種使用監督機器學習方法的預測分析模型,該模型基于學生的歷史學習成績預測學生的最終成績。文獻[8]提出了一種基于離群數據挖掘與分析的課程、課堂、課外“三位一體”的預警信息發現與生成模型LAOMA,建立了學業預警兩類六級信號系統及反饋機制。Krejcar Ondrej[9]提出一種基于學生的歷史學習成績的有監督機器學習預測分析模型,比較分類和回歸技術在預測學生成績的性能。文獻[10]分析影響預測結果的因素,包括歷史成績、論壇變量、點擊流數據、課程持續時間、作業類型、數據收集程序、考試中的問題格式和預測結果,實驗表明,與練習相關的變量是最好的預測因素。

上述研究取得了一定的進展,但是存在一些不足:

⑴ 現有的研究主要利用學生的學習行為進行成績預測,缺乏對其他信息的利用,一定程度上影響了預測準確性。

⑵ 現有的研究在課程臨近結束時才能給出預測,存在一定的滯后性,無法及時為教學和管理工作提供幫助。

2 成績預測模型設計

針對以上不足,本文設計基于Stacking方法[11-12]的成績預測模型,訓練多個分類器并將其結合輸出組合預測,相較于單分類模型,通過組合各種不同的分類模型以提高整體模型的穩定性,從而獲得更準確的預測結果。Stacking方法作為一種分層模型集成框架,如圖1所示,首先在第一層構建多個不同類型的基學習器[(M1,M2,M3ΛMn)],每個基模型對訓練集train1訓練,然后用于預測train1和test1的標簽列[(p1,p2,p3Λpn)],[(t1,t2,t3Λtn)],并分別把[(p1,p2,p3Λpn)]以及[(t1,t2,t3Λtn)]合并得到[P1]、[T1],對其他分類器做相同操作,得到一個新的訓練集和測試集train2、test2,在第二層構建一個元學習器,訓練train2,預測test2,得到最終的標簽列。

本文選取支持向量機算法、決策樹算法、K近鄰算法、樸素貝葉斯算法和Logistic回歸進行成績預測,并基于Stacking集成進行模型優化,基模型選擇前四種分類算法,Logistic回歸作為元模型,為避免過擬合的風險,采用五折交叉驗證,以模型M1訓練為例,需對其進行五次訓練,每次挑選一折作為驗證集,基分類器M1經過第一次訓練后,預測驗證集得到輸出p1,預測測試集得到輸出t1,重復上述操作,M1經過五折交叉驗證后,得到M1每次經過訓練后在驗證集上的輸出p1,p2,p3,p4,p5,將其拼接在一起得到在原始訓練集上預測的結果P1,M1每次經過訓練后在測試集上的輸出t1,t2,t3,t4,t5,并將其相加之后求平均得到原始測試集上預測結果T1。并對其他的基模型進行同樣的操作,得到P1,P2,P3,P4和T1,T2,T3,T4。然后,再將P1,P2,P3,P4合并在一起作為新訓練集,T1,T2,T3,T4作為新測試集,進一步訓練得到Logistic回歸作為元模型,得到最終的預測結果。

3 實驗設置

3.1 實驗數據

本文使用的數據來源于某高校2021級全校本科生在2021年9月至2022年5月產生的數據,主要包括學生考試成績、一卡通消費數據、校園網日志數據和圖書門禁借閱數據。刪除由于休學、退學、轉學、參軍入伍、交流訪學等原因導致數據為空值的學生樣本數據,排除部分樣本數據缺失對實驗結果的影響,如表1所示。

3.2 對比試驗設置

⑴ 單模型分類,分別利用支持向量機算法、決策樹算法、K近鄰算法和樸素貝葉斯算法,Logistic回歸進行預測[13];

⑵ 基于投票法集成,本質是通過多個模型的集成降低方差,從而提高模型的魯棒性。基本思想是選擇所有分類器中輸出最多的一個類,作為最終的分類結果[14]。

3.3 評價指標

Accuracy(準確率),代表預測結果中被正確分類的樣本數占總樣本數的比例。公式為:

[Accuracy=TP+TNTP+TN+FP+FN]

其中,TP代表一個實例是正例,且被判定為正例;TN代表一個實例是負例,且被判定為負例;FP代表一個實例是負例,但被判定為正例;FN代表一個實例是正例,但被判定為負例。

Precision(精準率),代表預測結果中被正確預測為正樣本的個數占預測結果中被預測為正樣本數的百分比,公式為:

[Precision=TPTP+FP]

Recall(召回率),代表被正確預測為正樣本數占樣本中真實的正樣本的百分比,公式為:

[Recall=TPTP+FN]

3.4 實驗結果

為驗證本文提出的方法的有效性,選取上述對比試驗,通過準確率、精準率、召回率分析各模型的性能,結果如下所示。

由圖2可以看出,對比五個分類算法的整體預測準確率以及精準率、召回率,發現五個算法各有優劣,不能簡單通過整體準確率來判斷,通過Stacking方法優化組合模型,堆疊各種各樣的基學習器,使用第一階段的結果作為下一層預測的特征,與其他傳統單一分類模型相比,在基于學生數據預測期末成績的問題上取得了較好的預測效果,準確率達到了94%,此外,在精確率、召回率指標上也均有顯著的提升。

4 總結

本文以某高校2021級本科生的考試成績、圖書館門禁借閱系統數據和一卡通消費數據為基礎,分析其對于學生成績的影響,針對單模型預測容易發生過擬合的問題,通過Stacking 集成學習進行優化,提高模型的準確度,實驗結果表明預警模型評估效果得到了提升。未來將考慮引入課堂學習行為、心理素質及家庭因素,使用多維度數據來研究學生的學業情況。

參考文獻(References):

[1] Sheel S J, Vrooman D , Renner R S ,et al.A comparison of

neural networks and classical discriminant analysis in predicting students' mathematics placement examination scores.[C]//DBLP.DBLP,2001.

[2] 周慶,牟超,楊丹.教育數據挖掘研究進展綜述[J].軟件學報,

2015,26(11):3026-3042.

[3] 李宇帆,張會福,劉上力,等.教育數據挖掘研究進展[J].計算

機工程與應用,2019,55(14):15-23.

[4] Elbadrawy, Asmaa,Polyzou, Agoritsa,REN Zhiyun,et al.

Predicting student performance using personalized analytics[J].Computer (Long Beach Calif),2016,49(4):61-69.

[5] 張鴻博.距離優化的DBSCAN網絡行為分析及N-

Adaboost學業成績預測研究[D].蘭州:蘭州大學,2020.

[6] 王崢.基于學生校園數據的學業預警與社交分析系統的

設計與實現[D].北京:北京郵電大學,2019.

[7] Nikhil A S , Techstudent B .A Predictive Analytic study on

stock market trend by supervised machine learning algorithms[J]. 2020.

[8] 金義富,吳濤,張子石,等.大數據環境下學業預警系統設計與

分析[J].中國電化教育,2016(2):69-73.

[9] Abdul Bujang Siti Dianah,Selamat Ali,Krejcar Ondrej.A

predictive analytics model for students grade prediction by supervised machine learning[J].IOP Conference Series: Materials Science and Engineering,2021,1051(1):012005.

[10] MORENO M P M,PONG Tingchuen,MUNOZ M P J,et al.

Analysis of the factors influencing learners' performance prediction with learning analytics[J]. IEEE Access,2020,8:5264-5282.

[11] 徐慧麗.Stacking算法的研究及改進[D].廣州:華南理工

大學,2018.

[12] 鄭紅,葉成,金永紅,等.基于Stacking集成學習的流失用戶

預測方法[J].應用科學學報,2020,38(6):944-954.

[13] 蘭嘉楓.基于一卡通數據的大一新生成績預測預警[D].

武漢:華中師范大學,2022.

[14] Farshid Marbouti,Heidi A. Diefes-Dux,Krishna

Madhavan.Models for early prediction of at-risk students in a course using standards-based grading[J].Comput Educ,2016,103:1-15.

主站蜘蛛池模板: 丁香综合在线| 精品免费在线视频| 亚洲成aⅴ人片在线影院八| 久久精品亚洲热综合一区二区| 日本免费a视频| 亚洲an第二区国产精品| 亚洲一级毛片免费看| 四虎永久在线| 精品一区二区三区视频免费观看| 一本大道东京热无码av| 亚洲天堂伊人| 六月婷婷精品视频在线观看| 久久无码av三级| 99er精品视频| 爽爽影院十八禁在线观看| 日韩欧美中文字幕在线韩免费| 毛片网站在线看| 色欲色欲久久综合网| 国产成人盗摄精品| 国产在线自在拍91精品黑人| 久久99精品久久久久纯品| 欧美特级AAAAAA视频免费观看| 高潮毛片无遮挡高清视频播放| 久久男人资源站| 69av免费视频| 成人国产精品2021| 亚洲精品成人福利在线电影| 国产色爱av资源综合区| 韩国v欧美v亚洲v日本v| 婷婷综合在线观看丁香| 国产69精品久久久久孕妇大杂乱 | 中文无码日韩精品| 久久鸭综合久久国产| 国产欧美在线观看一区| 激情亚洲天堂| 国产成人三级| 欧美三级不卡在线观看视频| 国产视频只有无码精品| 无码区日韩专区免费系列| 国产网友愉拍精品| 色婷婷在线播放| 在线观看无码av免费不卡网站| 亚洲成人黄色网址| 久久精品欧美一区二区| 欧美成人影院亚洲综合图| 日韩欧美国产三级| 黄色国产在线| 国产精品天干天干在线观看| 亚洲美女AV免费一区| 国产免费观看av大片的网站| 波多野结衣在线一区二区| 久久免费视频6| 九九视频免费在线观看| 欧美特级AAAAAA视频免费观看| 熟妇丰满人妻| 久久女人网| 国产SUV精品一区二区| a欧美在线| 中国国产一级毛片| 久久国产成人精品国产成人亚洲| 久久久久亚洲av成人网人人软件| 国产一级毛片yw| 日韩精品毛片人妻AV不卡| 免费高清a毛片| 这里只有精品在线| 久久美女精品| 国产真实乱了在线播放| 亚洲中文字幕在线精品一区| 狠狠亚洲五月天| 日韩国产黄色网站| 婷婷五月在线视频| 久热中文字幕在线观看| 亚洲swag精品自拍一区| 亚洲国产中文欧美在线人成大黄瓜| 日本不卡视频在线| 日韩在线2020专区| 日韩第九页| 在线观看欧美国产| 日本高清有码人妻| 国产在线精品香蕉麻豆| 欧美无专区| 亚洲性日韩精品一区二区|