


















摘" 要:對華南農業大學電子工程學院電子信息工程專業三個年級進行了學情分析及學業預警的研究。使用MATLAB R2021a和SPSS軟件,采用綜合評價、多元線性逐步回歸、決策樹三種不同的建模方法對某科目是否及格進行預測。對一組學生數據分別用三種模型預測數字電子技術課程成績,對比其預出率和預錯率,通過模型集成,建立不及格等級制模型量化預測結果。依據預測結果做出合理干預,從而達到預防學生掛科的目的。
關鍵詞:學情分析;學業預警;綜合評價;逐步回歸;決策樹
中圖分類號:TP311" 文獻標識碼:A" 文章編號:2096-4706(2024)23-0153-06
Academic Situation Analysis and Academic Early Warning Based on Model Integration
YIN Huili, LIU Wentao, LI Jianyu, RAO Junhua, LI Lishan
(College of Electronic Engineering and College of Artificial Intelligence, South China Agricultural University, Guangzhou" 510642, China)
Abstract: This paper conducts research on academic situation analysis and academic early warning for three grades of electronic information engineering major in college of electronic engineering of South China Agricultural University. It uses MATLAB R2021a and SPSS softwares, and uses three different modeling methods, including comprehensive appraisal, multiple linear stepwise regression, and Decision Tree, to predict whether a subject passes. For a group of student data, three models are used to predict the results of the digital electronic technology course, compare the pre-output rate and pre-error rate, and establish the failed hierarchical model to quantize prediction results through model integration. According to the prediction results, this paper makes reasonable intervention, so as to achieve the purpose of preventing students from failing.
Keywords: academic situation analysis; academic early warning; comprehensive appraisal; stepwise regression; Decision Tree
0" 引" 言
傳統的高等教育側重于以知識傳授為主導的智育教育[1]。高質量發展是新時代的硬道理,全面貫徹新發展理念是高等教育發展的新動力,然而在當代社會的飛速發展和國家民族振興的關鍵需求下,發展新質生產力,需要培養更多具備綜合素質和創新能力的人才,因此,為高等教育賦予了新的使命[2]。在這樣的時代背景下,學業預警制度的完善與改進也越來越重要。
學業預警制度是指高校以對學生學習過程監控為出發點,構建起一套日常學習、生活等多元一體的學業預先警示工作系統,針對學生學業方面存在的問題和困難,通過學校、家長與學生之間的多方溝通與協作,給予及時干預,幫助學生更好地完成學業[3]。
本研究選取數字電子技術作為分析預警的課程,基于模型集成對學生電類課程的學情進行分析,并對數字電子技術課程期末考試的合格率進行預測,依據預測結果對學生學業狀況預警。分析過程中所收集的數據包括高等數學、電路、模擬電子技術、數字電子技術等科目小測成績、期末成績、學生某學年年級排名、缺勤次數、掛科數量等。
采用三種不同的方法建立預測模型。其中綜合評價預測模型則選取收集到的數據作為評價指標,對學生個人的該科目學業情況進行評分,根據評分預測該學生是否合格。多元線性回歸預測模型是將學生該科目期末成績作為因變量,使用逐步回歸方法建立多元線性回歸模型預測學生該科目成績。第三種決策樹分類預測模型通過構建決策樹,將學生分為合格與不合格兩類,達成對學生該科成績是否合格的預測。分別使用三種模型,對同一組數據進行預測,對比三種模型的預出率(預測出確實不合格人數占總不合格人數的比例)和預錯率(預測出但實際成績合格的人數占預測出的總人數的比例),分析模型優劣。最后將三種模型按預測結果進行模型集成,建立不及格等級制模型的預測機制,優化預測效果。
1" 綜合評價預測模型
1.1" 評價指標選取與指標正向化
1.1.1" 相關性分析
將數電成績,即待預測科目的成績作為因變量,將學生其他評價指標作為自變量,計算兩變量(定距變量、定比變量)Pearson相關系數。其表達式如式(1)所示:
(1)
其中,Xi表示學生其他評價指標,Yi表示數電成績,r表示求得的Pearson相關系數。
1.1.2" 評價指標選取
分析因變量數電成績T(學生待預測的電子類科目成績,即及格與不及格)與自變量大一上學期學情排名t1、大一下學期排名t2、大二上學期排名t3、小測成績t4、高數成績t5、模電成績t6、電路成績t7、大物成績t8、缺勤次數t9、上一學期掛科數量t10、大一下與大二上學期相比的排名進步名次t11之間的皮爾遜相關系數。
通過SPSS對搜集到的數據進行相關分析[4],得到如表1所示的相關系數表。
分析表1可知,因變量數電成績T與自變量大一下學期排名t2、大二上學期排名t3成強負相關,與自變量小測成績t4、模電成績t6、電路成績t7成強正相關。選取該五個自變量作為評價指標。
1.1.3" 指標正向化
將選出的五個指標類型轉化為極大型指標。小測成績t4、模電成績t6、電路成績t7本身為極大型指標無須轉化。自變量大一下學期排名t2、大二上學期排名t3為極小型指標,轉化為極大型指標計算式(2):
(2)
其中,max表示t2、t3中最大值,x表示t2、t3,t表示正向化后指標。
1.2" 基于TOPSIS的綜合評價
1.2.1" TOPSIS優劣解距離法
TOPSIS優劣解距離法是一種多屬性決策分析方法,用于確定最佳方案[5]。
假設被評價對象有m個,每個被評價對象的評價指標有n個,構建式(3)所示判斷矩陣:
(3)
對判斷矩陣根據式(4)進行標準化處理:
(4)
分別根據式(5)和式(6)確定最優解和最劣解:
(5)
(6)
根據式(7)和式(8)計算各方案與最優解和最劣解的歐式距離:
(7)
(8)
根據式(9)計算綜合評價指數:
(9)
其中,Ci值越大代表評價對象越優。
1.2.2" 綜合評價模型建立
根據式(10)得到線性加權函數[6]:
(10)
其中,Wij表示權重且所有權重視為相等。
利用MATLAB R2021a軟件建模,得到綜合評價模型,對m個學生的該科成績進行綜合評價,根據評價結果對學生該科是否合格進行預測。
1.3" 預測結果
假設已知有x人不合格的情況下(數電期末成績小于等于60都歸于不及格),按綜合評價的分數高低,取出其中的評價分數倒數的x人。在收集到的數據組中,對120名學生的數電成績進行預測,預測結果如表2所示。
2" 多元線性逐步回歸預測模型
2.1" 回歸步驟
2.1.1" 方差齊性檢驗
由前面的相關性分析可知,相關性大于0.55的各學生學業指標(t2、t3、t5、t6、t7,小測成績t4由于數據缺失棄用)與數電成績有較強的線性關系,因此構建多元線性回歸模型對學生數電成績進行預測[7],從而預測學生數電成績是否及格。線性回歸前需要先對數據進行方差齊性檢驗[8]。
通過SPSS軟件進行基于中位數并具有調整后自由度的方差分析,得到如表3所示的方差齊次檢驗表。
由于表3中的顯著性均大于0.05,因此可以認為方差齊性檢驗通過,可以進一步進行線性回歸建模工作。
2.1.2 建立多元線性回歸模型
多元線性回歸分析的模型如式(11)和式(12)所示:
(11)
(12)
其中,β0,β1,…,βm表示偏回歸系數,與x1,x2,…,xm無相關性。ε表示隨機誤差項。
假設,因變量與各自變量之間存在線性關系,兩者之間的線性總體回歸模型可以表示為式(13)和式(14):
(13)
(14)
式(13)和式(14)中,ε表示隨機誤差項。
2.1.3" 求解回歸系數
利用SPSS建立普通線性回歸模型得到回歸系數如表4所示。
最終得到的多元線性回歸方程可表示為式(15):
(15)
2.1.4" 模型誤差分析
利用SPSS計算出了模型的相關系數R = 0.723和決定系數R2 = 0.523,模型殘差如表5所示,回歸標準化殘差的正態性驗證如圖1所示。
由表5和圖1所得的殘差正態P-P可以得出,其殘差最大值分別為20左右,其標準化殘差分布都在直線附近,可以認為標準化殘差滿足正態分布,誤差通過,建立的回歸方程合理,且誤差較小。
2.2" 逐步回歸分析
建立的多元線性模型中將相關性一般的變量也建立了進去,因此我們考慮將相關性一般,顯著性不足的變量剔除,建立最優多元線性回歸方程[9]。
通過SPSS完成對逐步回歸模型的求解,得到如表6所示的逐步回歸系數表。
最終得到的多元線性回歸方程可表示為:
(16)
利用SPSS計算出了模型的相關系數R = 0.853和決定系數R2 = 0.727。
普通回歸模型決定系數R2 = 0.523,逐步回歸模型決定系數R2 = 0.727。逐步回歸模型擬合度更高,用該模型進行學情預測更合適。
2.3" 預測結果
在收集到的數據組中,采用逐步回歸模型對120名學生的數電成績進行學情預測,預測結果如表7所示。
3" 決策樹分類預測模型
3.1" 決策樹算法
決策樹是一類機器學習算法,因其結構形似一棵樹而得名[10]。決策樹是一種常用于數據挖掘的機器學習算法,它以樹形結構表示決策過程,可用于分類和回歸任務。通過反復遞歸選擇最優特征對數據集進行分割,使最終劃分的子數據集達到想要的分類結果,具有模型可視化程度高,易于理解以及時間復雜度小等特點[11]。常見的決策樹算法包括ID3、C4.5、CART等。決策樹學習過程包括特征選擇和決策樹生成,以及決策樹剪枝[12]。在構建決策樹模型時,使用MATLAB R2021a軟件,并通過導入相關數據進行模型訓練,最終采用MATLAB R2021a中的ClassificationTree.fit()函數構建ID3算法決策樹模型。
3.2" 決策樹構建
3.2.1" 導入數據
將全部530名學生進行隨機分組,抽取300名學生數據作為訓練集,剩下230名學生數據作為測試集。其中的學生數據有該學生高等數學AII成績X1、大學物理A成績X2、電路成績X3、模擬電子技術成績X4、大一上學期到大二上學期三學期加權績點排名平均值百分比X5、不及格科目門數X6。
3.2.2" 構建決策樹模型
通過MATLAB R2021a自帶的ClassificationTree.plot() 函數繪制和可視化決策樹模型的結構和結果,決策樹根節點0表示不及格,1表示及格。生成的決策樹模型如圖2所示。
3.2.3" 優化決策樹
對構建好的決策樹進行預處理,通過設置葉子節點最小樣本數來提升決策樹的性能。葉子節點含有的最小樣本數對決策樹性能的影響如圖3所示。
根據圖4以及對多種葉子節點含有的最小樣本數進行試驗,最終選擇minleaf為4對決策樹進行構建。優化后的決策樹模型如圖4所示。
3.3" 預測結果
對隨機抽取的230名學生數電成績及格情況和準確率的預測結果如表8所示,對2021級120名學生數電成績及格情況和準確率的預測結果如表9所示,將預測結果與實際結果進行對比分析,從而得出決策樹模型預測的準確率。
4" 模型集成
4.1" 各模型優劣分析
使用上述三個模型對華南農業大學120名學生樣本的數電成績是否及格進行預測,預測結果如表10所示。
綜合評價預測模型在假設已知不及格人數條件下不及格學生預出率(預測出確實不合格人數比總不合格人數)和預錯率(預測出但實際合格人數比預測出的總人數)分別為70.59%和29.4%,多元線性逐步回歸預測模型在無須已知不及格人數條件下不及格學生預出率和預錯率分別為64.7%和8.33%,決策樹分類預測模型在無須已知不及格人數條件下不及格學生預出率和預錯率分別為53%和10%。
由上述分析可以得出:
1)綜合評價預測模型在對任意一組陌生數據預測時,預測的預出率高,但這是建立在假設不及格人數已知的條件下,而且其預測錯誤率較高,容易對學習成績不差的同學產生不及格誤判。
2)多元線性逐步回歸預測模型對改組數據預測時,預測的預出率較高,但這組數據屬于構成該逐步回歸模型的擬合集,預出率有虛高風險,不過其預測錯誤率較低,不易產生不及格誤判。
3)決策樹分類預測模型對任意一組陌生數據預測時,預出率一般,但預測錯誤率低。其預出率一般是由于各年學生數據訓練集間的數據有較顯著差異,導致模型訓練效果不好,多元線性逐步回歸模型也會受到影響,因此要建立適用的學情預測模型,需使用待預測學校學院專業自身的各年數據作為訓練集,不過綜合評價預測模型有已知不及格人數條件修正受此影響小。
4.2" 基于模型集成的不及格等級制模型
為了降低模型預錯率,將三種模型按預測結果集成,把三種模型預測出的不及格序號疊加,某個序號在三個模型中的一個出現時,認為是一級不及格學生;出現在兩個模型中時,認為是二級不及格學生;出現在三個模型中時,認為是三級不及格學生。
三級不及格學生有1、20、35、38、56、60、71、109,其中確實全為不及格。二級不及格學生有2、36、91、106,其中只有序號2一個誤判。一級不及格學生有4、51、76、79、88、108,其中51、76確實為不及格。
級別代表可信度,當為三級不及格學生時,該學生一定不及格;當為二級不及格學生時,四分之三的概率不及格;當為一級不及格學生時,三分之一的概率不及格??梢酝ㄟ^先分析收集到的數據,結合自身學校實際情況,判斷收集到的數據是否與實際情況有較大差別,若有較大差別,一到三級的學生都納入預警的范圍,若收集到的數據與實際相符,就僅將二到三級的學生納入預警范圍。模型集成的不及格等級制模型大大降低模型預錯率,也提高了預警效率。
5" 結" 論
在使用同一組學生數據預測數電成績時,綜合評價預測模型在假設已知不及格人數條件下,不及格學生預出率和預錯率分別為70.59%和29.4%,多元線性逐步回歸預測模型在無須已知不及格人數條件下,不及格學生預出率和預錯率分別為64.7%和8.33%,決策樹分類預測模型在無須已知不及格人數條件下,不及格學生預出率和預錯率分別為53%和10%。使用二級的不及格等級制模型,在無須已知不及格人數條件下,不及格學生預出率和預錯率分別為64.7%和8.33%。受不同年份學生學科數據波動影響,模型在預測學生不及格預出率效果一般,但模型在得出預測結果的過程中能產生學生該學科成績排位,依據此排位能對學生不及格預警產生較好的效果。
對數電不及格預測的結果發現:數電成績與大一下學期、大二上學期的學生績點排名、電路、模電成績有強正相關性。在使用集成后二級不及格等級制模型預測時,未被預測出不及格的學生,各學期排名和相關學科成績并不差,出現不及格情況大多是由于考試狀態不佳或者對該科目的學習狀態出現了急劇下滑。實際及格但是被誤測的學生,前面學期排名或相關學科成績都十分一般,但對本學期該科的學習比較重視或是學習狀態有所改善。
參考文獻:
[1] 李曉虹,張婷婷,王梓寧,等.我國高等教育數字化轉型建設路徑的定性比較分析 [J].遠程教育雜志,2024,42(1):32-40.
[2] 范佳洋.高等教育高質量發展的憲法敘事:規范闡釋與實現路徑 [J].北京理工大學學報:社會科學版,2023,25(3):179-188.
[3] 郭連生,柳貝貝.高等教育背景下大學生學業預警機制的構建與研究 [J].未來與發展,2022,46(2):64-71.
[4] 曾凡金,楊勇,馮春杰,等.“國考”成績與學業成績相關性分析及教學建議——以物理學科知識與教學能力科目成績為例 [J].高教學刊,2024,10(7):89-92+97.
[5] 杜挺,謝賢健,梁海艷,等.基于熵權TOPSIS和GIS的重慶市縣域經濟綜合評價及空間分析 [J].經濟地理,2014,34(6):40-47.
[6] 張娟,許志勇.綜合評價法在教學質量評價中的應用 [J].統計理論與實踐,2022(8):68-72.
[7] 李小鴨,張娜,鄒穎.應用型本科高校教與學過程對大學生就業力影響因素的研究——基于線性回歸及結構方程模型 [J].陜西教育:高教,2022(10):76-77.
[8] 劉炯.基于多元線性回歸的物流需求預測分析——以安徽省為例 [J].四川文理學院學報,2022,32(2):51-58.
[9] 張靜靜,馬林轉,張運瀚,等.基于逐步回歸法對鋼鐵企業球團工序二氧化硫的影響因素分析 [J].云南民族大學學報:自然科學版,2023(3):1-7.
[10] 王輝,張文杰,劉杰,等.基于分類回歸決策樹算法的航班延誤預測模型 [J].中國民航大學學報,2022,40(3):35-40.
[11] 姚亮,周晏.基于決策樹算法的地災數據可用性分類研究 [J].信息技術與信息化,2023(6):44-47.
[12] 楊小娟.決策樹算法在學生課程成績分析中的應用研究 [D].昆明:云南師范大學,2021.
作者簡介:殷惠莉(1975—),女,漢族,山東東營人,講師,碩士,研究方向:電子技術、農業信息化;劉文韜(2003—),男,漢族,湖南益陽人,本科在讀,研究方向:電子信息工程;李健羽(2002—),男,漢族,廣東云浮人,本科在讀,研究方向:電子信息工程;饒俊華(2003—),男,漢族,廣東廣州人,本科在讀,研究方向:電子信息工程;李麗珊(2003—),女,漢族,廣東清遠人,本科在讀,研究方向:電子信息工程。