基于改進的Apriori 算法在高校成績分析中的研究

2024-05-03 05:41:52楊立波張小勇史俊冰

信息記錄材料 2024年3期

張梁，楊立波，張小勇，史俊冰

（太原學院智能感知與多維信息處理實驗室山西太原 030032）

0 引言

高校學生成績是高校實施素質教育的直接反映，各高校每年都存在學生對本專業內容掌握不扎實、對不同課程之間的聯系不清晰導致的掛科等現象，對歷史成績數據進行成績挖掘和分析有助于對學生的學習情況進行全面評估和管理，學生也可以從中得到學習經驗，更好地規劃學業［1］。成績挖掘體現在海量成績中“淘得真金”的過程，是指通過對每項有效成績進行分析篩選，對成績中隱含的、先前未知并存在價值信息的研究過程。

隨著學生數量的增加和學科關聯性的提升，考試成績呈現出龐大而復雜的特征，而關聯規則中的Apriori 算法處理大訓練集時，通過高效的候選集生成和剪枝策略，能夠快速挖掘出頻繁項集和關聯規則，眾多學者將Apriori算法成功運用于學生成績分析，并取得了顯著的成果。付翠貞［2］提出差分隱私保護的Apriori 算法，在支持度－置信度體系下又引入提升度對關聯規則進行挖掘，選取學生成績數據集進行了有效驗證并且評價了算法應用的有效性。廖宣植［3］利用WEKA 平臺內置的Apriori 算法對臨床專業課程進行了成績挖掘，研究結果表明了醫學、微生物學等專業課程之間存在關聯性，并對研究結果進行了分析，給出了成績預測模型。吳小東等［4］利用Apriori 算法對高校計算機專業學生的課程成績進行了針對性分析，關注“不及格”和“優秀”成績的關聯規則，通過挖掘強規則，揭示了不同課程成績之間的相互影響關系。然而上述研究樣本空間涵蓋的學生維度少，生成的關聯規則可能無法捕捉成績中各個項或維度之間的完整復雜關系，在此情況下關聯規則可能偏向于某些模式，從而導致有偏差的推薦，并且在頻度－可信度評價下將產生大量關聯規則，其中冗余規則對實際分析幫助不大反而增加處理和分析的負擔。

鑒于此，本文對某應用型高校智能系2017 級—2020級學生進行考試成績分析，通過引入興趣度和提升度的Apriori 算法對學生成績進行關聯規則分析，挖掘每一屆學生在學習相同專業課程時取得的學習成果，旨在揭示潛在的關聯規則，從而積極影響學生在學習專業課程方面的表現。

1 基于興趣度和提升度規則關聯算法模型

Apriori 算法基于先驗知識原理，應用于大規模成績樣本中發現頻繁項集和關聯規則。經典的支持度－置信度框架是傳統關聯規則挖掘算法的核心，用于衡量關聯規則的頻繁程度和準確性。但它存在一定的缺陷，忽略了規則分布情況和多層次關聯，在樣本關聯規則挖掘中，一些規則可能在成績集中分布廣泛但分析價值低，而其他規則雖不頻繁，但在特定子集中體現出事務屬性關聯模式［5］。為了規避傳統模式下缺陷，本文采用增添興趣度、提升度和改進篩選標準等方法提升關聯規則的質量。

1.1 增添興趣度和提升度的關聯規則機理

考試成績樣本中各學生一組成績稱為一個事物，每門課程成績稱為一個項。令I＝｛i1，i2，…，id｝是成績樣本中所有項的集合，而T＝｛t1，t2，…，tN｝是所有成績樣本中事務的組合，若A和B為I中的兩個項集，同時滿足，則A→B構成一個關聯規則，所有關聯規則組成成績事務庫D，其中事務集T同時支持A和B的事務數在成績事務庫D中的占比為Sup（A→B），形式化定義為式（1）；置信度則為同時存在A和B兩個項集的事務數與只包含A項集事務數之比，形式化定義為式（2）。若Apriori 算法中滿足Sup（A→B）≥Supmin 的規則項同時滿足Conf（A→B）≥Confmin 要求，此規則即為強關聯規則。

經典關聯規則算法中支持度－置信度框架是存在缺陷的［6］，通過專業課模電和高頻電子線路分析可以看出置信度高并不一定代表關聯規則有分析價值。表1 中Sup（模電優秀→高頻優秀）為14%，Conf（模電優秀→高頻優秀）為70%，意味著模電成績優秀的學生中有70%的可能性在高頻中也表現出色，但整體高頻課程中表現優秀的學生在總人數中占比為80%，意味著模電成績優秀的學生在高頻電子課程中表現出色的可能性雖然較高（70%的置信度），但整體而言，更多的學生在高頻課程中表現出色，這與關聯規則的置信度不一致。

表1 模擬電子技術和高頻電子線路成績樣本

提升度和興趣度的引入避免了類似上述矛盾的出現，提高了衡量關聯規則的重要性和相關性指標。興趣度對成績樣本中規則的前提和結果是否存在非隨機關聯進行了判斷，Interest（A→B） ≥1 表示規則前提和結果存在正向關聯，即規則中事務A對事務B有積極影響，形式化定義如式（3）。衡量關聯規則的結果對前提的影響取決于提升度范圍，提升度大于1 表示關聯規則的出現提升了結果出現的概率，等于1 則二者無關，定義為式（4）。

1.2 關聯算法流程

關聯算法是在成績事務庫D中挖掘符合相關最小閾值設定的關聯規則，整體算法流程由3 部分組成：

（1）迭代生成候選集。從頻繁（k －1）－項集（記為（Lk －1）－）中獲取每個項集的最后一項，然后將這些項排序。遍歷頻繁（k－1）－項集并逐個連接，生成候選k－項集的候選項［7］。Apriori 算法利用先驗性質減少計算量，即對于生成的候選k －項集，它的所有子集都必須是頻繁（k －1）－項集。算法對每個候選k －項集，遍歷其所有（k －1）項子集，不滿足最小支持度閾值的要求則剪枝去除［8］。

（2）尋找頻繁項集。針對每個候選k －項集，掃描整個成績集，計算候選集在成績集中的支持度，將滿足最小支持度閾值的候選k －項集作為頻繁k －項集，記為Lk。這些項集用于下一輪迭代直至算法結束。

（3）關聯規則輸出。對于每個頻繁項集Lk，生成其所有可能的非空子集，作為關聯規則的前項。對于每個規則的前項，依據規則的興趣度、置信度等最小閾值設定篩選出滿足要求的關聯規則并輸出。

2 Apriori 算法對成績挖掘

采集完某應用型高校智能系2017 級—2020 級成績數據后，運用Apriori 算法進行成績挖掘。將考試成績數據整合后獲得328 名學生八門課程成績共2 624 條成績，每條包括學生姓名、學號、課程名稱、課程編號、學分、成績等14 項成績屬性，學生原始考試成績如表2 所示。

表2 學生原始考試成績

2.1 成績預處理

（1）成績清洗。成績挖掘中并不關注學生姓名、學號等冗余信息，故在成績預處理階段將無用屬性項刪除，對原始成績進行成績降維操作，從而突出主要分析對象并降低計算和處理的復雜度。

（2）成績離散化。降維后的成績樣本仍保留著連續的成績值，而這些連續值可能呈現多樣性和不均衡性等分布特點。為了加快挖掘的收斂速度，須對樣本進行成績離散化。通過離散化可以增強成績數據的魯棒性和降低過擬合風險，離散化后將成績賦予類別標簽，使得異常值在其類別中具有更高相似性，降低了模型受異常值影響產生過擬合的風險，在一定程度上平衡了成績的不穩定性，離散化后成績樣本提高了關聯算法進行規則挖掘的效率和規則的適用性。

鑒于上述分析結果，將各科目成績樣本離散化為5 個成績等級依次為A、B、C、D、E，A 為最優，E 為差，離散結果如表3 所示。

表3 離散化成績樣本

2.2 成績挖掘過程

挖掘過程［9］首先將成績降維和離散化作為挖掘的預處理階段，旨在消除成績樣本中異常值的影響［10－11］，從而形成更具代表性的樣本集，其次應用改進的Apriori 算法對樣本集挖掘其中蘊含的關聯規則，通過設置觀測閾值，可以篩選出具有顯著意義的強規則，此類強規則反映了各科目間的關聯關系，最終通過對符合閾值的強規則進行綜合分析，得出各科目間相互影響的關系。

為了評估改進后的Apriori 算法在樣本成績中挖掘關聯規則的效率，將對比傳統的Apriori 算法與經過改進版本的挖掘效率，有助于在成績事務庫中進行關聯規則分析時運行效率更高的算法［12］。將成績事務庫的2624 條成績規整后對關聯規則挖掘算法性能進行比較，設置不同參數下對比兩種算法在置信度和支持度上的關聯規則數量，結果如表4、表5 所示。

表4 置信度定值下各支持度輸出關聯規則數量

表5 支持度定值下各置信度輸出關聯規則數量

表4、表5 采用改進率指標客觀衡量改進的Apriori 算法相對于傳統算法在規則挖掘性能方面的提升程度，較大的改進率表明改進算法在關聯規則挖掘性能方面相對于傳統算法具有更大的提升，形式化定義如式（5）。根據改進率定義得到不同參數下兩種算法的性能表現，如圖1 所示，改進率均大于0，并且支持度閾值范圍在0.10 ～0.18范圍內，置信度閾值范圍在0.1 ～0.3 范圍內改進率達到最高，表明改進后的Apriori 算法支持度和置信度閾值在此范圍內篩選強規則均優于傳統挖掘規則算法，設置合適的置信度－支持度最小閾值可以有效濾除掉冗余規則，有效驗證了改進算法在挖掘關聯規則性能方面取得了顯著的進步。并且通過圖1 表明將支持度最小閾值取為0.18，置信度最小閾值取為0.20 時，改進算法的最小興趣度閾值設置為0.50，最小提升度設置為1 時，挖掘強規則性能為最優，效能分別提升49.75%和51.19%。

圖1 不同參數下兩種算法性能比較

2.3 改進Apriori 算法關聯規則

基于改進的Apriori 算法對成績樣本集進行關聯規則挖掘共得到496 條強關聯規則，根據提升度和興趣度篩選出置信度、支持度、興趣度、提升度參數值最高的前5 條繪制部分關聯規則表。

表6 中置信度最高的前5 項關聯規則表明超過90%的概率證明跨課程的知識應用使得學生能夠在其他專業課程中將電路與電子學的理論應用于實踐，并在處理知識細節時更加深入和精準，并且支持度和興趣度均大于0.5，支持度最高達到0.72，提升度均大于1，表示5 門課程獲優和電路電子學課程獲優超過半數，并且這個現象都呈現出顯著的正向趨勢。

表6 置信度－部分關聯規則表

表7 顯示了支持度前5 的關聯規則，并且前項和后項置信度都相對較高，說明課程間存在知識結構相似，課程之間存在相輔相成關系，并且規則1、2 和規則3、4 還表現出雙向關聯關系，學生學習這些課程過程中可能知識互相啟發，雙向受益。并且前4 條規則一定程度說明數字邏輯和電路，微機和電路具有較高的共現性，即涉及到這兩門課程時成績往往呈現出關聯性，提醒任課教師應在平時教學過程中保持溝通，協同發力。

表7 支持度－部分關聯規則表

從表8 可以看出傳感器與其他課程之間的關聯性具有顯著的正向關系，提升度均大于1.30，分析得出傳感器內容中涉及到的電路部分、程序編寫部分、邏輯組成和通信部分在其他課程中均有細致講解，所以傳感器成績與數字邏輯與數字系統、單片機等課程呈現相關關系，即傳感器課程提供了單片機、計算機網絡技術等課程的基礎知識和技能。這就要求任課教師及時調整授課方式，在平時授課期間需結合領域專業和應用項目對傳感器原理與應用進行課堂內容的擴充和發展。

表8 提升度－部分關聯規則表

表9 給出了興趣度較高的前5 條規則，興趣度較高表示前項課程影響后項課程的考試等級，分析挖掘的規則1 和2 可以發現傳感器獲優的學生在邏輯電路、單片機（如51 和嵌入式）、計算機應用方面綜合能力更強，可能此類學生在學科競賽中積累了一定經驗，反哺了課程的學習，達到了良性循環模式。但傳感器課程獲良的同學可能還欠缺實踐環節，在單獨的課程考試上成績還可以，但并沒有將所學課程綜合應用，所以此類學生邏輯電路、計算機基礎知識和程序編寫有一定基礎，但未能達優，此外規則4、5 揭示了計算機網絡對數字邏輯與數字系統和傳感器原理與應用等課程具有一定因果性，在實際教學過程中，計算機應用往往關聯單片機和傳感器進行課程設計和課程實驗等，在一定程度上也驗證了挖掘規則的有效性。

表9 興趣度－部分關聯規則表

3 結語

成績挖掘在高校成績分析中的應用可以幫助高校更好地了解學生表現、優化課堂管理、個性化教學，為教師決策和學生發展提供科學依據，進而提升教育質量和學生綜合素質。本文在此前提下進行了相關研究，采用添加提升度和興趣度改進的Apriori 算法對成績樣本進行挖掘關聯規則，同時和傳統的挖掘算法進行了對比，結果表明改進算法的性能方面具有更大的提升；最后對挖掘規則篩選出的各參數值最大的前5 條規則進行分析，對學生在不同課程中的表現模式背后的原因進行分析，針對性地給出學生提高專業課程的建議。