韋珊杉,單 珂,宋瑞雪
(吉林建筑科技學院,吉林 長春 130000)
近年來,伴隨著信息技術的飛速發展,大數據和人工智能技術在教育領域的應用成為教育改革和發展的新趨勢。政府相繼出臺政策,推動教育信息化,鼓勵運用先進的信息技術改善教學質量和提升管理效率。在此背景下,數據挖掘技術因其深刻的數據分析能力而成為改善教育質量的重要工具。特別是在高校英語專業教學中,通過數據挖掘技術分析學生學習行為、評價教學方法的有效性,對教學內容和策略進行優化,已成為提高教學質量的關鍵途徑[1]。
本研究旨在設計一套基于SLIQ數據挖掘算法的高校英語專業教學質量評估系統,以實現對教學過程和結果的科學評價,進而指導教學改革,改善教學質量。本研究不僅回應了信息技術在教育領域應用的國策導向,還符合教育信息化發展的實際需求,具有重要的理論意義和應用價值。
在基于數據挖掘的高校英語專業教學質量評估系統中,所設計的數據挖掘系統的結構框架如圖1所示。該結構采用分層架構方法,由表示層、處理層和挖掘層組成。表示層負責提供用戶交互界面和存儲用戶信息;處理層處理用戶請求并調用相應的數據挖掘模塊執行;挖掘層則是系統的核心,包含多組數據挖掘組件,每個組件實現一種數據挖掘算法[2]。所設計的數據挖掘系統結構框架能夠提高系統的處理效率和數據挖掘的準確性,為高校英語專業教學質量評估提供科學、有效的技術支持。
SLIQ(Supervised Learning in Quest)數據挖掘算法是一種適用于大規模數據集的決策樹構建算法。該算法通過引入預排序技術和分層數據存儲結構,顯著地提升了數據處理的效率和可擴展性。不同于傳統算法在每個節點進行排序,SLIQ僅在預處理階段對數據進行一次排序,降低了計算的復雜度。此外,該算法采用分裂點選擇和剪枝機制,優化了決策樹的生成過程,提高了分類的準確性[3]。在教育數據應用分析中,尤其是在高校英語專業教學質量評估中,SLIQ算法能夠高效地處理和分析數據,為教學決策提供科學依據。
SLIQ算法首先引入屬性列表(Attribute list)和類直方圖(Class Histogram)2種數據結構,以便于快速、準確地找到各屬性的最佳分裂點。SLIQ算法流程如圖2所示。首先,所有記錄按屬性值預排序,以消除在決策樹每個節點上進行排序的需要。其次,SLIQ算法采用廣度優先搜索策略,對決策樹中的所有葉節點進行同時分割,確保每次分裂均基于當前最優的分裂標準進行分割。在決策樹的構建過程中,類直方圖用于存儲每個節點的類分布情況,以此來計算最佳分裂點。同時,該算法采用最小描述長度(Minimum Description Length,MDL)剪枝方法,避免了過擬合,確保了模型的泛化能力。針對高校英語專業教學質量評估的特點,該流程提高了大規模教學數據處理的高效性和準確性。

圖2 SLIQ算法流程
SLIQ算法通過評估信息增益(Information Gain)或基尼指數(Gini Index)來確定最佳分裂點,從而在構建決策樹時優化節點的分裂。具體而言,信息增益是根據屬性分裂前后數據集不確定性的減少量來計算的。對于給定數據集D,其不確定性可用熵H(D)來表示,其計算公式為:
(1)
其中,m是類別數量,pi是第i個類別在數據集D中的相對頻率。
在選擇分裂屬性和分裂點時,算法會計算每個可能的分裂所帶來的信息增益,選擇信息增益最大的分裂點作為最佳分裂點。信息增益IG(D,A)的計算公式為:
(2)
其中,A是候選分裂屬性,Values(A)是屬性A的所有可能值,Dv是屬性A的值為v時的子集,|D|是數據集D的大小,|Dv|是數據集Dv的大小。
基尼指數是另一種評估分裂質量的方法,用于衡量數據集的純度。節點的基尼指數越小,數據集的純度越高。基尼指數Gini(D)的計算公式為:
(3)
對于每個屬性,SLIQ算法都會計算分裂后子集的加權基尼指數,選擇使加權基尼指數最小化的分裂點作為最佳分裂點。
在高校英語專業教學質量評估系統中,這一過程允許系統準確地識別出影響教學質量的關鍵因素,通過分析學生的學習數據,如成績、參與度、反饋等,所提評估系統能夠給出提升教學質量的有效路徑。
本文設計算法采用決策樹剪枝技術,通過最小化決策樹的復雜度來提高其泛化能力,從而避免過擬合現象。DML剪枝算法基于一種信息論的原理,即在給定數據集上,最佳模型是能夠以最短描述長度(即最小的信息量)來描述數據的模型。DML剪枝過程可以表示為式(4)所示的優化問題,其優化目標是使成本最小。
(4)

在高校英語專業教學質量評估系統中,DML剪枝算法的應用確保了決策樹模型在保持足夠大擬合度的同時,不會因模型過于復雜而失去對未知數據的預測能力。通過對決策樹進行剪枝,系統能夠剔除那些對教學質量評估貢獻不大的屬性,從而簡化評估模型,提高評估的效率和準確性。這一過程對于識別和強化影響高校英語教學質量的關鍵因素至關重要,有助于教育管理者和教師基于數據驅動的洞察制定更加科學和有效的教學改進策略[4]。
教學質量評估系統的功能設計核心在于對高校英語專業教學活動進行全面、細致的分析與評估,從而為教育決策提供數據支持。教學質量評估系統的設計旨在整合數據挖掘技術,特別是利用SLIQ算法高效、準確地處理和分析大量教學數據。下面介紹教學質量評估系統的主要功能模塊。
數據收集模塊負責收集教學過程中產生的各類數據,包括但不限于學生的基本信息、成績記錄、課堂參與情況、作業提交情況及教師的教學反饋等。預處理環節將對收集的數據進行清洗、轉換,以滿足后續數據挖掘過程的需求。
基于SLIQ算法,特征選擇模塊對預處理后的數據進行特征選擇,篩選出對教學質量評估最具影響力的特征。隨后,通過SLIQ算法對選定特征進行數據挖掘,以識別影響教學質量的關鍵因素[5]。
該模塊利用數據挖掘結果,構建教學質量評估模型。該模型能夠對教學質量進行量化評估,識別提升教學質量的潛在途徑。
該模塊設計一個直觀的用戶界面,通過圖表、報表等形式展示教學質量評估的結果,包括教學質量的綜合評分、關鍵影響因素的分析結果等,便于教育管理者和教師快速理解和應用評估結果。
基于教學質量評估模型的輸出,系統將提供針對性的教學改進建議,包括課程內容的調整、教學方法的創新、學生學習支持的加強等。
系統設計包含反饋機制,允許用戶(教育管理者、教師、學生)對評估結果和改進建議提供反饋。系統將根據反饋內容進行迭代優化,以不斷提高教學質量評估的準確性和實用性。
測試環境包括硬件和軟件2個方面,硬件環境配置為Intel Core i7處理器、16 GB RAM、512 GB SSD存儲,以保證數據處理和分析的高效性。軟件環境包括Windows 10操作系統、MySQL 8.0數據庫管理系統、Python 3.8數據處理和分析軟件以及NumPy、Pandas科學計算庫和Scikit-learn數據挖掘工具。此外,測試環境還設定了網絡條件,模擬不同的網絡帶寬和延遲,以評估系統在不同網絡狀態下的表現。
在高校英語專業教學質量評估系統的測試過程中,本研究對關鍵參數進行了細致的設定,以確保測試結果的有效性和可靠性。首先,SLIQ算法將最小分裂節點樣本數設置為10,以避免過度擬合;最大樹深度設置為5,以控制模型復雜度并保證計算效率。在數據預處理階段,文本數據的向量化處理采用TF-IDF方法,n-gram范圍設置為[1,3],旨在捕捉文本數據中的局部上下文信息。對于分類閾值的設置,SLIQ算法采用基于交叉驗證的方法自動調整,以達到最優的分類性能。此外,系統性能測試參數包括響應時間、系統吞吐量(每秒查詢數)和用戶并發數(模擬100、200、500個用戶并發訪問系統)。通過對上述參數進行精確設置,本研究旨在全面評估教學質量評估系統在處理大規模教育數據時的性能表現,確保系統在實際部署中的高效性和準確性。
測試結果顯示,系統在處理大規模教學數據集時展現了良好的性能和高準確度。關鍵測試結果如表1所示。

表1 測試結果
由表可知:隨著用戶并發數的增加,系統響應時間略有增長,但整體仍保持在合理范圍內,說明系統具備良好的并發處理能力;系統吞吐量隨用戶并發數的增加略有下降,但下降幅度有限,表明系統能夠有效處理高并發請求;教學質量評估準確率達到92%,說明SLIQ算法能夠有效識別影響教學質量的關鍵因素,為提升教學質量提供了強有力的數據支持;決策樹的平均深度為4.3,低于設定的最大深度,這表明DML剪枝算法有效地減少了模型過擬合,保證了模型的泛化能力。
在本研究的探索和實踐過程中,基于數據挖掘算法的高校英語專業教學質量評估系統設計不僅展示了數據科學在教育領域應用的巨大潛力,也為教育質量的評估與提升開辟了新的路徑。通過精準分析教學數據,本文揭示了影響教學質量的關鍵因素,為教育管理者、教師提供了科學、實時的決策支持,從而推動教學方法的創新和教育質量的持續提升。此外,本研究也為數據挖掘技術在其他教育領域的應用提供了參考和借鑒,展現了信息技術與教育深度融合的廣闊前景。未來,隨著數據挖掘和人工智能技術的不斷進步,該系統在教育評估與改進中的作用將更加凸顯,為實現個性化教學、優化教育資源配置、提高教育質量提供更加強大的技術支撐。