莊海燕
(鄭州警察學院,河南 鄭州 450053)
專業綜合實訓是指學生在完成專業基礎課和專業主干課的基礎上,依照專業人才培養目標,結合專業特點進行的綜合性、實踐性教學活動,該項教學活動對于新工科專業建設和發展具有重要意義。首先,專業綜合實訓可以提供真實或模擬的業務環境,讓學生運用所學的理論知識和技能,參與項目的設計、實施、評估和優化,鍛煉學生分析問題、解決問題、創新思維和團隊協作的能力,滿足新工科專業要求學生“具備解決復雜工程問題的能力”。[1]其次,專業綜合實訓可以提供多元化、開放性的實踐內容,讓學生接觸不同的交叉專業領域,拓展知識視野,掌握新技術和新方法,提升專業技能和綜合素質,促進形成新工科專業要求學生具備的跨學科、跨領域的知識結構和技能水平[2]。第三,專業綜合實訓可以提供與社會需求和工程實際相結合的實踐場景,讓學生了解工程的社會影響和價值,培養學生的工程倫理意識和社會責任感,有助于培養新工科專業要求學生具備的“以造福人類和可持續發展為理念的現代工程師的精神”[3]。
一直以來,高等院校與各級教育機構都在不斷研究如何提高學生績效管理和教學質量,以確保提供高質量的教育教學。而專業綜合實訓成績是評估學生績效的關鍵指標之一,有效地分析和理解這些成績為教育教學提供決策支持是現代高等教育專業教學的一個極大挑戰。傳統的專業綜合實訓評估方法受限于數據量大、復雜性高和多變性,難以有效評估其效果。應用機器學習算法,通過分析大量學生專業綜合實訓相關數據,深入挖掘實訓成績背后的潛在模式和規律,揭示不同學科之間的關聯和學生群體的共同特征,可以為個性化學習提供科學依據,進而優化教學過程、提高學生學習效果,同時模式識別結果可以幫助授課教師做出更精準的決策,實現數據驅動的教學管理。
機器學習算法被廣泛用于分類和模式識別。其中,任務決策樹是一種基于樹結構的分類器,隨機森林是一種集成式學習方法,支持向量機通過結構風險最小化來解決學習問題,是一種用于分類和回歸的強大算法,主要用于學習數據中的模式和規律發現[4]。本文通過對各種算法的功能和適用性分析,測試各種算法在數據集上訓練的優缺點,比較多種機器學習算法在同一數據集上的性能。綜合考慮,選擇決策樹、隨機森林和支持向量機3種機器學習算法來分析綜合實訓成績,根據運行結果提供全面的數據分析和性能評估。
本文收集了網絡安全與執法專業近3年的專業綜合實訓成績,包括輿情分析、現場勘查、電子數據分析、網安檢查和過程性成績等數據。數據采集通過專業綜合實訓過程和教學信息管理系統進行,數據中除了各模塊的成績,還包含學生學號等信息。
經過對專業綜合實訓成績數據預處理和初步統計分析,得到如圖1所示的專業綜合實訓成績數據的基本情況。數據的描述性統計分析及結構可視化顯示了每列成績的中心趨勢、離散度和分布的基本情況,以及各列之間的關系。圖1顯示了每門課程的成績平均水平、波動程度以及分數分布情況,各列缺失值數量為0,所有學生所有模塊均有成績,無缺失;各模塊成績的標準差數值分別為2.86、3.99、3.26、5.40、8.14,說明各模塊成績相對穩定,沒有較大波動;圖1(c)顯示兩兩特征之間相關性,可以看出現場勘查成績、網絡檢查成績和過程性成績之間可能具有一定線性相關性,后面需借助主成分分析法降維處理后進一步分析。

圖1 專業綜合實訓成績數據基本情況
2.2.1 數據清洗
數據清洗包括檢查數據集中是否有缺失值或異常值。在數據收集過程中,缺失值通常是由數據輸入錯誤或系統問題引起的,異常值則可能是由測量誤差或數據錄入錯誤引起的。缺失值處理可以刪除、插補或者不處理;使用統計方法[5]來檢測異常值,并采取適當的處理措施,包括截斷、替代和刪除,以確保異常值不會對模型性能產生負面影響。本文對數據進行了基本的缺失值處理、異常值處理和規約處理。經過對數據集的分析,缺失值和異常值都是反映實際情況的正確數據,不做處理,之后將各模塊成績規約到[0,100]。
2.2.2 數據劃分
預處理的目標是確保數據的質量和一致性,為后續的分析和建模進行數據準備。本文通過數據清洗、處理缺失值和異常值,以及正確的數據劃分和特征選擇,為機器學習模型提供高質量的數據,以更好地理解和分析專業綜合實訓成績。本文在訓練和評估機器學習模型時將數據集劃分為訓練集和測試集,初始比例為80%的數據用于訓練,20%的數據用于測試。研究過程中對這些參數進行了調整以提高模型的泛化性能,避免過擬合。
2.2.3 特征選擇
本文中,由于學號等作為標識符和附屬信息并不對模型的性能產生影響,故選擇輿情分析成績、現場勘查成績、電子數據分析成績、網安檢查成績作為模型的特征。
聚類分析是一種無監督學習方法,可將數據中的對象分成不同的組或簇,這些組內的對象在某種方面相似,而不同組之間的對象有明顯的差異。本文對學生的專業綜合實訓成績數據進行聚類分析,將學生分為不同的簇,可揭示學生潛在的模式或關系。
本文采用k均值聚類法,使用“肘部法則”選擇聚類簇數,研究結果如圖2所示。在圖2右上部,“肘部”處的簇數為3,聚為3類,三維散點圖中每個點代表一個學生,不同形狀表示其所屬簇,每個簇的特征如圖3所示。圖3表明,簇0平均綜合成績(過程性成績)相對較高,約為54.89,表示這個簇的學生在綜合成績上相對較好;簇1平均綜合成績(過程性成績)較低,約為36.73,表示這個簇的學生在綜合成績上相對較差,尤其在輿情分析和電子數據分析方面;簇2平均綜合成績(過程性成績)較高,約為43.65,表示這個簇的學生在綜合成績上相對較好,尤其在現場勘查、電子數據分析和網安檢查方面。3個簇各自包含學生數目分別為了61、50和30名,簇0的學生數量最多,共61名,表示在該簇中有較多的學生表現較好(可能是高成績學生),或者這個簇的學生相對較多;簇1包含了50名學生,學生數量略少于簇0,可能代表中等成績的學生群體,這些學生的成績在各個模塊上可能相對平均;簇2包含了30名學生,這是最小的簇,這些學生在某些模塊上表現很好,尤其是現場勘查和電子數據分析。

圖2 專業綜合實訓成績聚類分析

圖3 算法在測試集運行結果
圖2專業綜合實訓成績聚類分析通過分簇,對每個簇的規模、成績情況分析,將這些分析結果作為依據,制定更靈活的教育策略和教學方法,例如根據每個簇的特點提供特定的資源、培訓或教育干預,從而滿足不同學生群體的需求。
3.2.1 模型訓練與性能評估
本文訓練了決策樹、隨機森林和支持向量機3種機器學習模型,并在測試集上進行了性能評估。為評估模型的性能,評估過程中采用了準確度(Accuracy)、精確度(Precision)、召回率(Recall)和F1分數(F1-Score)等指標。這些指標用于衡量模型的分類準確度、識別出的正類別樣本與真實正類別樣本的比例、所有真實正類別樣本中成功識別出的比例以及精確度與召回率的調和平均值。通過這些指標,可以全面評估模型的性能。
3.2.2 結果分析與討論
本文對上述3種算法的識別結果(見圖3)進行討論和分析,得出以下結論。
(1)決策樹算法。
決策樹算法在模式識別任務中表現良好,但仍存在一定的分類誤差。準確度、精確度、召回率和F1分數均為0.75,表明該模型在對數據進行分類時具有一定準確性。決策樹算法在模式識別任務中獲得了不錯的性能,但仍然有改進空間,因為F1分數沒有達到1.0,表明可能存在一些分類誤差。
(2)隨機森林算法。
隨機森林算法的性能與決策樹相似,準確度、精確度、召回率和F1分數均為0.75。這意味著隨機森林能夠對數據進行分類,但也存在一些分類誤差。
(3)支持向量機算法。
支持向量機算法在這個模式識別任務中表現出色,準確度、精確度、召回率和F1分數均為1.00,這意味著該模型能夠完美地對數據進行分類,沒有分類誤差。支持向量機通常適用于復雜的決策邊界和高維數據集,這一結果顯示出其強大的分類性能。
實驗結果表明,支持向量機在這個模式識別任務中表現最為出色。決策樹和隨機森林也表現良好,但存在一些分類誤差。通過模型訓練和評估結果,認為支持向量機算法更適合本任務需求,進一步研究可以嘗試繼續調優模型以提高性能。
本文基于機器學習的方法對學生綜合實訓成績進行了分析和模式識別探討。通過收集大量學生的實訓成績數據,利用機器學習算法進行深入挖掘和分析,揭示了學生在實訓環境中的表現模式;采用決策樹、支持向量機和神經網絡在內的多種機器學習模型識別和預測影響學生綜合實訓表現的關鍵因素,本文通過對模型的訓練和驗證,成功地識別了影響學生成績的關鍵特征,為教育者提供了有針對性的干預措施。研究結果表明,機器學習方法在學生綜合實訓成績分析中具有顯著的預測能力,利用模型的解釋性深入挖掘學生在實訓過程中的學習軌跡,能夠為個性化教育和輔導提供理論支持。
本文研究為學生綜合實訓成績的有效評估提供了新方法,也為教育決策和干預提供了實證支持。未來可進一步探討模型的遷移性和可擴展性,以適應不同學科和教育背景的需求。