連惠群
(福建警察學院 福建省福州市 350007)
對高校各門科目的學習,很多時候學生和老師都無法了解知識薄弱環節,往往存在學生不能有效學習,老師無法進行針對性輔導的現象?,F在各高校有很多在線教學系統、練習系統和考試系統可供使用,但很多系統只能針對單次考試的分析,學生答題情況也不能完全保存。本文以公安知識學習為例,為了更好的服務學員及教員,將全面地保存學員們的答題情況,把每次的錯題保存,以及記錄每位學員各個模塊具體的修煉分值,讓學員了解自己的薄弱環節;將每道題答題次數和錯誤數進行記錄;另外根據學員平時練習的情況,運用Spark決策樹回歸分析算法進行數據挖掘,預測最終得分,提前預判,做好前期輔導準備工作。
關于答題情況數據挖掘,李永舉[1]以大學本科線性代數成績為例,在運用Python的基礎上運用聚類和關聯規則算法對其進行挖掘與分析,找出試卷中知識點之間的關聯規則。王蕭[2]分析在線測評數據,提取學生的學習特征,使用聚類算法將學習特征相同的學生聚類,根據學生的學習特征抽取學生之間的關系,生成學生知識圖譜。本文主要從服務學員和教員出發,讓學員和教員切實知道知識點的薄弱之處,為學員切實掌握公安知識點而服務,為教員更好地服務學員,能夠進行針對性地輔導而服務。
我們把該題的錯誤數除以答題總數,得到該學員在該題上的得分(錯誤率越高,該學員能夠答對,則他得到的分數越多,該模塊的修煉值越高,以此類推)。而該學員該模塊的修煉分是該模塊所有答題的平均分,代碼部分截圖如圖1所示。
如果答題錯誤,我們在錯題記錄表中搜索該錯題的學員號,如果與該次答題的學員號有相同,則更新該學員在該道題的錯誤次數加1,并更新最后一次答題的狀態,否則添加一條新的記錄。代碼部分截圖如圖2所示。
按照此算法,錯題登記表數據庫部分截圖如圖3所示。
分類與回歸樹(classification and regression tree, CART)模型由Breiman等人在1984年提出,是應用廣泛的決策樹學習方法。CART同樣由特征選擇、樹的生成及剪枝組成,既可以用于分類也可以用于回歸。CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分布的學習方法。CART假設決策樹是二叉樹,內容結點特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。這樣的決策樹等價于遞歸地二分每個特征,將輸入空間即特征空間劃分為有限個單元,并在這些單元上確定預測的概率分布,也就是在輸入給定的條件下輸出的條件概率分布[3]。本文用到的決策樹回歸分析算法部分截圖如圖4所示。

圖1:模塊修煉值計算部分代碼

圖2:錯題處理模塊部分代碼

圖3:錯題登記記錄表部分截圖

圖4:決策樹回歸分析代碼部分截圖

圖5:測試數據部分截圖

圖6:運行結果
我們登記學員每次練習的成績,及最終測試成績,部分數據截圖如圖5所示。根據數據運行測試的優化結果,我們把每次成績除以100并保留1位小數。
我們把每位學員平時練習的成績作為特征feature,最終測試成績等級作為標簽Label,部分結果如圖6所示,預測值可作為提前預判,以及前期輔導準備工作而服務。結果顯示,大部分預測值與真實值相差不大。
本文以公安知識學習為例,對學員們的公安知識答題情況進行挖掘。為了服務學員,系統把錯題保存,以及記錄每位學員各個模塊具體的修煉分值,讓學員了解自己的薄弱環節;將每道題答題次數和錯誤數進行記錄,讓教員明確學員知識點掌握細節情況;另外根據學員平時練習的情況,運用Spark決策樹回歸分析算法進行數據挖掘,預測最終得分,提前預判,做好前期輔導準備工作。本文存在一些不足,如數據量不夠多,最后四次測試有個別學員沒有參與且測試題簡單成績較集中,對回歸分析結果可能存在一點影響。另外,對回歸分析算法及參數調優等需要進行進一步的研究,這將是后續的工作。