黃 婕
(1. 湖南省飛機維修工程技術研究中心,湖南 長沙 410124;2. 長沙航空職業技術學院,湖南 長沙 410124)
當前,隨著云計算、大數據和人工智能等信息技術的飛速發展,在線教育的適應性學習越來越引起教育信息技術領域專家的關注和研究。2017年,《新媒體聯盟地平線報告》也指出,個性化學習是一項“容易理解但卻難以尋求解決方案”的挑戰;個性化學習、適應性學習等技術是在線學習環境中的重要研究問題。
現階段,教育發展過程中面臨著優質資源供給不足、規模化教育與人才差異化成長需求存在矛盾的問題。近年來,深度學習方法正成為各類推薦系統的研究熱點,其原因在于深度模型引入了一些有效的訓練方法,與傳統推薦方法相比,深度學習方法有助于在自適應學習環境中更加精準地實現個性化輔助學習,從而提高信息技術在教育學習領域的適用性[1]。
我們將從挖掘規律、分析學習特征和習慣、評估學習現狀及預測學習效果四個方面著手,提高學習者在線學習的效率和成效[2]。
利用大數據等先進技術對在線學習平臺的數據進行分析、研究,找到學習者的認知規律。重點關注學習者受何種因素干擾影響最多。基于決策樹算法的研究者[3]對學習者進行分類研究,發現學習方向、學習中的表現和平時成績都會影響最終學習成績。該算法發現了學生成績與學習管理體系的關聯。利用回歸算法的研究者[4]發現學習者合作學習解決實際問題的能力和學習者性別的組合也對學習產生影響。
不僅學習行為會影響學習成效,學習行為模式也有影響。利用EM算法的研究者[5]對學生進行聚類研究,發現了共同合作的行為模式對學習的影響。利用關聯規則算法的研究者[6]發現了學習者有知識誤區后的系列影響。
分析學習者的學習特征與習慣有利于提高學習成效,使得學習成績有所提高。
有研究人員善于研究學習者的學習風格和方法,有利用貝葉斯算法的研究者[7]通過游戲表現研究學習風格。而在決策樹算法基礎上建立計算模型的研究者發現了學生與在線學習系統之間互動數據的關系。基于K-means算法的研究者[8]則將學生分層,發現學生認知水平與成績優劣的關系。
有研究者發現學習者瀏覽、查閱文獻的習慣,與瀏覽文件的順序和頻率有關,利用關聯規則和序列挖掘模型算法分析出學習者的知識結構及各知識點間的聯系。
依據學習者現階段知識掌握情況、學習習慣、特征,觀察學習者在線學習的學習現狀。結合學習者的學習現狀和知識掌握狀況,及時發現學習中存在的問題,有利于教師做好學情分析,調整在線學習教學方法,有利于學習者提升學習能力,收獲更好的學習成效。
有研究者利用隱藏的機器自我學習功能,及時發現學習者在學習中是否態度認真。有研究者利用序列模型挖掘算法發現學習者的學習方式是否得當、有效,能及時進行干預。也有研究者利用網絡分析手段研究共同學習的內聚性特征,能將孤立團隊和活躍團隊有效區分。也有基于教育學和心理學的專家[9]發現,以對學習的干擾因素構建的數學模型能預估出學生精神狀態,有助于教師及時進行心理輔導,能緩解壓力,提高效率。
不少研究者利用大數據構建計算模型,通過數據關系和教育理論進行學習效果的預測。
有研究者利用線性回歸模型對學生的學習情況進行預測。還有研究者[10]結合學習者的學習習慣再利用Logistics回歸模型建模,預測學生的學習成績,同時,還能對后期行為進行追蹤,發現利用Logistics回歸模型能預測學習者后期是否能考上大學。也有研究者能進行學習動力不足的預測,能及時補救減少輟學發生。
基于結構分析最小原理和統計學原理的支持向量機SVM算法,是將測試數據在學習者的學習能力和模型復雜度之間權衡、比對選擇最優方案。此支持向量機SVM算法能有效模仿真實模型,首先將原始特征利用核函數變換映射后,在高維空間分解特征矩陣,使得問題可以轉化成對凸二次規劃問題的求解。令樣本數據集是(xi,yi),xiRn,yi{-1, 1},i=1,…,n,超平面: ·x+b=0。最優超平面能把兩種樣本到超平面的最短距離之和取到最大值,公式是:

上式(1)中松弛變量用 表示,懲罰參數用C表示,而上式(2)中b表示閾值。訓練集利用非線性映射量 (xi)映射到高維空間,核函數是公式:K(xi,xj)= (xi)· (xj),用二次規劃問題求得最佳超平面:

利用Lagrange乘子ai求出決策函數:

對上述核函數的優化、決策函數的性能改善是后續重要內容,可以使SVM算法獲得更優性能。
因支持向量機算法對在線課程平臺的學習行為分析有誤差,而利用加權的支持向量機算法,是基于大數據技術Random Forest(隨機森林)模型的Gini(基尼)指標計算特征加權值,再對隨機森林分類識別的影響力做計算,依據各屬性的重要性設置對應權重,使得影響力大的特征屬性比影響力小的獲得的權重更大,再把此權重值利用支持向量機進行計算,以得到SVM算法的在線課程學習平臺學習者的行為分析。本文亟待解決的問題是利用優化的核函數選擇內積參數,有助于SVM算法進行更優分類識別。
利用核函數添加的特征加權值向量機叫作特征加權支持向量機。其概念為:核函數Kp是在X*X(XRn)區間里,p是輸入集的n階(維度)線性變換矩陣,核函數Kp計算公式:

算法步驟為:
步驟1:樣本集S的收集和取樣,S={x(i), x(j)}, (i=1,…,n),其中x(i)是特征變量,y(i)是類別量。
步驟2:Random Forest(隨機森林)模型的Gini(基尼)指標的獲取、指標參數的處理都是標準化操作。在建立加權特征量時應當根據標準化后的參數來加權。利用RFG值優化原始特征內積RFG(x(i))=(gx(1),…,gx(n)),(i=1,…,n)
步驟3:空間線性矩陣p=diag(RFG(x(i)))的建立,用p來構造Kp核函數。
步驟4:有效性驗證。對于Kp的校驗采用SVM方法。若存在K和Rn×Rn→R的映射(R是實數域,Rn是n維向量),當樣本集是{x(1), x(2),…,x(m)}時,有效核函數K是對此半正定的,即所有非零實數向量zr都滿足zrKz>0。任意x(i),x(j)代入K中得到kij=k(x(i),x(j))(i,j1,…,m),最終得到m*n的矩陣:

因此核函數K在訓練集{x(1), x(2),…,x(m)}中有效。
步驟5:把SVM的線性核函數替代掉,利用特征加權的Kp核函數輸出支持向量構造分類器。
步驟6:設計特征加權向量機的RFG-SVM算法流程圖及性能檢測,如圖1所示。

圖1 特征加權值向量機RFG-SVM算法流程圖
針對獲得校內微知庫平臺數據集的3869行數據及10項特征屬性進行研究,先利用R-Studio對數據做預處理,舍掉錯誤數據最終獲得3834條數據集。采用Random Forest隨機森林模型和varimpPlot函數得到最終數據,得到的Gini指標值如圖2所示。

圖2 Random Forest 的Gini指標值
為驗證Random Forest的Gini的穩定性,將它與其他兩種支持向量機的算法進行對比,結合微知庫線上平臺數據研究分析如下:
對比表1數據,RFG-SVM算法的準確率(Accuracy)最高,且根均方誤差最優,所以在識別分類和預測判斷上RFG-SVM性能較強,對在線課程中學生的學習行為的分析、預測識別的準確度有明顯提高。

表1 實驗數據對比
接下來采用三種算法對學校微知庫平臺的在線課程學生學習行為的數據進行分析,研究各類算法最優應用場景,實驗數據如圖3所示。

圖3 在線課程對比試驗數據分析
對比這三個算法對各種學習行為數據的分析,可以看出具有特征加權的支持向量機的RFGSVM算法在分類識別上較另外兩種算法準確性更高,而常見的SVM算法的準確率較低。因為RFG-SVM算法數據采集樣本較低,使得“互動次數”的數量較低,導致性能不佳。但綜合各項性能指標,RFG-SVM算法較另外兩種算法,在對在線課程的學習行為數據的分析、對比和預測上都有較高的準確性,性能最優。
對學校微知庫平臺的飛機電子設備維修專業群的五門課程的數據進行分析,C語言程序設計(C)、電工技術(G)、單片機技術與應用(D)、數字電子技術(S)、飛機儀表技術與應用(F),每門課程基本要求不相同,學習規律各異,學生的學習方法也不同,最終五門課程的成績動態分布圖如圖4。

圖4 在線課程成績動態曲線圖
從表2看出,有良好學習習慣的學生成績較好,而僅完成基本學習內容不參加互動、討論的成績不理想,但也不是說參與的越多就一定有好的學習效果,不過能較好地評估學生的學習現狀并給出該課程的學習建議。

表2 不同學習活動和成績對應關系
在線課程的學習平臺要讓教師及時分析學生學習習慣和規律,了解學生的學習特征和學習狀態,利用RFG-SVM方法對學生在線課程的學習效果進行預測。下面利用RFG-SVM方法對學習者進行實驗性預測。
4.2.1 問題分析和數據集
教師需對有不同學習規律、學習特征和習慣的學生預測學習效果,五門課程學習時長、跨度都不一樣,選擇中間10周的學習狀況,表3對學習者的多個特征值進行統計,n表示學習者個數,p表示特征值個數。

表3 不同學習活動和成績對應關系

預測值:

當y=0時不及格,y=1時及格。
4.2.2 實驗結果
利用完成作業次數、討論互動次數、學習次數、實驗次數、實踐活動次數五個數據參數,得到下表4的結果。

表4 實驗數據樣本
上述五門課程利用隨機森林的支持向量機RFG-SVM算法進行預測,學習效果的準確率較高。當參數為1時,準確率和召回的平均值較高,證明該方法有效。
在發現傳統支持向量機算法對在線課程平臺的學習行為分析有誤差時,提出的基于大數據技術的RFG-SVM支持向量機算法,是在傳統支持向量機算法上做完善、修改,經特征加權計算、數據挖掘后在分類、識別方面功能更完善,預測更精準。通過對不同學習行為的學生的學習效果的預測,發現該方法能有效幫助教育者通過在線平臺分析學習者的學習行為,預測學習效果,具有更高的準確率和穩定性。