阮進軍


摘 要:混合式在線學習能把傳統(tǒng)學習方式的優(yōu)勢和網(wǎng)絡化學習的優(yōu)勢結(jié)合起來。尤其是在線學習階段能讓學生隨時隨地開展碎片化學習,但是學生在線學習階段的測試題抄襲、學習不積極等異常學習行為教師難以及時掌握。將大數(shù)據(jù)技術和隱馬爾可夫模型相結(jié)合,可以對學生在線學習行為數(shù)據(jù)進行采集、分析和評測,能夠有效識別學生的抄襲等異常學習行為。
關鍵詞:學習行為;Hadoop;K-means;HMM
中圖分類號:F27 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2021.36.027
0 引言
混合式在線教學方式靈活,但是在線學習階段,部分學生會更容易放松學習,甚至會出現(xiàn)測試題抄襲等不良行為。教師雖然可以通過在線答疑、討論等方式和學生進行互動督促學生學習,但是教師要想真實掌握學生的在線學習狀態(tài)還是比較困難。當前很多學者認識到,通過分析學生在線學習平臺上產(chǎn)生的大量互動信息,可以跟蹤學生學習過程、評價學生學習行為的優(yōu)劣。柴艷妹等利用5類數(shù)據(jù)挖掘技術對學生的在線學習行為進行了研究,王芳等建立了MOOC 在線學習的預警模型,但是上述方法不能對學生的抄襲等異常學習行為進行評測。本文在利用Hadoop平臺采集并處理學生在線學習行為數(shù)據(jù)的基礎上,建立了基于隱馬爾科夫模型(Hidden Markov Model,HMM)的在線學習行為評測模型,實現(xiàn)了對學生抄襲等異常學習行為的識別。
1 基于Flume的學生在線學習行為數(shù)據(jù)采集
學生在線學習過程中,服務器系統(tǒng)日志會記錄學生的學習行為交互信息。對這些信息進行數(shù)據(jù)挖掘處理可以有效獲取學生的學習狀態(tài)。學生的學習過程中操作比較頻繁,產(chǎn)生的數(shù)據(jù)量會非常龐大,因此有必要將大數(shù)據(jù)處理技術引入在線學習行為分析,本文將Hadoop中的分布式文件系統(tǒng)HDFS作為海量學習行為數(shù)據(jù)的存儲系統(tǒng)。利用可靠的分布式數(shù)據(jù)收集系統(tǒng)負責監(jiān)聽系統(tǒng)日志,并通過Flume管道存入到HDFS中。
2 基于MapReduce的學習行為K-means聚類分析
本文選擇安徽某高職院校SPOC在線學習平臺上1052名學生的《C語言程序設計》在線學習數(shù)據(jù)。篩選出其中具有代表性的屬性和行為:StuId(學生id)、SId(會話id)、Time(響應時間)及StuAT(行為類型)。經(jīng)過數(shù)據(jù)清洗,剔除空白值和Time小于閾值的無效數(shù)據(jù)后,以“StuId+SId”為key, StuAT為value,建立鍵值對,即按照StuId相同且SId也相同的原則,按照時間戳將學生的操作行為記錄下來。最后對上述數(shù)據(jù)集進行基于MapReduce的K-means聚類分析,經(jīng)過多次聚類,在K取值為3時得到了較好的聚類結(jié)果。聚類完成后標記每條行為數(shù)據(jù)的類別,按照占比最多的原則將學生劃分為3類。得到3類不同狀態(tài)的學習行為學生評價集合E={e1,e2,e3 },經(jīng)過分析e1類標記為學習積極型,這類學生在線學習的各種學習行為參與度都很高,學生的學習成績都比較好;e2類標記為學習被動型,他們的學習行為主要以看視頻、閱讀課程資料等必須完成的學習任務為主,但是需要主動參與的行為(例如搜索資料、論壇回帖等)參與度都不高,這類學生的學習成績處于中游及中游偏下;e3類標記為學習不認真型,這類學生的只是勉強完成學習任務,所有的行為參與度都不高,學習成績都較低。
3 基于HMM的在線學習行為評測
混合式在線教學方式中的學生在線學習階段,每個學習單元都安排了在線測試,每個單元測試學生可以反復嘗試,系統(tǒng)會記錄測試結(jié)果。教師可以觀測到學生每次測試的成績,但是無法了解學生對所學知識的掌握程度以及是否有抄襲行為。本文引入HMM模型先對能正常完成學習任務的e1和e2類學生的在線測試成績數(shù)據(jù)序列進行建模,然后再利用訓練好的模型評測學生的抄襲及學習不認真的學習行為。在建模前首先將學生數(shù)據(jù)樣本按照70%和30%比例設置訓練數(shù)據(jù)集和測試數(shù)據(jù)集,然后將訓練數(shù)據(jù)集部分按照上面K-means聚類的結(jié)果e1、e2、e3劃分集合,定義其中e1和e2為參照集,e3為落后集。再由授課教師將已知有抄襲行為的學生挑選出來組成異常集。將參照集中的e1和e2分別隨機挑選70%用作模型訓練,剩下的30%用作標準集。
3.1 建模階段
將70%用作模型訓練的e1和e2類學生的在線測試成績數(shù)據(jù)序列,分別建立正常學習行為模型,即訓練與之對應的λ1和λ2參數(shù),建立2個正常學習行為的HMM模型庫。
3.1.1 觀測序列和觀測符號數(shù)
學生選擇在線測試題進行測試具有隨意和無序性,但在線測試嘗試與時間相關,學生每次測試嘗試都可以被認為是學生對所學知識掌握情況的觀測值,因此以學生為研究對象,以時間先后為次序?qū)W生的每次測試成績結(jié)果組合成觀測序列O={o1,o2,…o i,… oT },o i∈V,其中V是定義的觀測符號集{ V1,V2,V3,V4},對應由測試成績轉(zhuǎn)換而來的4個等級,具體規(guī)則是:76分至100分為V1,60分至75分為V2,40分至59分為V3,40分以下為V4。
3.1.2 隱狀態(tài)數(shù)
對于學生對所學知識的掌握程度以及是否抄襲,教師無法直接掌握,只能通過學生做題反饋的觀測符號進行觀察。因此根據(jù)學生對所學知識的掌握情況可以定義狀態(tài)集S= {掌握,基本掌握,不掌握,抄襲}。
3.2 評測階段
(1)利用滑動窗口前向算法計算學生在線測試序列子序列的概率。由于每個學生進行在線測試做題次數(shù)不相同,觀測序列長度會出現(xiàn)差異,因此可以使用滑動窗口技術將原始長度為T的測試觀察序列,用長度為k的滑動窗口進行分割,將原觀測序列分割為T-k+1個子序列,表示為H= hp (1≤p≤T-k+1)。運用滑動窗口前向算法可以求解出所有子序列的輸出概率Php|λ。具體流程如下:
4 實驗
由定義可知,計算據(jù)數(shù)據(jù)集中每個學生樣本的抄襲度θ1和落后度θ2可以對每個學生樣本進行評價,不同樣本集的檢測率和誤報率如表1所示。
5 總結(jié)
本文提出了一種基于大數(shù)據(jù)和HMM模型的學生在線學習行為分析評測方法,利用Flume采集學生的海量在線學習行為數(shù)據(jù),再使用K-means聚類將學生劃分到不同的數(shù)據(jù)集,然后利用HMM建立基于學生在線測試觀測序列的評測模型,使用能正常完成學習任務學生的在線測試觀測序列訓練模型,將模型應用于未知狀態(tài)的學生測試觀測序列的評測分析。實驗結(jié)果表明該方法能夠幫助教師有效識別學生在線測試抄襲行為和學習不認真的異常學習行為。
參考文獻
[1]柴艷妹,雷陳芳.基于數(shù)據(jù)挖掘技術的在線學習行為研究綜述[J].計算機應用研究,2018,(5):1287-1293.
[2]王芳,梁鷹.基于MOOC的大數(shù)據(jù)學習預警模型在混合教學中的應用[J].中華醫(yī)學圖書情報雜志,2019,(7):63-71.
[3]Steve Hoffman,Srinath Perera.Flume日志收集與Map Reduce模式[M].北京:機械工業(yè)出版社,2015.
[4]張響亮,王偉,管曉宏,等.基于隱馬爾可夫模型的程序行為異常檢測[J].西安交通大學學報,2005,39(10):1056-1059.