王傳安,葛 華
1.安徽科技學院信息與網絡工程學院,安徽 滁州 233100;
2.北京郵電大學網絡技術研究院,北京 100876
慕課(massive open online courses,MOOC)作為一種新興的學習者協同進行的學習平臺,隨著互聯網Web 2.0和云計算等技術的成熟[1],不但吸引了越來越多學習者、平臺提供者及高校參與其中,同時也引發了教育研究者的極大關注[2]。盡管MOOC得到了快速的發展,一些初步的研究成果已經形成,但是教師對學習者在MOOC平臺下是如何學習的知之甚少[3-4]。了解學習者的學習行為特性,不僅可以優化MOOC平臺的設計,更重要的是可以彌補MOOC教學方式中師生的時空分離缺點。
現在對MOOC學習者學習行為的研究多數傾向于學習行為方式與學習效果之間的關聯[5-6],且研究所有的樣本數據多數直接采集行為日志或問卷調查,屬于線后統計分析行為[7]。同時,目前對MOOC學習者行為分析都是單方面的,無法判定學習者在學習過程中是否存在偽學習行為。比如某學習者為盡快播放完課程教學視頻,采取連續播放或掛機方式播放教學視頻,且在播放過程中多次拖放視頻。
再比如某學習者為完成提交課程作業任務,一次性提交所有作業,諸如此類學習行為我們稱之為偽學習行為,同時該學習者可看做是“偽學習者”[8-9]。而如何正確識別MOOC平臺中的偽學習者,并根據偽學習行為特性制定相應的預防措施或報警機制,以抑制學習者的偽學習行為,已成為MOOC教學研究中首要解決的關鍵問題之一。
本文為實現高精度的偽學習者識別,將多種學習行為特征進行融合分析,建立了學習者動態行為模式,通過多分類器協同學習,實現對未標記學習者行為數據進行標記,進而根據標記判定該學習者是否為偽學習者。
由于僅基于某一特定類型的行為特征并不能夠對偽學習者進行準確的識別,因此,在原數據集中提供的學習者概要特征基礎上,提出學習者自主行為特征和學習者交互信息特征,并將其三者融合以對學習者動態行為模式進行建模。
學習者自身的因素,如性別、文化程度、選課時間和學習目的,是影響學習者學習行為發生的內部因素,文中將這些因素作為偽學習者識別的概要特征。
1.2.1 課程關注度 在實際的MOOC學習過程中,偽學習者自從注冊后很少登錄MOOC平臺,即使經常登錄平臺,卻采用走馬觀花的學習方式對待學習內容,導致每次學習時長較短,故與正常學習者相比,偽學習者的平臺登錄次數和學習時長都低的多。因此,為了衡量學習者自愿學習某課程的意愿程度,定義了用戶課程關注度Fu為

式(1)中 tu,j是學習者u第j次登錄MOOC平臺時的學習時長;N為學習者u登錄的總次數;而D和T分別表示學習該課程時的建議學習天數和每次學習的時長。
1.2.2 視頻學習行為 教學視頻是MOOC平臺中最主要的學習資源,同時也是學習者獲取知識的最主要途徑[1]。偽學習者為急于結束視頻學習,常采用“掛機”的方式,在一次登錄過程中持續播放整個課程的所有教學視頻。因此,本文將觀看教學視頻的頻度熵作為識別偽學習者“掛機”視頻學習行為的特征量。學習者u的視頻觀看頻度熵Eu定義為:

式(2)中lu,d是學習者u在第 d天學習的教學視頻數量,K是學習者u需要學習的某門課程總的教學視頻個數。對于一個學習者,如果他將要學習的課程教學視頻在某一天觀看完,則他的視頻觀看頻度熵趨于0;如果他將所有課程教學視頻平均分布在D天觀看完,則視頻觀看頻度熵為1。因此,較高的頻度熵值代表了學習者有規律地觀看課程視頻,能較好的按照視頻學習建議進行學習。
另一個與視頻學習行為相關的特征量是觀看視頻時的行為動作。在觀看教學視頻時,正常學習者的主要動作包括暫停、后退及個別快進動作,而偽學習者帶著一顆“應付的心”的觀看教學視頻,其動作主要是快進及拖拽。采用方差來衡量正常學習者與偽學習者在觀看視頻時的行為動作差異:

式(3)中qu,k表示學習者u在第k個教學視頻上快進的次數,su,k表示學習者u在第k個教學視頻上拖拽的次數,qˉk和 sˉk分別表示所有學習者在第k個教學視頻上快進的次數和拖拽次數的平均值。對于一個學習者u,其動作差異Pu越大,說明該學習者的快進和拖拽次數越多,反之亦然。
1.3.1 動態發帖數 有時為了制造主動交互學習的假象,偽學習者在一次登錄過程中在討論區發布多個帖子,或者在每次登錄過程中都發布多個討論帖[10]。因此,為了衡量發帖數與登錄次數間的關系,將發帖數與登錄發帖區次數的比率作為動態發帖數的特征表示:

式(4)中 ru,j是學習者 u 第 j次登錄MOOC平臺時在討論區發帖的個數。
1.3.2 發帖內容相關性 在MOOC學習中,一個正常學習者針對不同的教學內容,發布的多個帖子在內容和主題上并不會表現出很強的自相似性,而偽學習者一般采用內容模板在一次登錄過程中發布大量具有較高相似度的帖子。因此,本文從文本角度出發,衡量用戶u發帖內容的相關性,其計算公式如下:

式(5)中W表示用戶u發布的帖子總數,T(w,w-1)表示第w條帖子與第w-1條帖子間的發布時間間隔,Γ(w,w-1)表示第w條帖子與第w-1條帖子間的jaccard相似度[11],其計算公式為:

其中,G(w)和G(w-1)分別表示第w條帖子與第w-1條帖子中所包含的相似詞語集合。
1.3.3 動態作業數 偽學習者為了完成MOOC學習過程中的作業提交任務,往往在一次登錄過程中將多個教學內容環節的不同作業提交到系統平臺中。與動態發帖數類似,采用提交作業數與登錄次數的比率作為動態作業數的特征表示為:

式(7)中 ru,j是學習者 u 第 j次登錄MOOC平臺時提交的作業個數。
由于僅基于某一特定類型的特征并不能夠對偽學習者進行準確的識別,因此,融合用戶概要特征、用戶關系特征以及用戶發布信息特征,通過多分類器協同學習,實現對未標記學習者行為數據進行標記,進而根據標記判定該學習者是否為偽學習者。其識別模型如圖1所示。

圖1 基于協同訓練的偽學習者識別模型Fig.1 Pseudo-learner recognition model based on collaborative training
采集MOOC平臺中的學習者學習行為數據,根據偽學習者行為特征指標,提取每條行為數據的特征值,構造供集成分類器使用的訓練樣本集和檢測樣本集。由于協同學習采用SVM進行訓練分類,而SVM只能處理數值型的數據,為此要對所提取特征值進行標準化和離散化處理。
為提高分類器性能,協同學習在訓練過程中需要利用已標記樣本和未標記樣本對多個分類器進行協同訓練。因此,為獲得已標記樣本,對預處理后的學習者行為數據進行類別標識,用lab表示,標記lab取值為{1,-1},當值為1表示該樣本為正常學習者行為,而-1表示該樣本為偽學習者行為。具有n個特征值的訓練樣本可表示為X=[( x1,x2,…… xn),lab],其中 xi為學習者第i個學習行為特征的取值,其中i∈[1,n]。
文中應用選擇性協同學習解決偽學習者的識別檢測問題[12],其識別過程可劃分為協同訓練階段和檢測識別階段。
2.2.1 協同訓練 根據學習者不同的學習行為特征,將已標記的學習者行為樣本分為3個無重復的訓練集,然后使用3個訓練集分別訓練初始分類器f1、f2和 f3,3個分類器協同工作,遇到未標記行為樣本時,若3個分類器對該樣本預測的標記一致時,使用預測標記對該樣本進行標記,并將已標記的新樣本添加到已標記樣本集中,形成新的訓練集,開啟新一輪迭代訓練,直至分類器不再發生變化。
2.2.2 偽學習者檢測 分類器訓練結束后,在未標記的學習者行為樣本監測與分類識別中,分類器采用協同投票方法對學習者行為樣本的類別進行判定,若判定樣本標記lab值為-1,則認定該樣本為偽學習者。根據陳文等[13]提出的樣本檢測錯誤率判定方法及Angluin等[14]提出的噪聲學習理論,樣本檢測錯誤率?與分類數目B間的關系應滿足式(8):

其中A為樣本個數,σ為置信度參數,?是檢測錯誤率上限。將式(7)進一步轉換得式(9):


設檢測第u個未標記的樣本數據時,樣本檢測錯誤率為?u-1,若滿足式(11):

則表明增加第x個樣本后能改進分類器性能,這也意味著對第u個樣本預測的標記是精確的;否則放棄本輪對檢測樣本x的類別判定,從檢測樣本集中重新進行選擇樣本,進行下一輪的檢測。式(11)中A+1表示將第x個樣本加入已標記樣本集后的規模,?u為完成第x個樣本檢測后的檢測錯誤率。
實驗所使用的學習者學習行為日志數據均來自于MOOC課程《大學計算機基礎》,對采集到的行為數據進行特征抽取,并按學號(SID)進行分類排序,然后根據文中第二部分動態行為模式建模所需要的行為特征進行格式處理和離散化處理,表1為處理后的部分數據樣本實例(表1中Fu為課程關注度、Eu為視頻觀看頻度熵、Pu為觀看視頻行為動作特征、Ru為動態發帖特征、Simu為發帖內容相關性、Hu為動態作業特征)。

表1 處理后的學習行為數據樣本Tab.1 Samples of processed learning behavior data
在偽學習者預測效果的評價方面,本文采用準確率和召回率作為評價指標。準確率描述了分類器將正常學習者與偽學習者正確分類的百分比,而召回率表明了檢測出的偽學習者中,真實偽學習者的比率[15]。表2記錄了兩組實驗樣本集的實驗結果,其中樣本集1中共5 000條樣本數據,其中3 000條作為訓練數據,2 000條作為測試數據;而樣本集2中共3 000條樣本數據,其中1 500條作為訓練數據,另外1 500條作為測試數據。
在采用樣本集1進行實驗時,采用本文提出的6個行為特征訓練分類器,而采用樣本集2進行實驗時,添加了年齡、選課時間和性別三個特征訓練分類器。根據表2的實驗結果,發現并不是行為特征選取的越多,預測效果越好,因為部分特征具有“負效果”,反而會降低分類器的準確率。這也證明了所提出的動態行為模式的有效性。

表2 偽學習者預測結果Tab.2 Predict results of pseudo-learners %
圖2給出了所有學習者的視頻觀看頻度熵曲線。從圖2中可以看出極少數學習者的視頻觀看頻度熵趨于0,表明這些學習者的視頻觀看行為特別集中,極有可能是采用掛機播放的方式觀看教學視頻,而大部分學習者的視頻觀看頻度熵都在0.5以上,表明他們的視頻觀看行為分布較為平均。

圖2 學習者觀看視頻行為統計Fig.2 Video viewing behavior statistics of learners
表3進一步給出了正常學習者和偽學習者的視頻觀看頻度熵的對比,只有不超過10%的正常學習者的頻度熵小于0.25,而偽學習者的比例高達95%。這說明偽學習者為了應付學習,在一次或幾次登錄過程中采用連續播放(或掛機播放)的方式將課程教學視頻播放完,即與正常學習者相比,偽學習者的視頻觀看行為特別集中。

表3 正常學習者與偽學習者的視頻觀看頻度熵Tab.3 Video viewing frequency entropy of normal learners VS pseudo-learners
從圖3的統計結果可以看出偽學習者的發帖內容的相似度高于正常學習者。在MOOC學習中,一個正常學習者針對不同的教學內容,在討論區發帖的內容一般會與教學內容緊密相關,因此發帖內容相關性程度較低,而偽學習者一般采用內容模板在一次登錄過程中發布大量具有較高相似度的帖子。

圖3 偽學習者與正常學習者發帖相關性比較Fig.3 Post content correlation of normal learners VS pseudo-learners
以MOOC環境下學習者的學習行為作為研究落腳點,根據學習者學習行為特性,對學習者動態行為模式進行建模,然后采用協調訓練的方法進行學習行為數據訓練,以此來檢測學習過程中是否存在偽學習行為。為驗證文中所提的偽學習者識別方法的有效性,選取了MOOC平臺中《大學計算機基礎》作為研究實例,將采集到學習者學習行為日志數據作為實驗樣本,采用分類標記的方法進行偽學習者識別驗證。結果證明,文中所提的偽學習者識別方法具有較高的準確率和召回率。
致謝
在此對文中實驗和測試等提供支持和幫助的安徽科技學院《大學計算機MOOC平臺》研究組各位老師表示感謝。
[1] 蔣卓軒,張巖,李曉明.基于MOOC數據的學習行為分析與預測[J]. 計算機研究與發展,2015,52(3):614-628.
[2] 梁林梅.MOOCs學習者分類特征與堅持性[J].比較教育研究,2015,37(1):28-34.
[3] CHANG J W.Exploring engaging gamification mechanics in massive online open courses [J]. Journal of Educational Technology&Society,2016 ,19(2):177-203.
[4] 李帥,張巖峰,于戈,等.MOOC平臺學習行為數據的采集與分析[J]. 中國科技論文,2015,10(20):2373-2376.
[5] RODRIGUEZ C.MOOCs and the AI-stanford like courses:two successful and distinct course formats for massive open online courses[J].European Journal of Open,Distance and E-Learning,2012,1(2):1-13.
[6] BRESLOW L,PRITCHARD D ,DEBOER J,et al.Studying learning in the worldwide classroom research into edX's first MOOC [J].Research&Practice in Assessment,2013 ,8(1):13-25
[7] MILLIGAN C,LITTLEJOHN A ,MARGARYAN A.Patterns of engagement in connectivist MOOCs[J].Journal of Online Learning&Teaching,2017,9(2):149-159.
[8] SHEN C W,KUO C J.Learning in massive open online courses∶Evidence from social media mining [J].Computers in Human Behavior,2015,51(3)∶568-577.
[9] GLYN H,CHELSEA D.The utilization of data analysis techniques in predicting student performance in massive open online courses (moocs) [J]. Research and Practice in Technology Enhanced Learning,2015,10(1):1-18.
[10] HEATHER B,SHAPIROC C,NOELLE E,et al.Understanding the massive open online course(MOOC) student experience: an examination of attitudes,motivations,and barriers[J].Computers&Education ,2017 ,110(3):35-50.
[11] WANG M M,ZUO W L,WANG Y.A multidimensional nonnegative matrix factorization model for retweeting behavior prediction [J].Mathematical Problems in Engineering Volume,2015,5(1):1-10.
[12] 陸悠,李偉,羅軍舟,等.一種基于選擇性協同學習的網絡用戶異常行為檢測方法[J].計算機學報,2014,37(37):28-40.
[13] 陳文,張恩陽,趙勇.基于多分類器協同學習的卷積神經網絡訓練算法[J]. 計算機科學,2016,43(9):223-227.
[14] ANGLUIN D,LAIRD P.Learning from noisy examples[J].Machine Learning,1988,2(4):343-370.
[15] 李赫元,俞曉明,劉悅,等.中文微博客的垃圾用戶檢測[J].2014,28(3):62-68.