隨著互聯網技術在教育領域的大規模應用,教育大數據挖掘已成為推動我國教育改革、創新發展的重要戰略。大規模開放在線課程(Massive Open Online Courses,MOOC)作為遠程教育的重要形式之一,打破了學習者的時間和空間限制,滿足了學習者多樣化的學習需求。
MOOC平臺完整記錄了教學者和學習者的行為,產生了大量連續的教學互動信息。這些信息表征了學習者零散、無意識的學習行為,是深入研究學習行為和學習心理的新素材。對其進行深入分析,能夠發掘學習者最真實的思維和學習情況,不僅能在理論上促進對學習本質、學習者的學習心理和學習行為的研究,更能在實際應用中幫助跟蹤學習者的學習過程、評價學習效果、準確把握其學習狀態,以便及早干預[1-3]。隨著MOOC平臺在線學習系統的激增,教育數據呈現出爆發式增長的勢頭,傳統技術手段已經無法對海量數據進行處理和分析。大數據技術可以計算和分析教、學、研等多角度的數據特征,構建用戶畫像,提取出對學生學習行為和教師教學情況的反饋和建議,從而為改善教學質量做出最合理的評估和決策。
大數據挖掘技術是指從大量數據中自動搜索特殊關系信息的過程。大數據挖掘通常與計算機科學有關,并通過統計分析、機器學習、深度學習、專家系統和模式識別等方法實現目標。其中“機器學習”是21世紀興起的一門多領域交叉學科,機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法,“機器學習”算法是一類從數據中自動分析獲得規律,并利用規律對未知數據進行預測的算法;“深度學習”是建立、模擬人腦神經網絡,通過模仿人腦的機制進行數據的詮釋,如聲音、圖像和文本識別等。
從數學模型的角度來講,深度學習是一種復雜的特征提取方法,將原始數據通過一些非線性模型變換為更高層次的抽象表達,再組合多層變換,學習提取出非常復雜的函數特征方法。與傳統機器學習相比,深度學習的核心在于含有多個隱層,并且各層特征的提取不是通過人工參與設計,而是在其學習過程里從數據中自學。這種“黑盒式”的自學習特征對數據結構要求低,但對數據量要求大,因此非常適合當前互聯網大數據應用的需要[4]。由于深度學習非常依賴于高端硬件設備,而且當數據量較少時,深度學習算法的表現并不佳[5],因此本文采用傳統的機器學習算法建立學習預警模型。
“翻轉課堂”作為一種新型教學模式[6],以學生為主體,能夠真正調動學生積極性,提高學習效率和質量。目前基于MOOC教學的“翻轉課堂”,即線上線下混合教學法已經被廣泛應用于高校教學。然而關于在如何深入挖掘MOOC平臺的海量教學信息分析和預測學習者的學習行為和特點,并制定精準的教學方案,從而針對性地指導學習及評估教學質量等方面的研究尚淺。因此本文將以《臨床藥物治療學》課程為例,通過實證開展混合教學法中基于在線學習行為數據的學習預警模型研究。
近年來國外研究者除關注學習者對在線學習的接受程度外,也關注學習者的學習表現、學習態度、學習動機以及學習風格等,數據挖掘技術開始受到重視[7]。Teng等人[8]依據學習行為的相似性對學習者進行聚類,并在分析聚類結果后為每類學習者提供針對性建議;Aher等人[9]在K-means 算法聚類的基礎上,應用Apriori算法對各類學生的課程學習記錄進行關聯規則分析,得到各類學生偏好的課程學習順序,從而向學生推薦合適的課程。
隨著大數據算法的不斷演進,國外大數據挖掘技術在教育領域的應用日新月異[10-14]。在可視化預警系統上,比較有代表性的是可汗學院的學習儀表盤系統。該系統將學習管理系統與可視化工具相結合,運用信息跟蹤技術和鏡像技術對學習者的學習行為、習慣興趣等信息進行記錄和追蹤,并對測驗成績、學習時間和學習路徑等數據進行分析,依據對知識點的掌握情況進行反饋預警,幫助學習者提高知識點掌握程度和改善學習技能[15]。近年來國內MOOC快速崛起,數據挖掘技術被引入在線學習行為的研究,涌現出一批研究成果[16-19]。
檢索國內常用數據庫,時間跨度為2007-2018年,獲得有關學習預警模型設計的文獻。如趙慧瓊等設計的在線學習干預模型,運用數據分析技術對學習管理系統存儲的數據進行分析,利用決策樹算法進行危機診斷,一旦發現學習者存在危機,則及時采取電子郵件、資源推薦、彈出窗口等方式發送預警信息,以輔助學習者的學習活動順利進行[20]。
通過分析國內外教育大數據文獻內容發現,在教育數據的挖掘上,大多偏重于對數據自身的分析,缺少對教育價值的深度分析;在教育數據的建模分析上,主要集中在理論模型的建立與性質分析,而基于在真實教學數據上建立機器學習模型進行挖掘分析的研究較為少見;預警模型的算法單一,沒有采用主流機器學習算法,并且很少采用交叉驗證、混淆矩陣等技術評估和選擇合適的模型。由于機器學習算法日新月異,主觀選擇的某一種機器學習算法有時并非最好的選擇。如果把目前主流的機器學習算法(如支持向量機(SVM),隨機森林、樸素貝葉斯、Logistic回歸、決策樹、k-近鄰等)都代入數據中訓練,并用交叉驗證、混淆矩陣等技術評估和選擇合適的算法模型,這樣的模型精度會更高,預警評估的效果將更好。
《臨床藥物治療學》課程是浙江醫藥高等專科學校(以下簡稱“我校”)開設的一門專業課程,教師團隊為藥學院教師,適用對象為藥學類專業的學生,開課時間為2018年2-6月,實驗對象為2016級藥學專業的300余名學生。按班級分為“MOOC+案例教學”對照組和“MOOC+翻轉課堂”實驗組(分別為179人和129人),2組分別采用“MOOC+案例”教學和“MOOC+翻轉課堂”教學。兩組授課內容完全相同,且均連續實施32學時(其中10學時是MOOC教學)。
實驗教學方法主要分為以下兩種。
2.2.1 “MOOC+案例”教學
預習:登錄超星泛雅平臺學習,完成測驗作業和討論。
案例引入:課堂上選擇疾病典型案例,根據教學目標設置問題,給予學生同樣的案例。
互動交流:學生在課前和課中以小組為單位,互相交流并解決問題,在教師引導下小組討論發言。
歸納總結:教師對案例討論進行點評及歸納總結。
臨床實訓:醫院各科室帶教醫生帶領學生閱讀病歷,與患者溝通并了解病情和用藥,根據案例指導學生制定和評價藥物治療方案。
2.2.2 “MOOC+翻轉課堂”教學
根據學生在MOOC平臺的學習情況分層分類設計翻轉課堂教學內容,分別給予學習情況較好和較差的學生不同難度的案例學習,并統計平臺上學生知識掌握情況。針對未掌握的知識點進行重點講述,其余學習過程與“MOOC+案例”教學班相同。


表1 慕課+案例教學組和慕課+翻轉課堂組期末成績
大數據挖掘分析與建模流程分為數據獲取與特征分析、數據預處理與特征選擇、模型構建3個步驟。
3.1.1 數據集描述
從超星MOOC平臺采集的《臨床藥物治療學》MOOC在線學習行為數據描述了一個學習者該門課程的學習記錄,每列項為對學習者學習行為的描述,提供了十幾項維度,主要分為3類,分別是課程信息(臨床藥物治療學)、學習者的基本信息(學號、姓名、性別)、學習者的行為信息(視頻觀看時長、訪問數,任務點完成百分比、總討論數、回復討論、發表討論、課程視頻得分、課程測驗得分、作業得分、MOOC綜合成績、MOOC綜合成績五級制等級、MOOC綜合成績是否及格、期末成績)。
3.1.2 數據獲取
利用Python數據分析模塊pandas讀取合并2016級藥學專業300名學生在超星MOOC平臺上的學習行為信息(包括測驗、作業成績,討論數,視頻觀看時長等指標數據),并與期末筆試成績按學號關聯合并,完成數據提取工作。
3.1.3 學習者行為分析
通過單特征分析、多變量統計分析,統計繪圖得出以下結論。MOOC綜合成績(由線上學習中的觀看視頻完成度、線上測驗及線上作業成績組成)A-E中期末筆試不及格人數比例隨等級下降而升高(圖1)。圖1中“0”代表不及格,“1”代表及格;橫坐標中等級A為90分及以上,等級B為80~89分,等級C為70~79分,等級D為60~69分,等級E為60分以下;縱坐標為人數。MOOC綜合成績等級相同時,不同性別在期末筆試成績中有顯著差異:女生及格率更高(圖2),且女生在期末筆試成績中及格人數的比例明顯高于男生(圖3);總討論數和訪問數的中位數數據均顯示女生高于男生,但總討論數、訪問數與期末筆試成績是否及格均分布呈現區域不平衡,一般情況下考試及格的學生總討論數、訪問數均更高(圖4和圖5)。觀看視頻時長的中位數數據女生高于男生,一般情況下考試及格的學生觀看視頻時長更長(圖6)。

圖1 MOOC綜合成績等級與期末筆試成績及格關系

圖2 MOOC綜合成績等級、性別和期末筆試成績及格率的關系

圖3 不同性別和期末筆試成績及格人數的對比

圖4 不同性別和總討論數對期末筆試成績的影響

圖5 不同性別和訪問數對期末筆試成績的影響

圖6 不同性別和觀看視頻時長對期末筆試成績的影響
通過檢查缺失值并進行填充,然后將特征數據標準化建立特征熱圖(圖7)篩選各特征相關性。
將標準化后的特征數據通過熱圖,可以從中看到一些正相關的特征以及一些負相關的特征。去掉其中“課程視頻得分”“期末成績”“回復討論”“MOOC綜合成績五級制等級”“課程測驗得分”5個特征。

圖7 特征熱圖
雖然本文從特征分析部分獲得了一些結論,但仍然不能準確地預測學生對知識點的掌握情況以及是否能通過期末筆試。本文將使用主流機器學習算法建模,預測學生是否已經掌握相關知識。在機器學習領域,沒有一種算法能夠完美解決所有問題,尤其是對監督學習(如預測建模),所選的算法必須要適用于特定問題,這就要求正確的選擇機器學習算法[21]。機器學習算法很多,如分類、回歸、聚類、推薦、圖像識別領域等,想找到一種合適的算法并不容易。因此在實際應用中通常會選擇大家普遍認同的算法,然后通過交叉驗證(cross-validation)對每種算法進行逐一測試、比較,最后選擇最好的一個模型。
本文在教學實踐中嘗試使用如支持向量機(SVM)、隨機森林(Random-Forests)、樸素貝葉斯(Na?ve Bayes)、邏輯回歸(Logistic Regression)、決策樹(Decision Tree)、k-近鄰(KNN)等主流機器學習算法建立預警模型。機器學習預警模型能夠通過學生的學習行為信息預測其期末筆試成績是否及格。模型的精度并不是決定機器學習算法效果的唯一因素。假設算法模型在訓練數據上進行訓練,需要在測試集上進行測試才有效果。如果算法模型在訓練集上的精確度很高,但是無法確保在所有的新測試集上精度都很高,當訓練和測試數據發生變化時,精確度也會改變,它可能會增加或減少。為了克服這一問題并得到一個廣義模型,我們通常使用交叉驗證。我們將數據分為10等分,通過特征數據標簽準備、數據集切分、多種建模算法對比,用交叉驗證來評估模型的精度。模型平均精度排前3位的依次為:支持向量機(76.33%)、邏輯回歸(75.67%)、隨機森林(72.67%)。其中支持向量機(SVM)建立的模型精度最高,平均預測精度和最高預測精度分別達到76.33%和90%(表2,圖8,圖9)。

表2 機器學習算法模型平均精度和標準差

圖8 機器學習算法模型平均精度條形圖

圖9 機器學習算法模型精度箱型圖
本文還使用混淆矩陣、ROC曲線下面積對機器學習算法模型進行評估。
3.3.1 混淆矩陣
混淆矩陣是對有監督機器學習分類算法準確率進行評估的工具。通過將訓練集數據訓練好的模型預測的數據與測試數據進行對比,使用混淆矩陣(Confusion matrix)指標對模型的分類效果進行度量[22]。各機器學習預警模型的混淆矩陣見圖10。

圖10 機器學習算法模型混淆矩陣
3.3.2 ROC曲線下面積(ROC-AUC )
ROC曲線(receiver operating characteristic curve)又稱“接受者操作特征曲線”,最早應用于雷達信號檢測領域,后來人們將其用于評價機器學習模型的預測能力。ROC曲線是基于混淆矩陣的結果計算得出,AUC(Area Under Curve)的值為ROC曲線下面的面積。若模型預測完全準確,則AUC為1。但現實中不會有如此完美的模型,一般AUC值在0.5到1之間。AUC值越高,則模型的預測能力越好。各機器學習預警模型ROC-AUC見表3。

表3 機器學習算法模型ROC-AUC
綜合混淆矩陣、ROC-AUC、模型精度交叉驗證,選擇支持向量機(SVM)模型預測學生知識掌握情況,為教學評估、改善“MOOC翻轉課堂”教學質量提供了數字化的模型評估標準。
《臨床藥物治療學》是我校藥學專業學生的專業核心課程,目前以線上線下混合教學為主。為了更好地利用MOOC指導線下的“翻轉課堂”教學,提高教學質量,對2016級藥學專業1-10班學生在線學習行為數據進行了挖掘和分析,并通過機器學習方法建立了在線學習行為數據與期末閉卷筆試成績(線下考試)的預測模型。
通過比較不同教學組的期末筆試成績發現,通過MOOC學習,“翻轉課堂”組的學生成績要優于普通的案例教學組,說明通過對MOOC平臺的數據挖掘,可以對學生進行分層分類教學,并優化教學設計,從而提高課堂效率。
本文發現設置的MOOC綜合成績并非期末筆試成績及格的決定性因素,MOOC綜合成績等級A中也有部分學生期末筆試成績不及格,等級B-E中期末筆試不及格人數比例隨等級下降而升高,說明MOOC綜合成績的組成僅有觀看視頻完成度、線上測驗及線上作業成績組成是不夠的,還需引入其他學習行為指標,才能更好地預測期末筆試成績。即使MOOC綜合成績等級相同,不同性別學生的期末筆試成績也不相同,以女生及格率更高。總體來看,女生在期末筆試成績中及格人數比例明顯高于男生,這可能跟女生更愿意努力學習以在考試中取得高分的意愿有一定關系。在“翻轉課堂”實踐教學中,觀察到女生在查資料和討論上較活躍,且發言更加積極主動,而這種主動性在一定程度上推動了學習進步。此外,總討論數及訪問數的中位數數據反映女生對MOOC的參與積極性更高,但總討論數、訪問數與期末筆試成績是否及格呈現區域不平衡,一般情況下考試及格的學生參與度更高(即討論數、訪問數均更高)。也有個別異常積極討論的學生依舊不及格,推測這部分學生可能學習比較勤奮,但學習方法不太得當,需要教師重點關注和引導。視頻觀看時長的中位數反映女生的學習時間更長,筆試及格率也更高。研究中發現觀看視頻完成度(視頻完成90%即給予觀看視頻完成度滿分)相同的情況下,女生及格率更高,推測部分男生可能僅僅為了完成視頻觀看任務而播放視頻,并沒有認真觀看和學習。可以考慮在未來的視頻播放中插入測試題,以提高學生的學習注意力,使學生真正從視頻中學到知識。由于視頻觀看完成度指標存在一定局限性,選用視頻觀看時長這個指標來替代,能更加客觀地預測期末筆試成績。通過視頻觀看時長發現一般情況下學習時間越長,及格率越高,推測反復看視頻可以加深對知識點的理解,這也體現了MOOC學習的優勢。
本文以期末筆試成績作為最終預測指標,因為閉卷考試更突顯公平公正,受其他因素干擾較小,且考試知識點囊括MOOC所學范圍,分布相對合理。學生的學習態度可以通過在線課程的訪問數、討論數、視頻觀看時長等指標體現,而學習能力在一定程度上可以通過線上測驗和作業成績體現。學生的學習態度和能力會影響其最終的學習質量,因此通過預警模型可以提前進行干預,對預警學生(預測出其期末筆試成績可能低于60分)進行督學導學,提高其學習質量,使其真正掌握知識和技能。
本文總結了國內外研究者在教育大數據挖掘的相關研究及存在的問題,以《臨床藥物治療學》MOOC課程在線學習行為數據為基礎使用主流機器學習算法建立預警模型,并基于各種學習行為指標預測其對期末筆試成績的影響。通過熱圖對各種學習行為特征進行篩選,將在線學習行為數據使用主流機器學習算法來訓練和建立預警模型,綜合混淆矩陣、ROC-AUC、模型精度交叉驗證等模型評估指標,最終選擇支持向量機(SVM)模型來預測學生知識掌握情況。它對學生的學習質量評估起到預警作用。教師可以調整教學計劃,指導線下的“翻轉課堂”教學,并重點關注被預警的學生;學生則需要督促其端正態度,加強學習。
由于本文只選用了300名學生的MOOC特征數據,訓練數據偏少,模型的精度尚需提高。下一步一方面計劃大量采集不同學習者的學習行為數據來進一步訓練模型,另一方面計劃通過優化特征進一步提升模型精度,更好地預測學習者的學習質量,并計劃對被預警者進行多種手段干預,如平臺中的督學導學功能、電子郵件,談心法等。同時通過深度學習為不同的學習者精準推送知識點,真正做到因材施教,從而全面提升教學質量。