常李艷,劉 婧,黃 崇
大規模開放式在線課程(MOOC)是一種在線學習環境,學習者可以免費訪問、注冊和在線學習。從2005年新的學習理論——連接主義的提出[1],2008年MOOC的首次引入[2],到2012年世界范圍內的大流行,MOOC創建了一種新的教育范式。MOOC在高校得到廣泛應用,尤其是2020年新冠肺炎全球蔓延期間,大量高校開展線上教學活動,MOOC也成為我國教育部在疫情期間主推的線上教學模式和各高校主要的線上教育方式。
MOOC突破地域、時間限制,也解決了與指數級學生數量有關的問題[3];MOOC的完全開放性和大規模特征使MOOC對象可以低成本獲得課程視頻、學習資料、課程練習、軟件工具等資源[4-5];精心的課程設計和MOOC平臺完善的學習支持服務體系使參與者可以根據自身要求實現個性化學習[6]。MOOC最初的目標是希望為各領域學習者提供免費、高質、開放的課程[7-8]。但是,MOOC一直存在一個問題:大量MOOC學習者中途輟學(退出學習),只有10%的注冊學習者能夠完成課程[9]。就輟學率而言,MOOC遠遠超過傳統的在線課程。研究者開展了許多研究,以確定學習者退出MOOC的原因,如從不同對象(大學生、研究生、教師)、課程類型(藝術人文、工科、理科)、MOOC平臺研究各種外部因素、課程因素、個人因素等對學習者課程完成度和輟學率的影響。
為了更好地了解MOOC輟學的綜合因素,有必要對近年MOOC學習者課程完成和輟學的研究文獻進行系統分析,幫助政策制定者從戰略上規劃MOOC提供的教育機會,指導高校合理配置教學資源、教育者科學設計MOOC內容以及平臺方合理規劃MOOC網站布局及功能。同時,對MOOC學生保留率的研究進行全面的系統回顧可以幫助研究人員掌握現有研究中的關鍵問題、常用方法以及研究趨勢。文章對2008-2020年間發表的有關MOOC課程保留和輟學的文獻進行了系統的綜述。
在現有文獻中,MOOC學生輟學的定義主要分為兩類:一是以學生是否最終完成課程并獲得證書作為判斷標準[10];另一類是以學生是否有一段時間的學習行為為判斷的標準,也就是說,如果有一段時間沒有參加MOOC,那么該學生將被視為退出課程[11]。本文將兩種情境均作為輟學標準,以此進行文獻收集。
自2008年MOOC出現,2014年左右出現研究熱潮,短短十幾年內關于MOOC的研究文獻激增,因此,近年也有不少學者進行MOOC研究方面的系統性綜述[12-13]。這些綜述多側重于MOOC的課程設計、課程評估、學習效果的分析[14-15]。綜述文獻均覆蓋有限的時間段[16]或者針對某一特定學科領域的MOOC進行研究[17]。例如,Bertheau等在研究中重點關注病理學中MOOC的研究成果[18],Paton等僅研究2013-2017年間的MOOC參與相關文獻[19]。2014-2020年的綜述研究展現了MOOC研究主題和趨勢的不斷變化,表1展示了先前重要的MOOC研究成果。

表1 2008-2020年間重要MOOC研究成果
鑒于以往MOOC的文獻綜述中涉及MOOC輟學的研究較少,且MOOC輟學研究綜述文獻的時間跨度一般為3-5年,主要側重探討輟學預測指標的比較,缺少從2008年MOOC首次出現到2020年的全時間段,缺乏對MOOC輟學涉及的研究方法、影響因素、預測方法、技術發展等的綜合梳理。為此,本研究搜集2008-2020年間輟學方面的研究文獻,對MOOC輟學研究方法、影響因素、輟學率的預測方法、預測技術等提供全面的系統綜述,以幫助MOOC研究人員更好地理解典型的研究方法、MOOC輟學原因,并為MOOC的未來研究提供建議。
系統評價是一種綜合的研究方法,能全面理解研究主題。本文使用的系統評價方法基于PRISMA原則[33]。本文遵循Cooper的程序進行系統綜述:(1)形成研究問題;(2)收集數據;(3)評估數據;(4)分析數據;(5)展示結果。
本研究的中文數據來自CNKI數據庫,英文數據來自Web of Science和Scopus、CNKI數據庫。同時,數據的收集必須滿足以下條件:第一,文獻發表于2008-2020年間;第二,研究涉及MOOC輟學或是MOOC課程完成方面的內容;第三,以學術期刊而不是書籍章節、博客、報紙文章等形式發表;第四,使用“MOOCs”“MOOC”“大規模在線公開課程(massive open online courses)”“輟學(dropout)”“課程完成率(course completion)”“課 程 保 留(MOOC retention)”等關鍵詞來篩選文獻;第五,每項研究最好是全文文獻,或者是至少可以獲得文章完整特征信息(作者、關鍵字、國家、年份、標題、出版物類型和引用)和研究內容信息(研究目的、研究方法、理論使用、信息收集方法、分析方法、影響因素、編碼結果等)的文獻。為增強本研究可信度,由常李艷,劉婧兩位作者對期刊來源進行初步搜索。其中,一位研究人員直接利用主要的關鍵詞在3個數據庫進行搜索,獲得相關文獻并下載;第二位研究人員搜查5個發布MOOC研究最多的關鍵刊物(Computers and Education,British Journal of Educational Technology,Computers in Human Behavior,Distance Education和Educational Media International),將與研究相關的文獻資料整理出來。在初步搜索后,采用自動搜索和手動搜索來查找重復項,并剔除不相關文獻。為了提高有效性,由兩名研究人員分別使用納入和排除標準篩選文章的標題和摘要,然后對數據進行交叉檢查,討論各種差異,并就分析達成共識。圖1顯示了3個不同的選擇方面:識別,篩選和資格評估。2008-2020年間發表的符合要求的研究文章共有181篇。本文研究涵蓋MOOC從產生尤其是2013年至今(2013年前對MOOC的研究較少,對MOOC輟學的研究更少)關于MOOC輟學方面的研究方法、研究主題的發展變化。本文主要闡述4個方面的問題:有關MOOC高輟學率問題的研究方向是什么,MOOC輟學問題的研究方法有哪些,MOOC高輟學率的影響因素主要集中在哪些方面,MOOC輟學率預測的方法和技術的發展情況如何?

圖1 研究文獻選擇過程
為了獲得MOOC輟學研究方面的研究現狀,需要對每項研究進行編碼。每項研究記錄各種維度,如出版年份、標題、期刊名稱、一般研究方法(如定性、定量或混合方法),以及數據分析方法(結構方程模型、簡單描述分析、質性分析法、神經網絡分析方法),數據收集方法(調研問卷、訪談),平臺數據收集(點擊流、日志、帖子抓取)、實驗法(對照實驗、隨機實驗),研究重點(具體影響因素、評估指標等)和文章網址。此外,收集的其他相關信息還包括作者姓名、機構、地理位置等。編碼由兩位研究人員同時進行,使用具有協議一致性的代碼總數除以代碼總數來計算評估者之間的可靠性。所有項目的評分者之間的協議一致率為0.96,表明編碼規則和結果良好。第三名研究人員對提取的不一致編碼發表見解,通過研究人員之間的討論解決分歧。
3.1.1 研究方向
為對收集到的研究進行科學分析,將研究文獻歸類為MOOC輟學策略研究、輟學因素分析、輟學預測3個主要方面,以便根據研究目的對這些文獻的研究方向進行分類(見圖2)。本文依據研究目標側重點進行準確編碼,一般來說每篇研究文獻均有較為明確的研究目標,因此一篇文獻給定一個研究目的編碼類別。如果兩個編碼人員編碼不一致,引入第三者,根據多數贊同原則確定最終編碼結果。從現有研究方向統計看到,近50%論文對MOOC的高輟學率的影響因素進行了探索,約35%文獻立足通過各種點擊流數據和學習者學習行為數據對學習者輟學時間、輟學概率以及MOOC輟學率進行預測,約15%研究從內外部支持、課程設計、政府政策等方面探討促進MOOC發展以及降低輟學率的策略。

圖2 MOOC輟學研究方向分布
降低MOOC輟學率的方法措施的文獻主要從整體措施和課程設計等方面進行研究。針對提升MOOC保留率的研究主要是中文文獻,時間集中在2015-2016年,通過對輟學現象的分析,從學習者、平臺、MOOC課程設計、教師以及社會角度提出改善MOOC高輟學率的措施[34-35]。王甜提出利用微信排名、獎勵學分、學習積分等激勵措施,以及MOOC網站體系的專業培養計劃,避免學生盲目選課等平臺措施[36]。更多研究通過設計更加符合學習者需求的MOOC課程體系、平臺交互服務(課程論壇、師生互動功能)、游戲化等具體措施來探索降低輟學率[37-38]。例如,Goel等的研究專注于通過增強現實(AR)、自適應學習(AL)和游戲化改進MOOC的內容,提升MOOC對學習者的吸引力[39]。為驗證設計方案的優勢,研究中常用對照實驗或隨機實驗的方法,通過比較分析和驗證分析來驗證。例如,Bin等為提高課程保留率,提出一種根據MOOC課程的學習內容和社交網絡信息為學生推薦學習伙伴的模型,通過驗證分析發現該模型的使用顯著降低課程的輟學率[40]。同時,從表2可看出,MOOC策略研究中有34.78%的研究通過實驗法進行數據收集,定性分析比例達到約19.23%,簡單描述性分析比例為29.63%。
MOOC高輟學率的因素一直是學者研究的重點,尤其是2016年后研究從簡單的定性分析、實驗分析發展到通過科學量表調研進行結構模型分析或回歸因果分析。在MOOC輟學因素分析中涉及最多的理論是期望價值理論、自我調節理論、自決理論(SDT)以及動機理論,這些理論從參與MOOC動機、價值收益等方面解釋了學習者持續或放棄MOOC的原因[41]。通過表2看到,輟學因素分析中主要使用結構方程模型(16.47%)、回歸分析(17.65%)和簡單描述性分析(23.53%)等定量分析方法,希望從因果分析中發現影響MOOC保留或輟學的真實原因。Jordan對221門MOOC課程進行研究后發現,課程長度、課程設計(評估)以及反饋方面的時間因素是MOOC中學生輟學的主要原因[42]。Sun等通過擴展自決理論構建了學生參與MOOC的模型,通過PLS分析驗證滿足學生的能力需求、自主性需求、交互需求,并提供高質量的人際關系可以有效提升學習者的心理參與和行為參與,從而減少中途輟學[43]。

表2 MOOC輟學研究文獻的分析方法和數據收集分類匯總
2015年以后,很多學者開始專注輟學時間、高危輟學學生、MOOC輟學率的預測,希望通過提前預測輟學時間節點和有退出風險的學生,使MOOC領導者和輔導者能夠采取有針對性的課程設計和向此類學習者提供個性化的干預措施來提升MOOC保留率。為了開發強大而準確的預測模型,研究人員通常會參考學習者的導航點擊以及他們與平臺的交互數據流來提取MOOC學習者的特征[33]。點擊流數據(63.64%)反映了學習者在MOOC平臺上觀看視頻的點擊、時長、轉換等各種行為,是研究者最常用的數據來源。然而,輟學現象需要更多的預測因素和廣泛的具體變量才能獲得更可靠的結果。因此,后來的研究者將學生的論壇交互數據、完成課題測驗的頻次、正確率等學習行為數據、人口信息數據以及個人態度情感數據(通過調研問卷或訪談收集)等變量加入預測模型,并通過機器學習、生存分析等方法獲得預測結果。根據表2統計結果,超69%的文章使用各種機器學習方法進行預測,此外,定量分析是主要的分析策略,基本沒有單純定性分析的研究。
3.1.2 MOOC輟學研究的整體分析方法
MOOC輟學研究從前期的策略研究到最近的影響因素分析和輟學類別預測、輟學時間預測,研究方法從MOOC初期的現象介紹、簡單描述分析到通過結構方程模型進行輟學機制研究,通過MOOC平臺的用戶日志及平臺數據進行輟學可能性預測,到通過多維數據(日志數據、過程數據以及調研數據)進行學生輟學的持續預測模型研究,MOOC輟學研究中數據來源和研究方法隨著研究發展持續更新。本節對181篇文獻的研究方法和數據來源進行統計,展示MOOC輟學研究中研究方法的整體分布(見圖3)。基于客觀數據的分析是MOOC輟學研究的特色。常用的數據收集方法有:(1)調研問卷,問卷內容包括一般基本信息和測量量表,一般通過網絡發放問卷。(2)用戶日志或網站的用戶點擊流數據,點擊流數據詳細記載了用戶的登錄、退出、點擊、視頻中斷等信息,是分析用戶行為特征,進行用戶輟學預測的主要數據源。(3)通過MOOC平臺收集用戶的測試數據以及通過程序抓取用戶的論壇數據信息,這些數據是總結輟學學習者特征、發現輟學原因以及進行輟學預測的數據源[44];(4)訪談和實驗數據,二者也是研究中常用的數據來源,訪談主要用來進行影響因素提取,實驗法主要通過對照和隨機實驗驗證MOOC平臺設計、課程內容等在提升MOOC參與度、降低MOOC輟學率方面的效果。對分析方法按照定性、定性定量、定量等類別劃分,發現當前MOOC輟學研究的主流分析法是定量分析。從主要分析方法來看,由于預測分析對機器學習方法的側重,使其成為使用最多的分析方法;其后是簡單描述分析和因果分析中常用的回歸分析;再次是探索影響因素中常用的結構方程模型,以及訪談、文獻調研采用的人種學、內容分析等質性分析方法。此外,一些學者還使用聚類分析、關聯分析、仿真分析、可視化分析等方法進行研究。

圖3 研究中的主要分析方法和數據收集方法
對探尋MOOC輟學影響因素為主要目的的88篇研究資料以及策略研究中明確涉及影響因素探討的26篇文獻進行影響因素編碼,對編碼標準化并匯總后發現,共有23個因素在MOOC輟學研究中反復出現(見表3)。根據Henderik、Josek等對影響因素的總結研究,本研究提取了23個因素,經3位研究人員討論可分為3個一級類目5個二級類目:用戶因素(個人因素33.65%,心理因素41.35%),課程環境因素(課程因素70.19%,平臺因素12.50%,教學過程因素14.42%),社會環境因素(49.04%)。由于下一節將對輟學預測進行詳細分析,并且輟學預測主體并不在影響因素里探討,因此本研究中MOOC輟學因素的抽取并未統計MOOC輟學預測類文獻中的預測因子和指標。預測MOOC輟學類研究使用的指標和因子主要是點擊流以及學習者網絡學習行為數據,這些指標應屬于個人因素中的MOOC參與度和學術能力。如果添加這類文獻資料,那么個人因素將成為最有影響力的因素,其次是課程因素和社會環境因素。

表3 MOOC輟學主要影響因素匯總
3.2.1 用戶因素
(1)個人因素。退出MOOC大多與個人特征、環境、社會狀況、學習中缺乏互動等有關[45]。個人特征是影響MOOC完成的關鍵因素。某些個人因素,如學術能力、MOOC的先前經驗、性別、年齡、自主性、自我調節與個人輟學有關。Chen等發現在天文學MOOC中年齡較大的學生輟學率較低[46]。Lee等發現最明顯的輟學因素可能與個人學術和學習技能、先前的經驗有關[47]。Labrador等通過對15種MOOC的輟學情況進行研究,發現個人特征因素,如性別、年齡、受教育水平與MOOC輟學緊密相關[48]。Khalil等發現,個人因素中學習者的先前經驗以及學術能力(在線技能、教育水平)是導致MOOC損耗率高的最重要指標[49]。Hone等研究證實個人的MOOC學習經驗對其保留水平有影響[50]。
自主性使學生能根據需要和愿望來決定他們選擇MOOC中關注的內容。具備自主性的學生更有可能參與課程活動(行為參與),在理解材料方面投入更多精力(認知參與)[51]。而參與是學習動機的體現,意味著學習者將精力投入學習過程中以實現期望的學習目標,MOOC參與包括行為參與(自愿參與學術/課外活動、論壇討論)、認知參與(概念化為學生對所教授主題內容的理解)[43]。行為參與尤其是課程觀看、測試完成等是預測MOOC輟學的關鍵個人因素[52]。Lan等研究發現,具備認知能力的MOOC參與者完成MOOC的可能性比那些沒有認知能力的MOOC參與者高出1.2倍[53]。此外,缺乏自我調節學習(SRL)技能會使學習者在無向導、給予充分自主性的MOOC學習環境中難以成功[54]。自我調節是學習者控制自己的學習過程以實現擬定學習目標的過程,Rostaminezhad等對223名學習者的研究結果表明自我調節與學習者輟學之間存在關聯[55],缺乏SRL技能可能是導致MOOC輟學的重要因素[56]。
(2)心理因素。心理因素是學習者進行MOOC學習的動機、情感以及選擇MOOC的感知預期。在在線學習環境中,動機起著至關重要的作用。在MOOC環境下同樣發現,如果學生有學習的動力,那么更有可能完成課程[42,57]。在MOOC中,關于內在動機、持續性以及成就的積極作用的研究已經達成共識[58]。MOOC學習者具備獨特的動機,如參與終身學習、娛樂、便利或體驗[59]、獲得MOOC證書[38]等。如果學習者認為MOOC內容將對未來職業或研究有所幫助(功利性動機),那么往往會傾向于完成MOOC[60]。情感是指學生與機構、教師、同伴和MOOC內容之間的情感聯系,包括學習MOOC的享受、興趣、滿意度、樂趣、好奇心、成就感等,積極的情感可以提升學習者的學習動力,提升MOOC保留率。Dai等從期望確認模型的視角展開研究,發現學習者的態度、好奇心與滿意度顯著影響MOOC學習的持續性[61]。
3.2.2 課程環境因素
(1)課程因素。與課程因素相關的課程設計、內容難度、課程資源、時間以及承諾被視為導致學生輟學的關鍵因素[62]。Tang等發現良好的課程設計可以幫助學習者制定合適的學習策略,從而提高MOOC的完成率[63]。在課程設計時引入增強現實、游戲化、協作學習等技術,可以有效提升學習者興趣,提升MOOC的保留率[64,53]。而學習內容的難度和課程持續時間則對學生完成在線課程產生負面影響[65],較長的課程時間可能會使學習更加困難,從而導致較低的完成率[32]。同時,課程資源的靈活性[38]、豐富性、高質量會對降低課程輟學率有積極作用[66]。多個研究表明內容的質量對學生的動機和整體參與度產生了積極的影響[67]。Feng等發現某些課程因素(如課程設計、時間和課程難度)是MOOC學生輟學率高的關鍵因素[68]。Greene發現學生的投入水平與高輟學率密切相關,不確定自己對課程投入的學生比打算完成課程的學生更有可能退出課程[69]。此外,MOOC的費用低部分導致了學生的高輟學率,當學生發現課程既不具挑戰性又浪費時間,而入門課程低成本或零成本時,可能會從一門課程轉向另一門課程。學生對課程的低投入可能是因為該課程是免費的[70]。
(2)教學過程因素。教學過程環境主要從學習者外部探尋影響其輟學的因素,包括學習者學習中收到的教學干預、教師的及時反饋、教師個人特征(如授課質量、教學偏好、獨特的教學設計)等。Barak等指出MOOC開發人員可以設計獨特的學習環境,并為學習者實現目標提供必要的手段[71]。對MOOC課程的學生進行調查發現,由于動機低、反饋差、時間不足和內容復雜,部分學生無法完成學習。Halawa等指出,教師提供的反饋較差是MOOC課程中學生輟學的重要預測因素[72],從教師處獲得的反饋與學生完成在線課程緊密相關。Hone構建MOOC輟學的影響因素模型,證實MOOC的保留情況受MOOC的教師效應(如教師與學習者互動、教師支持、教師反饋以及教師的積極態度)的影響[50]。徐振國等提出教師與學習者缺乏互動、講課枯燥、解答問題不及時等因素影響學生的輟學行為[73]。Yeomans等在課前調查中實施了一項干預措施,并測量了干預對課程完成的影響[74],而Davis等通過將干預措施整合到課程環境中,而不是整合到課前調查中,使課程內容與干預措施之間的聯系更加緊密,對MOOC完成產生顯著影響[75]。
(3)平臺因素。MOOC平臺的設計和服務、可訪問性,以及對最新技術的應用也是影響輟學的因素。MOOC平臺設計的易用性、內容的個性化等提升了MOOC保留率。很多低速寬帶國家學生經常抱怨上網困難[60],隨著技術的發展,學習者是否可以通過Internet以及移動設備便捷訪問課程[76],MOOC是否集成其他媒體格式(如超鏈接、文本、圖像、圖表和動畫等)影響到學習者的MOOC保留率。Yousef將MOOC界面設計以及是否有社交功能作為評價MOOC是否成功的質量指標[77],Kaabi提出MOOC提供戰略性的個性化設置,有助于成功學習[78]。
3.2.3 社會環境因素
與內容、同伴和導師同步或異步地進行互動能幫助學生加深對學習主題的理解,因此學生社交互動/溝通不足可能會觸發他們退出學習活動的意圖[79]。MOOC一些研究強調協作、社會學習的重要性[80]。在MOOC背景下,學生與課程的互動水平可以用來預測他們從在線課程中輟學的意愿[71]。Kizilcec等發現與朋友一起注冊的學生比同齡人參加課程的可能性更低[81]。Santos等發現當向學生提供互動工具時,他們會更頻繁地參與交流并與他人更好地協作,增強學生的學習動機[82]。Appiah-Kubi等認為社交對學生學習體驗存在影響[83],從家人、朋友或同事獲得的社會支持會直接影響學生完成在線課程的可能性,導致MOOC中的輟學現象。
綜上所述,個人、課程、社會等因素是影響學習者輟學的主要因素。一些學者也探討MOOC平臺、網絡收益、用戶偏好、感知稀缺性等因素。比如,Hone證實學習者對MOOC的感知有效性積極影響MOOC的保留率[50],Chen等發現學生MOOC學習和測試中的錯誤率與MOOC輟學率正相關,錯誤率越高的學生越容易輟學[46]。Kim等基于心理反應理論,提出限制在線課程的可訪問性和可重復性的措施可能有助于降低輟學率[84]。Li等研究發現,網絡外部性(網絡規模、感知的互補性、網絡收益等)對MOOC完成的影響隨MOOC使用時間的長短而變化[85]。
MOOC平臺生成了足夠的數據,其分析可以返回有關學生輟學的相關指標,因此是預測輟學的晴雨表。研究人員利用不同的數據分析方法對數據進行分析研究,找出規律或輟學學生特征。分析方法和數據源的選擇(預測指標/變量)是預測研究的主要關注點。下面通過數據源和預測模型算法對MOOC輟學的研究進行闡述。
3.3.1 數據源
MOOC平臺擁有大量的注冊學生以及來自高校和各種社會機構的豐富課程信息。學習者注冊后可以自由選擇不同的課程和學習時間,以及決定是否參與課后和課間測驗。因此,課程持續一段時間后,MOOC會留下學生學習的大量活動信息,如注冊時間、個人特征、訪問的課程、視頻觀看的中斷、觀看時長、參加測試、參與論壇、課程評估、參與調研、課堂互動等。整體上來說用來進行輟學預測的數據大致可以分為3類:點擊流數據、MOOC平臺上的其他學習行為數據、外部調研數據。
(1)點擊流數據。點擊流數據涵蓋廣泛的學習活動日志信息,也是預測分析中使用最多的數據類型。這些數據包括:訪問次數、用戶上課的時間段數、學生在課程上花費的周數、上次訪問時間、注冊時間、總點擊次數、課程訪問間隔、不同類別資源(視頻、練習、課程提綱等)的訪問間隔、總參與時間或每個會話的平均參與時間、訪問了哪些頁面等[86-87]。
(2)MOOC平臺上的其他學習行為數據。這些數據基本可以從MOOC平臺后臺或者用戶日志中獲得,主要包括前面表2中的學習活動數據、論壇數據、平臺數據、日志數據以及注冊數據。其中,注冊數據中可以獲得人口統計學的特征變量(如年齡、受教育程度、地理位置、職業)。AI-Shabandar等開發的預測模型中,預測指標涵蓋年齡、性別等,用以預測學生的MOOC保留情況[88]。當然,人口統計學數據也可以通過調查問卷獲得,Greene等就使用調研的個人特征數據進行輟學率預測[69]。學習活動數據包括學習者與MOOC進行交互時的各種數據,如回答課中提問數量、回答正確的數據、參與和嘗試參與課堂和課后測試的次數、測試的試題數量/類型/正確率以及課后作業的提交情況、課堂綜合表現等[72]。論壇數據也是一種常用的數據類型,學者在論壇的參與(如學習者在論壇中的交互頻率、發布帖子的情感、收到的評論質量、情感、帖子的內容構成、學習者在課程論壇中的網絡地位等)是MOOC學生輟學預測的有效指標。David通過學習者帖子的好評、對課程的評估、嘗試測試頻率、未通過測試數量等數據進行輟學風險分析[89]。平臺數據涉及MOOC整個平臺,而不僅僅是某個MOOC課程的數據,如學習者在不同課程間的轉換信息、班級輟學的人數、用戶退出課程的數量(比例)、登錄/退出數據、在MOOC平臺上的時間等。Xing等利用輟學周、討論帖數量、論壇瀏覽次數、社交網絡度、活動天數等數據作為MOOC學生輟學預測的變量[86]。
(3)外部調研數據。為了更加精確地預測,研究者在網絡日志數據的基礎添加其他影響MOOC輟學的變量,這些變量通常與用戶的興趣、動機、態度、滿意度、期望、完成課程或獲得證書的投入有關,需要通過調研獲得相關數據。
3.3.2 預測模型
MOOC學生輟學預測是MOOC研究的一個趨勢,在過去的幾年中,一些研究人員通過采用有監督[79]、無監督和半監督的機器學習架構和算法[90],開發了各種預測模型。從表2的統計顯示,提高MOOC完成率最常用方法是使用機器學習算法構建輟學預測模型,以根據學生的先前行為來預測學生何時停止上課或者那些學生輟學風險最大。由于各種模型采用的數據源和分析目的不同(風險學生識別、學生MOOC行為預測、輟學時間預測),因此采用不同的機器學習算法來進行預測。有些研究為了發現最優算法,在一個研究中會同時使用幾種模型進行預測能力比較。對文章中機器學習算法匯總(見圖4),發現截至目前神經網絡方法已經成為主要的預測算法,其次是回歸分析、隨機森林以及支持向量機。不同的算法在預測應用中有所差別。大多數預測研究使用點擊流數據作為處理對象,將學習者分為“輟學”和“沒有輟學”兩類。

圖4 預測所用機器學習算法匯總
這類預測一種是將問題視為一般的二元分類問題,然后使用邏輯回歸(LR),支持向量機(SVM)[91]、決策樹等傳統機器學習算法預測[92]。早期的這些預測使用固定時間段內可用的數據來構建預測模,可以預測某個學習者輟學的可能性,但無法在早期識別出那些需要立即干預的學生,也不支持針對這些高危學生的個性化干預,無法滿足MOOC這種逐步退出的學習環境[88]。隨后隨機森林算法、貝葉斯算法等多種算法的不斷涌現,一些學者開始比較多種算法模型或使用算法重疊來獲得較好輟學預測結果。Ye等將隨機森林與其他算法(如邏輯回歸、支持向量機和決策樹)進行了比較,以預測輟學情況,發現隨機森林始終比其他算法表現更好[93]。Feng等提出通過與神經網絡等幾種模型相比,發現非線性狀態空間模型(NSSM)可以取得卓越的性能[94]。而后來的梯度提升樹模型就是使用一組弱預測模型來生成一個強預測模型的集成學習算法,典型的用法是決策樹和回歸分析。
另一種是基于點擊流數據探索建立時間預測-輟學模型,以適應MOOC更好的干預設計。它將問題視為時間序列分類問題,并使用隱馬爾可夫模型(HMM)、神經網絡模型等序列方法來進行預測。這些臨時輟學預測模型不是使用固定期限的數據一次性識別所有風險的學生,而是使用前幾周收集的數據來檢測下一周的高危學生。
在多個領域取得比以往更好的效果后,深度學習也開始應用于MOOC中的輟學預測,而且成為近年來使用最多的方法。為了提升預測精度,一些學者使用更加復雜的遞歸神經網絡(RNN)、卷積神經網絡、并行神經網絡以及深度神經網絡模型進行預測,同時在數據源選擇上使用多源數據,如利用用戶日志結合調研問卷數據或者利用注冊信息結合MOOC學習行為數據等。Qiu等利用DP-CNN(端到端的卷積神經網絡)進行預測,實驗證明在數據足夠的條件下,該預測模型比相關的基線方法取得更好的效果[95]。CNN的最大優點之一是可以從原始數據中自動學習各種不可見的特征,而無需進行過多的手動處理。Moreno等研究發現,在預測中引入點擊流數據以外的其他與學習者練習互動相關數據,如自我調節學習序列等數據會獲得很好的預測效果[96]。此外,一些研究者將不同的算法進行疊加,獲得更加準確的預測。Chen等提出了一種新的決策樹和極限學習機(ELM)相結合的混合算法DT-ELM,該算法不需要迭代訓練,并且兼具決策樹選擇分類能力強的特征[90]。Xing等構建兩種算法—樸素貝葉斯網絡和決策樹堆疊的時間序列模型來預測未來幾周可能輟學的學生[86]。
在線課程尤其是MOOC,在疫情期間為全球學生提供優質的教育,幫助數以千萬計的學生在線完成學業。然而,MOOC的高輟學率一直是一個重要問題。本文通過對2008-2020年涉及MOOC輟學研究的相關文獻進行系統綜述,揭示MOOC輟學的影響因素和預測輟學的主要數據源和算法模型。通過文獻分析發現:輟學因素主要集中在用戶因素、課程環境因素、社會環境因素等方面。其中研究最多的是課程因素和個人因素,因此在提升MOOC保留率、降低輟學率的策略研究中,研究者提供的策略和措施集中于提升學習者交互、改進課程設計(如增強現實、課程反饋、視頻時長設計等)。MOOC輟學的研究方法主要是各種定量分析方法,如探索輟學因素的結構方程模型、描述統計分析等方法以及預測輟學概率的各種機器學習算法。預測算法經歷從簡單的單一算法(邏輯回歸、支持向量機、決策樹)向動態的包含時間序列的算法(隱馬爾科夫模型、神經網絡)以及多重疊加算法(如決策樹和極限學習機相結合的混合算法DT-ELM等)轉變。同時,算法的數據源也經歷了從最初僅采用單一點擊流數據到后來采用多種數據源(點擊流數據、課程測試數據、人口統計學數據、外部調研數據等)共同進行預測的轉變。