孫 琳,張巧榮,鄭婭峰
(河南財經政法大學計算機與信息工程學院,河南鄭州 450046)
大規模網絡開放課程(Massive Open Online Courses,MOOC)作為一種新興的教學模式,憑借其優質的課程資源、開放的教學方式、廣泛的課程受眾面和課程參與的高度自主性等特點,自2011 年誕生以來在全球范圍內迅速發展,為各大高校教育提供支持,為現代教育提供了廣闊的發展前景[1]。
在傳統教育方式中,學生群體來源比較單一,學習者學習動機相似,學習能力和認知水平大致相當。基于以上特點,傳統學校的教學方法和測評方法也相對一致。但這些在MOOC 環境下有了很大變化:由于MOOC 的受眾面極廣,學習者學習動機、知識背景和學習能力都存在很大差異;在具有海量學習者的在線課堂平臺中,傳統學習測評方法并不適用[2-3];由于使用了互聯網進行在線學習,學習者在MOOC 平臺中產生的學習行為都會以數據形式被記錄下來[2]。基于以上特征,目前大多數在線課堂平臺都無法在教學模式和平臺設計上滿足不同類型學習群體的實際需求,因此,通過數據挖掘和統計學技術對MOOC 平臺中產生的海量數據信息進行分析,探究學習行為與學習效果之間的關系具有重要意義[4]。
本文以MOOC 主流平臺之一——edX 平臺上發布的16 門課程,60 余萬人次的學習行為記錄數據集作為數據來源,采用統計學方法和數據分析方法對MOOC 平臺中特定用戶群體的群體特征及學習行為特征進行探索和關聯分析,為基于MOOC 平臺設計和開發個性化學習管理體系提供參考,讓不同類型的學習者都能獲得良好的在線學習體驗。
如今,各大MOOC 平臺,如國外的Coursera、Udacity、edX 和國內的網易云課堂、中國大學MOOC、學堂在線等,都各自擁有獨特的學習管理系統,并開發有數據收集與分析系統,這為研究者深入分析MOOC 學習者行為提供了數據支持。
國外對于MOOC 的研究重心主要在于MOOC 平臺設計與開發、課程完成情況、學習者分類等方面[5]。Fu 等[6]從MOOC 論壇帖子、用戶和線程3 個不同的維度,研究MOOC 論壇的時間模式,設計并開發交互式可視化分析系統;Rodrigues 等[7]通過聚類分析識別學習者在MOOC 課堂中的參與模式,幫助MOOC 平臺開發多樣化課程參與模式和個性化界面;Pursel 等[8]通過學習者觀看視頻數和論壇互動次數等探究課程完成率;Tseng 等[9]利用平臺中的學習行為數據對學習者進行分類,并分析不同類型學習者的課程完成率;Ho 等[10]分析edX 平臺上的慕課學習者,統計其各項背景特征以及不同類型學習者的課程參與度。
國內對于MOOC 的研究主要包括學習行為特征分析、學習效果影響因素、學習效果預測等方面。程志君等[11]利用edX 提供的開放數據,對相關課程學習者行為進行分析,確定不同類型學習者的行為特征,并結合其背景信息進行關聯分析;賀超凱等[12]對edX 平臺開放數據中的學習行為記錄進行分析,預測學習者是否可以完成學習任務并獲得證書;王萍[13]利用MOOC 平臺提供的開放數據,分別從性別、教育背景、年齡等用戶信息方面探討中國學習者的學習行為;蔣卓軒等[5]以北大Coursera 上開設的6 門慕課約8 萬多人次學習行為數據為基礎,對學習者進行分類,考察其學習行為與學習效果之間的關系并預測學習成果;張大胤等[4]利用Canvas Network 提供的開發數據集,從學習者類型、學習者特征和學習者行為3 個方面分析特定學習行為特征與學習結果之間的相關性。
由上述分析可知,目前實證研究大多面向全體MOOC學習者,對學習過程中的變量進行統計分析,研究其相關性并進行預測,但對于不同的MOOC 受眾群體,其學習目的與興趣、學習能力與學習方式都具有很大差異性,需要針對不同類型的學習者,分析其特有的學習行為偏好并開發出具有針對性的學習管理模式。本文在參考已有研究工作的同時,對edX 提供的學習行為記錄數據進行探索分析,發現在MOOC 學習群體中具有本科學歷的學習者占比最高,但學習效果卻最差。針對此現象,本文利用數據挖掘方法和統計分析方法,從不同維度探究本科學習者在平臺中的學習狀況以及該群體的學習行為特征與學習效果之間的相關性,從而為MOOC 平臺的課程開發和學習管理體系改進提供借鑒。
本文研究數據來源于edX 平臺于2014 年發布的一項數據集,記錄了2012-2013 學年秋冬春3 個學期內哈佛大學和麻省理工大學edX 平臺開設的16 門課程數據[11]。該數據集一共包含641 138 行信息和20 個列項,考慮到樣本缺失問題,本文對原始數據進行整理,剔除有缺失值的樣本,得到540 978 組有效數據。
在開放數據集中,每一行項描述了一個學習者注冊一門課程的學習記錄,每列項描述了學習者基本信息或學習特征,這種數據信息也可歸為“Person-Course”類型[13]。本文將主要的列項整理合并為課程信息、用戶基本信息、用戶學習行為信息和用戶學習結果信息四大分類,具體數據集描述如表1 所示。

表1 數據集描述
本文研究使用的原始數據集中共包含課程—學習者記錄641 138 項,刪除“incomplete_flag”值為1 的不完整性數據后,有效記錄為540 977 項。對有效數據中學習者的基本信息進行統計分析,有效數據中用戶學歷分布如圖1所示,不同學歷者獲得證書的概率分布如圖2 所示。在此基礎上,本文選取“LoE_DI”值為Bachelor’s 的本科生用戶數據進行研究,得到分析數據185 832 項。
針對本科生用戶數據集,本文主要選取一系列包含用戶學習行為信息的指標進行統計分析,探索該群體的學習目的、興趣與學習者類型分布情況。同時,利用包含學習行為信息和學習結果信息的記錄項實現相關性分析,從多維度展示本科生學習者在MOOC 平臺中的實際學習狀況。

圖1 用戶學歷分布

圖2 不同學歷用戶獲得證書的概率分布
本文研究主要利用Excel 2016 對原始數據作初步清理和統計,通過數據透視表和數據透視圖進行描述性分析。同時,利用Python 語言和相關數據分析工具完成學習行為與學習結果之間的相關性分析。
通過檢索數據表項中課程代碼(course_id)項和證書通過(certified)項,結合課程代碼信息,經統計獲得本科生用戶課程注冊以及不同課程獲證概率分布情況,如圖3 所示(彩圖掃OSID 掃可見)。

圖3 本科生選課情況與拿證概率對比
可以看到,學習者注冊最多的課程是哈佛大學的《計算機科學導論》和麻省理工學院的《計算機科學與程序入門》,其次是哈佛大學的《公正》和《健康數據》,而麻省理工的固體化學、結構元素、力學等課程的注冊人數最少。從課程專業領域及內容方面區分,可以看出本科生傾向于選擇人文社科類和計算機類基礎課程。由于大學中幾乎所有專業的學生都需要學習計算機類基礎課程,因此選課人數最多;而人文社科類課程入門門檻低,適用范圍廣泛,且內容具有吸引力,也容易受到大眾的偏愛。麻省理工的物理化學類課程由于專業性強和難度高的特點,選課人數相對較少。
從獲證概率分布情況看,本科生用戶在《全球貧困的挑戰》《健康數據》和《公正》三門課程中的學習效果最好,獲得證書概率最高;而《計算機科學導論》《力學》《古希臘英雄》等課程的獲證概率最低,說明總體上人文社科類課程比其它課程更容易拿到證書。結合選課偏好,可以看到最受本科生用戶歡迎的計算機類基礎課程反而獲證概率最低,由于大學生中不同專業學生的學習風格不同,特別是文科生和理科生間存在較大差異[14],對于這類操作型和應用型相結合的課程內容,學習效果不僅與學習目的相關,受學習風格影響也較大。此外,麻省理工的化學類入門課程選課人數雖少但獲證概率排名靠前,可以看出本科生群體中存在一部分學習動機較強的專業型學習者,該類用戶注冊課程是為了獲得證書并提升自身專業水平。
通過分析MOOC 平臺上的數據,可以得出慕課用戶的學習動機主要包括興趣類和提升類[4]。MOOC 課程注冊時間可以分為3 種:開課前注冊、課程中注冊和結課后注冊。如果用戶在課程結束后注冊課程則只能學習課程內容,無法獲得課程證書[13]。可以認為,在課程開始前就已注冊課程的學習者,帶有較強烈的提升性學習動機;在課程中進行注冊的學習者,選課時帶有一定的提升性學習意圖,也可能出于對課程的好奇心;而在結課后注冊的學習者,其學習目的不是為了證書,而是出于其它各方面的需求或者興趣愛好。本文選擇了3 門熱度排名靠前但類型不同的課程:哈佛大學的《計算機科學導論》《健康數據》和麻省理工學院的《電路與電力》,通過統計學習者注冊課程的時間并結合課程的證書通過率探索本科生群體的學習目的,如圖3、圖4 所示(彩圖掃OSID 掃可見)。
通過對比分析發現,學習者的學習目的與課程類型和注冊時間緊密相關,并對學習結果有一定影響。對于計算機類基礎課程,學習者大多在課程中和結課后進行注冊,其中結課后的注冊人數占比高達34.3%,說明用戶選課是出于興趣和日后工作或生活需要;與之對比,67.11% 的學習者在《健康數據》課程中開始學習,開課前和結課后都很少有人進行注冊,說明人文社科類的新型課程吸引學習者的持續周期非常短,且學習難度較低,本科生帶有一定的提升性學習目的,或出于好奇心進行注冊,拿證概率較高;而對于《電路與電力》這類專業性較強的課程,超過半數的本科生在課程開始前就進行注冊學習,說明學習者的提升性學習目的非常明確,其動機包含參加課程考試并取得證書,但可能由于部分課程難度較大,學習效果一般。

圖4 本科生對不同類型課程的注冊時間分布
本文參考Ho 等[10]對edX 學習者的分類方法,通過數據集中的“registered”、“viewed”、“explored”、“certified”數據項,將具有本科學歷的學習者分為4 種類型[10],并計算各類型學習者比率,得出學習者類型分布,如圖5 所示。此外,結合數據集中的“nevents”、“ndays_act”、“nplay_video”、“nchapters”、“grade”等數據項,分析不同類型學習者的學習行為和學習結果。

圖5 本科生學習者類型分布
第1 類:僅注冊者。該類用戶注冊課程后,并沒有產生任何學習行為,登錄訪問課程的次數極少或不再訪問。該類用戶并沒有足夠的學習動機,或在訪問課程主頁后未產生學習興趣,本科生學習者中僅注冊者所占比例為43%。
第2 類:一般學習者。該類用戶在注冊課程后訪問了課程主頁并偶爾登錄,對課程內容的學習不到一半,互動和視頻觀看次數極少,且都未獲得證書,課程成績平均分為0.008 7。這類學習者好奇心強,但缺乏持續學習動力,學習效果較差,可以認為他們參與學習的主要目的是體驗課程。一般學習者在本科生用戶中所占比例最高,為51%。
第3 類:積極學習者。用戶注冊課程并訪問了一半以上的章節內容,與一般學習者相比,其觀看視頻數、互動次數和論壇發帖數有明顯提升。本科生中的積極學習者占比為4%,課程平均成績為0.15。該類用戶的學習熱情較高,但投入精力有限,可以判斷他們的學習動機主要出于興趣和其它方面的需求,帶有一定提升性目的,期望能夠獲得認證,但效果一般。
第4 類:獲得證書者。課程結束時用戶基本訪問過所有章節內容,登錄次數和視頻觀看次數都遠遠高于前3 類學習者,并產生大量互動學習行為,均參與課程考試且獲得證書,平均成績為0.83。很明顯,該類學習者注冊課程時帶有強烈的提升性目的,且投入大量的熱情和精力進行學習,在本科生學習者中占比僅為2%。
通過對各類型學習者的學習行為、目的及結果進行分析發現,本科生用戶群體大多為一般學習者和僅注冊者,這與大學生好奇心較強,但自主學習能力較差的特點相關,同時也反映出當前MOOC 學習環境中缺乏有效的針對此類學習者的教師指導和約束學習機制。此外,對比各類型學習者的學習行為與結果,可看出互動式學習行為對學習效果影響較大,是不同類型學習者的主要差距所在。
本文研究采用皮爾遜相關分析方法對學習行為和學習結果的變量進行兩兩相關分析,分析結果如圖6 所示(彩圖掃OSID 掃可見)。皮爾遜相關系數(Pearson Correlation Coefficient)是一種線性相關系數,用來反映兩個變量之間的線性相關程度。相關系數r 描述了兩個變量間線性相關強弱的程度。計算方法如式(1)所示。

其中,相關系數r 的取值在-1 與+1 之間,當r 為正值時,表明兩個變量是正相關;當r 為負值時,表明兩個變量是負相關;當r 的值為0 時,表明兩個變量間不存在線性相關關系。r 的絕對值越大,表明兩變量間的線性相關性越強,在圖6 的相關矩陣中顯示顏色越深。

圖6 Pearson's r Correlations Matrix
如圖6 所示,皮爾遜相關分析矩陣顯示,數據集中的各學習行為指標均與證書獲得呈現不同程度的正相關性。其中,“是否探索課程(explored)”、“訪問章節數(nchapters)”、“參與互動天數(ndays_act)”和“課程互動次數(nevents)”與學習效果呈現顯著相關,且變量間也同樣呈現高度相關性;“播放視頻數量(play_video)”與學習效果呈現中等程度相關;“論壇發帖數(rum_posts)”和“是否訪問課件(viewed)”與學習效果呈現弱相關。由此可見,本科生學習者的學習結果主要依賴于對課程內容的高參與度和互動學習行為。
通過數據描述性分析發現,準確判斷每位本科學習者參與課程的目的、課程學習證書對其激勵程度等往往較難,學生當時的學習狀態、內部本能推動、人生觀和外部環境刺激等,這些都反映在各種學習行為的差異上。部分學習者會將MOOC 當作傳統必修課程認真學習;部分學習者只將MOOC 當作一種學習參考或者在線工具,其交互特點也呈現出不同步性和選擇性[3]。
總體而言,本科生用戶對人文社科類和技能入門類課程有強烈好奇心,選課態度十分積極,但是學習效果普遍不明顯。主要表現為對課程內容的訪問探索行為和參與平臺互動行為過少,而這兩種行為特征對學習結果的影響較大。引起該現象的原因如下:一是學習動機不足,目的性不太明確;二是課程內容吸引力不足,大部分學習者在訪問了課程主頁后便失去了繼續學習的興趣;三是本科生自律性較差,不能做到持續學習,且互動式學習行為過少。
因此,針對本科生這類用戶群體進行課程開發和學習管理體系構建時,有如下建議:①調查本科生用戶學習需求與興趣,結合其知識結構和學習能力,針對大學生好奇心較強的特點,開發入門門檻較低的人文社科類和技能基礎類課程,并提高課程質量和吸引力,例如,在平臺中增加一些新型課程和專業類課程的先導課程、打造金牌講師等;②MOOC 的優勢在于對學習者行為進行全過程的跟蹤和記錄,因此“學習風格前測+學習行為引導模式”可引入MOOC 設計中,實現動態自適應學習[14]。例如,在課程開始前讓學習者完成有關學習方式和知識水平的測試問卷、針對不同專業和風格的本科生設計不同的學習行為引導方式;③建立學習激勵模式,增加本科生對章節內容的訪問量,提升其課程參與度,例如,制定積分制度,當用戶完成一定章節的訪問學習時,可得到積分獎勵;在課程中設置分段學習目標,提高用戶學習動力,將一般學習者轉變為積極學習者;④創建良好互動學習環境,增加論壇和學習小組活躍度,提升用戶互動式學習體驗,例如:針對每個課程安排助教或管理員進行適當管理和激勵工作,促使用戶多產生互動學習行為;根據本科生不同類型的學習者創建混合型互助學習小組等;⑤基于本科生用戶的最大需求點,采用線上和線下相結合的學習模式開展計算機基礎課程學習,通過理論與實踐操作相結合,提升課程教學效果,例如,結合各高校的課堂理論學習內容,開發個性化課程助手、線上練習工具和測試工具。
本文聚焦于MOOC 學習者中本科生群體的用戶特征及學習行為,基于一個更全面的框架定義本科學習者的類型特征及學習行為變量,通過一系列描述性及相關性數據分析,一定程度上展現了該用戶群體的在線學習狀況,對其學習目的與興趣、學習行為與學習結果的相關性進行探索分析,具有代表性和客觀性。研究發現,具有本科學歷的群體在MOOC 平臺中的學習意圖有其獨特性,各學習行為導致的效果也表現出一定的群體性特征。MOOC 建設者可以根據這些特點有針對性地設置課程內容和互動環節,從而提高學習者的學習熱情和學習效果。但由于數據集中對用戶信息及行為特征的變量不足,本文對學習者學習意圖的分析仍然存在一定局限性,如:缺少學習者的專業或工作相關信息、缺少論壇交互信息、與學習行為相關的變量間依賴性過高等。本文研究主要針對在線平臺中產生的結構化用戶數據進行分析,對于全面展示學習者的學習狀態,還需要結合其它非結構化的學習行為數據(如在線論壇中的文本內容)進行更深入的探究[15]。