王 萍
(上海大學 計算中心,上海 200444)
2012年以來,MOOC的發(fā)展在不同層面引發(fā)著新的研究和思考。從開放數據的角度來看,MOOC大規(guī)模課程應用產生的海量數據為學習分析與教育數據挖掘研究提供了基礎。Coursera、edX等在創(chuàng)建系統(tǒng)時都已經考慮到大規(guī)模的數據收集和分析,并致力于進行教學研究。edX作為非盈利性在線學習平臺,在平臺數據開放和教學研究方面一直做著重要的推進工作。2014年 1月,哈佛大學和麻省理工學院發(fā)布了edX第一學年課程報告[1],2月,兩校進一步推出了Insights交互式數據可視化工具[2][3]。2014年 5月,哈佛大學和麻省理工學院聯(lián)合發(fā)布了經過整理的2012-2013學年edX平臺16門課程開放數據供全球研究者使用[4]。這也是第一個大規(guī)模MOOC開放數據,為研究者深入分析和研究MOOC學習者和課程提供了數據支持。
當前越來越多的中國學習者參與了MOOC課程學習。本文基于edX平臺開放數據,對edX平臺的學習者進行研究,通過數據分析,探索中外MOOC學習者的學習行為和特征。
開放數據源于科學研究和學術創(chuàng)新的要求,edX開放數據集包括2012-2013學年秋季、冬季、春季三個學期哈佛大學和麻省理工學院在edX平臺開設的16門課程數據[5]。
數據文件的每行數據描述了一個學習者注冊某一門課程的學習記錄,每列項為對學習者或學習行為的描述,提供了 20個列項。我們將主要的列項分為了四類,分別為課程信息、學習者基本信息、學習者類型信息、學習者行為信息,如表1所示。

表1 數據集描述
可以發(fā)現,此次開放數據集提供的數據信息只是學習者在edX平臺學習情況記錄的一部分,即主要提供的是對學習者學習狀態(tài)和行為的描述性信息,也被稱為“Person-Course”類型。
在大數據時代,用戶的在線數據包含著大量的隱私信息,隱私保護問題日益突出,隱私保護受到法律法規(guī)保護。因此,開放數據必須進行去身份識別(De-identification)過程,通過匿名化隱私保護技術對原始數據進行處理之后再提供共享與對外發(fā)布。
哈佛大學和麻省理工學院對edX平臺開放數據進行了去身份識別過程,通過一系列數據處理保護平臺學習者的隱私信息。在技術層面主要使用了 K—匿名技術,并進行了準標識屬性(Quasi-Identifiers)泛化和L—多樣化(L-diversity)處理,這也是關系K—匿名隱私保護模型有效性和數據質量的關鍵因素。edX數據集的匿名化處理過程如圖1所示,經過處理后,數量上相對原始數據集有所減少,對部分數據項的統(tǒng)計略有影響,但不影響整體性數據分析[6]。

圖1 edX數據集匿名化處理過程
我們研究的主要目標是基于edX開放數據集,探索中外學習者的MOOC學習情況,從學習者類型、學習者特征、學習者行為三個方面進行分析。
數據集中共有課程—學習者記錄641138人次,根據數據集中的“final_cc_name_DI”項,選取國家信息為“China”的學習者,共有5170人次。在學習者類型分析上,我們采取Ho等對edX學習者的分類方法,將學習者分為四個類別[7],如圖2所示。

圖2 學習者類型
數據集中給出的registered、viewed、explored、certified數據項給出了學習者的類型信息,并據此可以計算出各個類型學習者的數量和比率,如圖3所示。

圖3 學習者類型數量和比率
全球edX平臺的MOOC學習者獲取證書率僅有2.8%1,而中國學習者只有1.2%,并且中國學習者中獲取證書的學習者和積極學習者之和的比例為3.6%,遠低于全球的6.3%。因此在整體上中國學習者中積極學習者較少,特別是最后能獲取證書的學習者比例低,而一般學習者,即注冊課程后僅瀏覽了少量課程內容的學習者占據了大多數。
圖4描述了各個國家注冊學習者中獲取證書學習者比例,中國學習者1.2%的比例基本位于最末,僅僅高于摩洛哥和孟加拉國,而獲取證書最高比率的國家是西班牙,為8.4%。
(1)性別分析
已有 MOOC研究發(fā)現,在學習者中,男性學習者占有絕大部分比例。在中國學習者中,女性學習者相對全球其他國家的情況如何?分析發(fā)現,中國女性學習者的比例為28%,與全球女性學習者的平均比例27%基本持平。而在希臘(47%),菲律賓(41%)、印度尼西亞(35%),美國學習者(35%)中,女性的比例都超過了1/3。
有研究指出,一個國家女性學習者的情況與該國的性別平等指數有關[8]。我們使用最新的世界經濟論壇公布的全球性別差異指數(GGGI)進行了分析。全球性別差異指數從經濟、教育、健康、政治四個子項和總體指數分析女性的參與和地位。如圖5所示,可以發(fā)現女性學習者的比例基本與該國的性別平等指數相關,與該國女性整體的受教育程度相關。而在部分國家,如印尼、埃及、印度、巴基斯坦,女性參與網絡學習的情況明顯優(yōu)于該國整體的女性受教育情況。
(2)教育背景
在對MOOC的多項已有研究中,都指出當前MOOC學習者中大多數是已經具有本科學歷的學習者。我們分析了中國學習者的教育背景,如圖6所示。中國學習者主要集中在本科學歷的人群(62.2%),其次是碩士生(19.6%)和中學生人群(16.9%),而博士和低于中學學歷的人數很少。與其他國家相比,如英國學習者各個學歷分布之間相對較為均衡,在巴西和印度學習者中,中學學習者相對其他國家較多,而法國和西班牙學習者主要集中在碩士以上學歷學習者。
為了結合學習者教育背景進一步發(fā)現不同國家的特點,我們對已知國家進行了聚類分析(使用層次聚類方法),發(fā)現了四個明顯的類簇,如圖7所示。

圖4 各國獲取證書者比率

圖5 女性學習者比率與性別差異指數
● 類1:哥倫比亞,英國,希臘,墨西哥,摩洛哥
● 類2:加拿大,巴西,印度,孟加拉國,巴基斯坦,澳大利亞,美國
● 類3:菲律賓,埃及,印度尼西亞,日本,中國,尼日利亞
● 類4:波蘭,葡萄牙,烏克蘭,德國,俄羅斯,法國,西班牙
在類1中,碩士、本科、中學生三類學習者相對比較均衡;類2中本科和中學學習者比例較大,碩士學習者比例較少;在類3中,主要的學習者來自本科學歷的學習者,而在類4中,主要的學習者是碩士學習者。
(3)年齡分布
在所有學習者中,學習者的平均年齡是28歲,中國學習者的平均年齡為27歲。我們通過下圖對年齡分布進行了描述,如圖8所示。
可以發(fā)現:中國學習者主要集中在20~30歲之間,占了4/5的人數,其次是30~40歲和20歲以下的學習者,其他年齡段基本上沒有學習者。這與學習者的學歷分布情況基本吻合。而其他一些國家有50歲以上的學習者選修了MOOC課程,并且30歲以上的學習者還占有相當的比例,說明很多國外學習者為職后學習。
在數據集中提供了“注冊時間,最后登陸時間,課程交互次數,訪問天數,播放視頻次數,學習章節(jié)數,論壇發(fā)帖數”等數據項,可對學習者的在線學習行為進行分析。

圖6 中國學習者學歷分布

圖7 基于學歷信息的國家聚類

圖8 學習者年齡箱圖

圖9 三門課程的學習者課程注冊時間
(1)課程選課情況
全球學習者選課最多的是哈佛大學的《公正》、麻省理工學院的《計算機科學與編程導論 I》和哈佛大學的《計算機科學導論》。整體而言,人文社科類和計算機基礎類選課人數最多,而固態(tài)化學、結構元素、力學等課程由于專業(yè)性較強,選課人數相對較少。
(2)注冊課程時間
MOOC課程的注冊時間包括:開課前注冊、課程中注冊,以及課程結束后注冊。在課程結束后注冊課程只能學習課程,無法再獲得課程證書。因此學習者在課程結束后注冊課程,并非出于獲取證書的目的。我們選擇了 3門不同學科的課程:哈佛大學的《公正》、麻省理工學院的《計算機科學與編程導論》和哈佛大學的《人類健康和全球環(huán)境變化》,對學習者注冊時間進行了分析,如圖9所示。發(fā)現中國學習者在課程開課前選課的比例較小,而在課程開設期間選課的比例最大,在課程結束后繼續(xù)選課學習的平均比例也相對其他國家較大。
(3)注冊課程數量
在中國學習者中,有2位學習者注冊了12門課程,注冊10門課程的學習者有3位,我們對注冊多門課程的中國學習者進行了分析:高頻注冊者并沒有獲得證書,其中注冊7門課以上的學習者有16人,都沒有獲得證書;獲取證書的57位學習者中,有34人選修了1門課程,23人選修了2~6門課程,獲得證書的學習者平均選修了1.74門課程;有5位學習者在2門課程中都獲得了證書,這5位學習者平均注冊了3.8門課程。
在全球學習者分析中,我們發(fā)現類似現象。即獲得證書的學習者的平均選修課程在2門左右,獲得多個證書的學習者平均注冊約3門課程,而高頻選課者的證書率較低。
(4)學習參與
我們對數據集中學習者的訪問天數、播放視頻次數、學習章節(jié)數、論壇發(fā)帖數四項學習行為進行了分析,這些項目可以反映出學習者的參與程度,如圖 10所示。整體上,中國學習者的學習參與度低,基本在每項參與上都處于較低的位置。

圖10 學習者學習參與情況
中國學習者的平均訪問天數較少,訪問天數>=30天的,只有77人,說明中國學習者在edX平臺上活躍性不高。訪問天數>50的學習者更少,只有26人。另外所有中國學習者的論壇參與行為都沒有記錄,同樣的情況發(fā)生在其他多個國家。討論區(qū)主要活躍著少數參與性較高的學習者,而大部分學習者并不在論壇中發(fā)表言論。歐洲學習者學習行為最為活躍,如俄羅斯、西班牙學習者的學習參與度都較高,而亞非學習者學習參與度相對較低,摩洛哥、中國、巴基斯坦的學習者參與度最低。
(5)學習成績與學習行為
圖 11描述了中國學習者成績與所瀏覽的課程章節(jié)數的關系,大多數學習者只瀏覽了很少的章節(jié),沒有成績或成績很低。還有部分學習者瀏覽了較多的章節(jié)但也未獲取證書,這些學習者的學習目標不是獲取證書,而成績大于60分獲得證書的學習者一般都瀏覽了較多的課程章節(jié)內容,參與度也較高。
在中國學習者視頻觀看次數與學習成績的關系分析上,發(fā)現大多數學習者都沒有觀看或觀看了極少的課程視頻,即使包括一些課程取得滿分的學習者,觀看視頻也是0次1,60分以上的學習者的視頻觀看次數并沒有顯著增多加。有三個學習者具有大的視頻觀看次數,其中兩位都取得了95分以上的成績,而觀看次數最多的學習者為課程《生物學導論——生命的秘密》的1名學習者,但該學習者成績?yōu)?,同時該學習者在訪問天數、學習章節(jié)數等課程參與行為方面都很積極。因此有部分學習者,具有較高的課程參與度,但并未以獲取證書為目標。
通過對edX第一年課程開放數據的分析,edX平臺上中國學習者主要為具有大學學歷的男性,集中在20~30歲,平均年齡為27歲,女性學習者的比例為28%。中國學習者的證書獲得率為1.2%,低于全球平均率2.8%,積極學習者數量很少,約1/3的學習者注冊后從未學習過任何內容。中國學習者每門課程的平均訪問天數為3.3天,平均學習3章內容。獲得證書的學習者平均選修了2門課程,而注冊超過7門課程的高頻注冊者都沒有獲得證書。獲得證書的學習者一般瀏覽了較多的課程章節(jié)內容,但在視頻觀看上,成績較高的學習者也沒有顯著的視頻訪問增加行為。
通過數據分析,在中外學習者的比較研究中,發(fā)現中國學習者的學習情況不夠理想,主要表現在:學習者數量少、學習參與度低、學歷和年齡覆蓋面窄。

圖11 學習成績與所學章節(jié)數的關系散點圖
(1)從客觀角度分析,中國學習者在語言、網絡訪問等條件的限制,影響了學習者在 edX平臺的學習行為。如edX第一年課程中中國學習者只有1.2%的學習者獲得證書,而根據本土化MOOC平臺學堂在線的數據,在首批六門課程中有2.89%的學習者獲得證書[9],通過率明顯提高。在最新的“2014年慕課學習者調查報告”中,“語言困難”和“平臺訪問障礙”是學習者在“沒有學習MOOC的主要原因”中給出的兩個重要原因[10]。這些都說明了語言文化和網絡資源訪問問題確實是影響中國學習者的一個因素。
(2)除了客觀原因外,我們面臨的挑戰(zhàn)更多的是學習理念而非技術性問題。我國學習者對于一個需要高度自主和嚴格自律的學習系統(tǒng)適應度還不足。學習者也反映“自制力差或拖延癥”超過語言網絡等客觀原因因素,是阻礙學習的更重要原因[11]。而大量MOOC研究和實踐都表明:MOOC對學生的學習技巧尤其在信息素養(yǎng)方面有新的、更高的要求[12],選擇并堅持完成MOOC學習的學習者一般應具有較強的學習觀念、學習行為和自主學習能力。
(3)MOOC作為一種學習方式,當前在我國還主要以本科和碩士學習者為主。而MOOC的特性使其能夠作為有效的方式推動終身持續(xù)性、全民普遍性、學習自主性、方式彈性化的終身學習。隨著學堂在線、中國大學MOOC等本土化MOOC平臺的建設,如何充分利用MOOC增強國民學習,擴大 MOOC學習人群,促進我國終身學習社會的發(fā)展,還需要進一步的努力。如劉和海等[13]所提出的構建“中國式MOOC”,是一種可操作性和可移植性的設計、管理和運營模式。我們也欣喜地看到,在我國越來越多的中學生正在加入到MOOC學習中[14]。
在對 MOOC學習行為的分析中,學習參與行為、選課數量等與學習成績沒有直接的關系,其他研究中也發(fā)現了類似的規(guī)律。開放教育專家哈格德[15]也指出:相比傳統(tǒng)校園的學生,開放遠程學習的學生差異更為明顯,他們對課程設計決策和授課模式的要求不同。學分也并沒有成為MOOC學習者們的主要動力。
MOOC學習行為的差異性受到多個因素的影響,如參與課程的目標、獲取證書的渴望度、課程內容的滿意度、社交網絡的參與技巧、周圍環(huán)境的影響等。如心理學家Hull[16]將行為趨勢描述為:行為趨勢=習慣*欲望*激勵 3種強度的綜合,因此大量學習者退出的現象可能解釋為:新的學習模式還不為大眾所接受、沒有養(yǎng)成習慣、學習的欲望不強以及拿證書的激勵價值不高。基于數據的學習分析有助于對學習者學習行為盡量精確的理解和反映,探索課程中影響“教”與“學”活動的多維度指標并分析其效用,用數據和分析來作出更可靠的判斷,從而使用新的指標發(fā)現和理解MOOC數據中多樣的使用模式,提高對學習內容和學習平臺設計和改進的針對性和有效性。
作為第一個公開發(fā)布的MOOC數據集,edX數據集為研究者提供了寶貴的資源。本次數據集存在的問題主要包括:(1)數據集提供了對學習者部分學習情況的描述信息,但還缺乏時間、點擊流、作業(yè)測試等要素與交互數據,因此還無法對學習者的學習進程、學習交互、學習序列進行深入分析。但edX也已計劃在未來開放更多的學習者行為數據[17]。(2)個別信息的不一致性,如通過 IP地址和注冊信息對學習者國家信息的獲取可能不完全準確。雖然這些個別信息的問題不會影響整體分析得到的結論,但我們應當在分析中對數據的獲取來源和準確度有事先的分析。
MOOC應用產生的海量數據為教育領域的大數據分析與學習分析提供了基礎。由于本次數據集的特點,我們的分析大多為基礎的統(tǒng)計分析,而在將來教育大數據時代,還需要在技術算法和分析上深入探討。將大數據與小數據(即傳統(tǒng)的控制數據集)結合起來,創(chuàng)建對人類行為更深入、更準確的表達[18]。
[1][7]Andrew H, Justin R, Sergiy N, et al. HarvardX and MITx: The first year of open online courses[OL].
[2] HarvardX Insights [OL].
[3] MITx Insights[OL]. < http://odl.mit.edu/insights.>
[4][5] HarvardX-MITx Person-Course Academic Year 2013 De-Identified dataset, version 2.0[OL].
[6] Person-Course De-identification Process[OL].
[8] Emma Pierson, Chuong (Tom) Do. What about the women? [OL].
[9] 孫茂松. 清華大學MOOC實踐報告[Z]. 2014中國大學MOOC發(fā)展論壇.
[10][11][14]果殼網. 2014年慕課學習者調查報告[OL].
[12][15]斯蒂芬·哈格德.慕課正在成熟[J].教育研究,2014,(5):92-99.
[13]劉和海,李起斌. “中國式 MOOC”概念探討及平臺優(yōu)化策略研究[J].現代教育技術,2014,(5):81-87.
[16]蔣卓軒,張巖,李曉明. 基于MOOC數據的學習行為分析與預測[J].計算機研究與發(fā)展,2015,(3): 614-628.
[17] Phil H.No, I don’t believe that Harvard or MIT are hiding edX data[OL].
[18]David L, Ryan K, Gary K, et al.The parable of Google flu: Traps in big data analysis[J]. Science,2013,(3):1203-1205.