



[摘要] 采用數據挖掘技術,對北京大學在Coursera平臺開設的某門慕課的學習者行為數據進行深入分析。研究發現:總體而言,學員對課程任務的參與度高于討論區。學員可以聚類為“杰出型”“瀏覽型”“消極型”三簇特征群體。在線時長、小測成績、瀏覽網頁頻次等是影響完課學員最終成績的關鍵因素。基于此,針對慕課教學設計提出若干建議,如:設置獎勵機制以增強課程互動性、提供個性化的課程設置、調整小測的頻次和難度以發揮小測的促學作用、增加課程筆記等功能來提高學員瀏覽網頁的頻率和效果等。這些措施有助于提高學員的學習效果和滿意度,進而優化慕課教學。
[關鍵詞] 教育數據挖掘;在線學習行為;學業成就;教育大數據;個性化教學
[中圖分類號] G43[文獻標識碼] A[文章編號] 1005-4634(2024)05-0001-08
慕課,全稱“大規模開放在線課程”(Massive Open Online Course,MOOC),是一種通過互聯網向全球大量學生提供在線教育課程的教學模式。以Coursera為代表的諸多慕課平臺提供了豐富多樣的課程內容,也吸引了世界各地數量眾多的學習者。但是,慕課普遍存在的問題是低完成率和高流失率[1]。鑒于此,有必要深入分析學習者的學習行為,了解造成低完課率的原因,從而有針對性地提升課程質量,增強學生持續學習的動力。
教育數據挖掘是數據挖掘技術在教育領域的應用。數據挖掘功能包括描述性和預測性兩大類,描述性挖掘任務刻畫目標數據中數據的一般性質,預測性挖掘任務在當前數據上進行歸納,以便做出預測[2]15-19。常見的描述性數據挖掘功能有聚類、關聯規則挖掘、文本挖掘等;常見的預測性數據挖掘功能有分類與回歸等。聚類將一個整體數據集分成多個類別,每一類中都包含相似的一簇數據,不同簇之間的相似度較低;分類主要處理分類型標記,根據數據特征將其歸入不同的標簽或類別;回歸分析則是最常見的針對數值型變量的預測方法,通過建立回歸模型,試圖學習輸入數據和輸出之間的函數關系。
課題組選取了Coursera平臺的一門大規模在線開放課程,借助數據挖掘技術,深入剖析了學生的在線學習行為數據。該課程的選課人數眾多,學員來源廣泛,具有代表性。其研究成果將對慕課教學的優化與提升產生深遠影響,具有普遍的指導意義。課題組運用聚類分析方法,將學生劃分為不同的學習群體,以便了解他們的學習特點和習慣;通過回歸分析,課題組探究了影響學業成績的關鍵因素。具體研究問題如下:(1) 這門慕課的學員總體完課和參與情況怎樣?(2) 影響不同類型學習者的特征因素有哪些?(3) 影響完課學員最終成績的因素有哪些?
1研究現狀
隨著網絡技術在教育領域的廣泛應用,學習者在線學習行為和學業成效的關系成為教育技術領域的研究熱點之一。近些年來,國內外已積累了一些研究結果。
慕課學業成績影響因素的研究,歷來備受關注。預測慕課中學員成績的研究主要集中在慕課活動的頻率上[3]218-231。總體而言,慕課平臺上的活躍用戶展現出更為優異的學業表現。而關于學業成績的相關指標,學者們普遍認為主要包括瀏覽觀看的參與程度、任務完成的效率與質量,以及論壇討論的活躍度3類。有研究發現:作為慕課學習的重要組成部分,視頻觀看與完課率呈正相關[4]。除觀看視頻外,慕課通常要求學生完成測驗和作業,才能取得最終成績。學習者完成小測的次數與最終成績正相關[5]。相比瀏覽和作業,論壇活躍程度對成績的預測作用則較弱且頗具爭議。盡管有學者發現論壇發帖與慕課完成率正相關[3]218-231,但也有學者得出相反的結論[6]。
隨著研究的細化,學者們逐漸關注具體學科門類的慕課成績影響因素。如Martín-Monje 等對一門語言類慕課的學習者行為數據進行分析后發現:定期提交自動評分任務是預測課程成績的可靠指標[7]251-272。此外,大多數學習者是課程“觀眾”,他們更傾向于觀看視頻,較少完成其他課程任務,這也解釋了慕課完課率普遍較低的原因。
國內慕課研究積極與國際接軌,也發表了數量可觀的研究成果。魏順平采用教育數據挖掘的方法,分析了Moodle平臺某門在線學習課程的學習過程活動總體情況和特點,是國內較早的有關在線學習數據挖掘的研究[8]。賈積有等以北京大學6門開設在Coursera平臺的慕課為對象,分析了學員的上網行為及其對學業成績的影響,是國內出現最早的針對慕課的數據挖掘研究[9]23-29。陳蘭嵐和宋海虹使用數據統計和數據挖掘的方式,分別分析了Canvas Network平臺的238門慕課課程的學習過程和成績數據,雖然樣本量多、數據量大,但數據分析局限在以描述性統計為主的層面[10]。沈欣憶等建立了在線學習行為與在線學習績效評估模型,并通過抽樣逐步回歸,發現學生的作業完成比例、視頻完成率等行為對學習效果產生重要的正面影響[11]1-8。此外,楊小麗和韓雷總結了近年來國外慕課研究的現狀、特點和范式,并對國內相關研究提出了啟示和建議[12]75-79。國外國內的預測研究目前主要依賴于統計方法,更為先進的工具和手段還有待嘗試。
以上研究都表明,基于教育數據挖掘的用戶行為分析,有助于發現影響用戶學業成績的潛在規律,從而優化學習過程,促進教學效果的提升。然而,以往的研究在將描述性和預測性數據挖掘技術相結合方面鮮有突破,未能既充分關注到不同類別學習者的特征,又全面探討慕課成績的影響因素。基于這樣的背景,課題組以北京大學某門在Coursera平臺上開設的慕課課程為例,從平臺提供的學員行為數據入手,探究影響學習者課業成績的因素。課題組著眼于慕課完課率低的現實問題,為了給各類學習者提供個性化的教學建議,首先采用了先進的聚類算法,將學員劃分為多個具有不同特征的簇群。隨后針對已成功完成課程的學員,整合了目前研究者廣泛關注的3大類學業成績影響因素,深入探究了影響不同類別學習者成績的具體原因。課題組將教育數據挖掘技術與學習分析相結合,希望為慕課課程的設計改進和個性化教學提供依據,從而提升學習效果。
2研究設計
2.1數據來源
從方便取樣的角度出發,課題組選取了北京大學在Coursera平臺開設的一門課程的數據作為分析樣本。這門課程由北京大學一位經驗豐富、深受歡迎的專家型教師主講,注冊學員人數眾多且來源廣泛,課程采用線上教學模式。經任課教師允許,課題組從Coursera平臺獲取了課程數據,主要包括:15 168名學員的人口統計數據(如年齡、性別、國籍等)、論壇數據(如發帖、回復、投票等)、成績數據(小測成績、課業最終成績)、進度數據(學習者接觸某一課程內容時刻的事件數據)等。出于研究倫理的考慮,課題組在提及課程時,不公布具體課程名稱,而是以“某門慕課課程”來代替。
2.2數據分析
課題組對原始數據進行了清洗和篩選預處理,刪除了缺失值和異常值,并參考沈欣憶等[11]3的研究,將該課程數據劃分為學員基本信息、瀏覽信息、論壇參與、評估評價4部分。其中學員基本信息包含15 168名學員的注冊時間、開始學習時間、在線時長。瀏覽信息包含觀看視頻頻次、瀏覽網頁頻次、瀏覽講義頻次。論壇參與情況包含發帖和回帖次數、發帖和回帖得票、論壇聲望指數等。評估評價則包含平時小測成績及課業最終成績。
數據分析首先使用SPSS(26.0)對數據進行描述性統計,計算每項學習活動指標的人均均值、標準差、獲得該項指標的人數,以及其在所有學員中所占比例,描述各項指標的總體情況。然后使用WEKA(3.8.6)對全體學員數據進行聚類分析。WEKA是懷卡托智能分析環境(Waikato Environment for Knowledge Analysis)的簡稱,是一個JAVA環境下開源機器學習和數據挖掘軟件,提供了一系列的算法和工具,可以用于數據預處理、分類、回歸、聚類、關聯規則挖掘等任務。聚類分析采用同類研究中廣泛使用的K-means算法,seed參數設為10,并調整K值直至SSE趨于穩定。最后,為探究影響學員最終成績的因素,課題組按有無最終成績將學員分成兩類,先用SPSS軟件對全體學員和完課學員的行為數據分別進行相關分析,再用WEKA 軟件對完課學員的最終成績進行預測分析。在預測分析階段,先使用特征選擇功能對特征進行排序,后采用回歸算法構建在線學習成就評估模型,最后用神經網絡算法驗證特征選擇和回歸算法的結果。其中回歸模型如下所示:
y=α+x1β1+x2β2+…+xiβi+ε
式中,α表示截距,x表示自變量,β表示自變量的參數,ε表示誤差。
3結果與討論
3.1學員總體完課和參與情況
課題組首先對各項學習活動指標進行了描述性統計分析,結果見表1。選修這門課程的學生共有15 168人,其中最后取得學業成績的有1 620人,完課率為10.68%。課題組參考常規考試,將60分作為及格成績的閾值[9]25,那么在完課學員中,有581人取得高于(含)60分的學業成績,及格率為35.86%。及格學員占全體學員的比例為3.83%。
該門慕課行為數據的描述性統計情況如表1所示。由于該平臺日志僅記錄了用戶的登錄時間,而缺乏退出行為記錄,并且用戶關閉瀏覽器時并不會自動記錄退出時間,因此系統無法準確捕捉到用戶在線學習的時間長度。鑒于此,課題組借鑒前人的做法[9]25,參考常規教學時間來定義用戶的在線學習時間,將最后一次登錄課程網站的時間與注冊時間之差視為在線時長。本課程的學員平均在線時長為29.13天。平時小測是檢驗學員階段性學習效果的方式,約有四分之一的學員獲得了小測成績。瀏覽網頁、觀看視頻、瀏覽講義可幫助學生獲取課程知識和重要信息,大部分學生都參與了這三類學習活動。Coursera還設置了課程討論區,創設了師生交流互動的機會,學生可以通過發帖和回帖參與討論,也可以對討論區內的帖子進行投票,但學生在課程討論區的參與度總體較低。
3.2學員特征聚類
聚類分析是把相似的數據進行聚合處理,每個分類聚群成為一簇。為識別和描述不同學業成就慕課學習者的特征,并為預測最終成績的分析提供參考依據,課題組使用WEKA軟件對學習者行為數據進行聚類分析:選取在線時長等11項指標,采用K-means算法,將seed參數設為10。當K值設定為大于等于3時,SSE趨于穩定。因此,將學員聚類為3簇,誤差平方和為573.72,最終聚類效果較好。聚類分析結果有助于區分完課學員、高分學員和低分學員,為個性化教學建議提供堅實的基礎。同時,鑒于課題組重點關注的是學業成績影響因素,因此,在可視化分析階段,課題組將特別關注學員最終成績與聚類結果之間的相互關系。
聚類分析的結果見表2。每個聚類的中心點的坐標值表示該類的數據對象在每個屬性上的平均值,這些值有助于理解每類學習者的特征和區別。“杰出型”學習者的在線時長、小測成績、瀏覽網頁、觀看視頻、瀏覽講義、最終成績方面都明顯高于其他類型學習者。這意味著這類學習者在這門課中投入度很高,付出很多時間精力和努力,從而取得較高的課業成績,大多在及格分數以上。“瀏覽型”學習者的在線時長、觀看視頻、瀏覽講義、小測成績等指標都比較接近群體學員的均值。這可能表明這類學習者在慕課中的學習活動以瀏覽視頻和講義為主,對完成課程任務的興趣不大,最終很可能并未取得課業成績,或者只獲得較低的分數。“消極型”學習者的在線時長、小測成績、瀏覽網頁、觀看視頻、瀏覽講義、最終成績等各項指標都低于全體學習者的均值。這說明“消極型”學習者在該門慕課中整體投入度較低,并未付出足夠多的努力,最終很可能并未完成本課程全部學習內容,也并未取得課業成績。這一點與前人研究結論相似,大多數的學習者是課程的“觀眾”,取得成績并非其進行慕課學習的核心目標[7]266。
為了更直觀地探究聚類結果中三簇學員最終成績與學習行為的關系,課題組分別以每項行為指標為X軸,最終成績為Y軸,對學習行為因素和最終成績的關系進行可視化分析。橫向比較可視化聚類結果后發現:在線時長和小測成績是區分不同類型學習者最為明顯的指標,瀏覽信息相關指標具有一定的區分作用,而論壇參與相關指標在各簇學員之間的區別并不明顯。
如圖1所示,“杰出型”學員在線學習時長多數集中在100天以上,普遍長于其他兩類學員,這簇學員的最終成績也普遍較高,集中在及格分數以上。“瀏覽型”學員的在線時長雖然大多長于45天,但時長分布較為分散,他們的成績也普遍處在及格分數以下。“消極型”學員的在線時長在三簇學員中處于最低,課業成績也低于其他兩類學員,大多數人并未獲得學業成績。這說明學員在Coursera平臺的學習時長是區分不同類型學員的關鍵因素,學員在平臺進行課程學習花費的時間越多,就越有可能堅持學習直至完課,并取得高分成績。
如圖2所示,“杰出型”學員小測成績集中在180~290分;“瀏覽型”學員小測成績相對比較分散,在40~180分之間都有廣泛的分布;“消極型”學員的小測成績則更低,大量集中在20分以下。可視化結果非常直觀地呈現了小測成績和期末成績的正相關性:如果學員平時小測成績較高,那么其最終期末成績也較高。這說明慕課的小測任務在促進學習者的理解和記憶、檢驗學習成效、提高學習動力和自律性等方面都有著不可或缺的作用。積極參與小測驗的學習者往往能夠更有效地提升學習效果,取得良好的課業成績。這一發現與前人研究有相似之處[7]251-272。
對三類瀏覽信息行為(瀏覽網頁、觀看視頻、瀏覽講義)與最終成績分別進行聚類可視化分析,結果都表明:“杰出型”學員的瀏覽行為頻次相對比較分散。雖然“杰出型”學員的瀏覽行為普遍高于其他兩簇學員,但是確實存在一部分學員,其瀏覽行為頻次較低,卻也取得了較高的最終成績,也有一部分學員雖然瀏覽行為頻次較高,但最終成績并未集中分布在高分段。這說明,慕課學習者通過瀏覽課程網頁、觀看視頻、瀏覽講義,可以獲取更多的信息和知識,也能夠很好地理解和掌握課程內容,取得較高的成績。但是,學員的學習目標和習慣確實存在較大的個體差異:如果學員以取得高分為首要目標,他們可能會更加有選擇性地觀看與考試直接相關的內容,以提高學習效率;而某些學員則類似于傳統課堂中的“旁聽者”,其在線學習的主要目標是通過學習課程內容來獲取專業知識,并沒有把獲取較高的最終成績分數當作學習的核心目標。
課題組將論壇相關指標(發帖數量、發帖得票、回帖數量、回帖得票、論壇聲譽)與最終成績進行聚類可視化分析,均未呈現出明顯的內部相似性或者聚集趨勢。這一現象的出現很可能是因為,參與論壇討論的學生們的積極性普遍不高,導致實際的互動行為較少。因此,不同類型的學生們在論壇表現上的數據與其最終成績之間不存在顯著差異。這表明,對于這門課程而言,論壇的這些指標可能并不具備預測學生最終成績的能力。課題組將在下文中進一步結合預測分析的結果,對此進行深入探討。
3.3影響最終成績的因素
為進一步探索影響本門慕課學員最終成績的關鍵因素,課題組采用了預測性數據挖掘的方法。其核心在于學習樣本數據的輸入與輸出之間的關聯,并據此構建一個預測模型。模型旨在發現數據中的隱含模式和趨勢,并利用這些模式對未來的事件或結果進行預測。預測分析主要包括分類和回歸兩大類,分類適用于處理離散型的類別數據,而回歸則用于處理連續型的數值型數據。本研究中慕課的最終成績為數值型數據,適用于回歸預測,回歸分析也是預測模型中常用的方法[13]。
課題組按有無最終成績將學員分成兩類,用SPSS軟件對全體學員和完課學員的行為數據進行相關分析,用WEKA 軟件對完課學員的最終成績進行回歸預測分析。在WEKA軟件中,預測功能主要通過“分類(classify)”模塊下的多種算法實現,其中回歸和神經網絡算法便是代表性的例子。此外,WEKA還提供了“特征選擇(select attributes)”這一特征選擇工具,協助用戶從大量數據中篩選出最為關鍵的屬性特征。
相關分析常常在分類和回歸之前進行,用于識別與分類或回歸過程顯著相關的屬性[2]15-19。課題組將全體學員和完課學員的學業成績與各項學習活動指標進行相關分析,結果顯示:對全體學員來說,除發帖得票、回帖得票和論壇聲譽外,在線時長、小測成績、瀏覽網頁、觀看視頻、瀏覽講義、發帖數量、回帖數量等各個指標與最終成績均在0.01水平達到顯著相關。對取得成績的完課學員而言,在線時長、小測成績、瀏覽網頁、觀看視頻、瀏覽講義、發帖數量等各個指標與最終成績均在0.01水平達到顯著相關,回帖數量與最終成績在0.05水平顯著相關,而發帖得票、回帖得票、論壇聲譽與最終成績沒有顯著相關。
為探究影響完課學員慕課最終成績高低的關鍵因素,課題組使用WEKA 軟件對1 620名完課學員的最終成績進行預測分析。首先使用SPSS軟件進行多重共線性檢驗,計算自變量之間的方差膨脹因子,刪除造成嚴重多重共線性的指標“論壇聲譽”;然后使用WEKA的特征選擇功能,從數據集中篩選出排名前6位的特征:小測成績、在線時長、瀏覽網頁、瀏覽講義、觀看視頻、發帖數量;再使用WEKA預測功能中的線性回歸算法,建立預測模型;最后使用神經網絡算法,驗證預測模型。
線性回歸模型方程如下:
學習成績=0.011 7×在線時長+0.304 5×小測成績+0.003 9×瀏覽網頁-0.010 3×瀏覽講義-0.281 2×發帖數量+0.746 4
該模型相關系數為0.987 7,平均絕對誤差為3.853 9,根均方誤差為5.812 2,相對絕對誤差為11.122 4%,根相對平方誤差為15.595 8%。綜合來看,模型的相關系數很高,說明模型對數據擬合度很好。平均絕對誤差和根均方誤差較小,具有較強預測能力。線性回歸和特征選擇的結果幾乎一致,但是特征選擇結果中的“瀏覽視頻”指標并未出現在WEKA線性回歸結果中。這可能是由于完課學員的視頻瀏覽行為相對比較分散,因而無法成為預測最終成績的關鍵因素。
為進一步驗證線性回歸模型的結果,課題組使用神經網絡模型中的多層感知器算法,將特征選擇和回歸模型選擇出的上述5個特征納入分類器模型,得到分類統計模型表。該模型相關系數為0.987 2,平均絕對誤差為4.134 9,根均方誤差為5.951 8,相對絕對誤差為11.933 3%,根相對平方誤差為15.970 4%。綜合來看,模型的相關系數很高,說明該模型數據擬合度很好。平均絕對誤差和根均方誤差較小,具有較強預測能力。結合前文的線性回歸模型評估結果,兩個模型各個評估指標都比較好。
線性回歸模型和神經網絡模型的結果都表明:在線時長、小測成績、瀏覽網頁、瀏覽講義、發帖數量這5項指標,對學員的最終成績有較強的預測作用。其中,在線時長、小測成績、瀏覽網頁對最終成績有正向影響;瀏覽講義、發帖數量則會負向影響最終成績。預測慕課成績的正向影響因素與一些學者的研究結論一致[4]615-628。瀏覽講義對成績的負面影響可以用Anderson等人的觀點來解釋,有一部分學員可能是課程資料收集者,熱衷于在慕課平臺下載課程資料,而對獲取較高的課業成績興趣不大[14]。雖然有研究表明:在線互動是促進高水平知識建構、發展學習者能力和取得出色學業成就的重要策略[15],但本研究的數據分析結果并不能佐證這樣的結論。一個可能的解釋是學習者的論壇發帖不太可能增加學習者的認知投入,也不太可能產生多少真正有意義的內容[16]。
4結論與建議
課題組使用SPSS和WEKA軟件工具對北京大學某門慕課的學員行為數據進行數據挖掘。分析結果顯示:和大部分慕課類似,本課程完課率也較低。大部分學員都積極參與課程相關的學習任務,而在討論區討論的積極性不高。學員可以被聚類為“杰出型”“瀏覽型”“消極型”三簇特征群體,在線時長和小測成績是區分不同類型學習者最為明顯的指標。影響完課學員的最終成績高低的關鍵因素為:在線時長、小測成績、瀏覽網頁、瀏覽講義、發帖數量。
根據以上結果,課題組對慕課課程設計提出如下建議。
(1)針對學員積極參與課程學習任務卻在課程討論區討論的積極性不高的問題,建議在課程設計中增加課程討論區的互動性,鼓勵學員積極參與討論和交流。如可以采用設置獎勵機制、評選優秀發言或增加互動環節等方式來提高學員的參與度和積極性。此外,還可以組織在線互動活動,如直播講座、在線答疑等,以增強師生互動和學員參與感。
(2)根據學員被聚類為“杰出型”“瀏覽型”“消極型”三簇特征群體的結果,建議課程“注重慕課教學的個性化”[12]75-79,根據學員的學習特點和行為習慣,為其推薦適合的課程內容和學習方式,以滿足不同學員的學習需求,提高學員的學習積極性和學習效果。如可提供更深入復雜的學習內容、更具挑戰性的學習任務,以滿足“杰出型”學習者的需求。還可以鼓ToR6H7RDtPODEiT7/r4EKdbA4qUhkdo7pPXdyEBZKkY=勵他們參與高水平的討論和互動,促進其學術交流、挖掘思維深度。還可通過在平臺增加學習過程監測手段,如學習活動指數[17],引導“瀏覽型”學員制定系統的學習計劃,避免只停留在表面瀏覽的學習方式。此外,可提供更直觀、更易理解的學習資源,幫助“消極型”學員更好地理解和消化知識。設立更為明確的學習目標和激勵機制,激發“瀏覽型”和“消極型”學員的學習興趣和積極性等。
(3)為提高完課學員的最終成績,建議課程強化在線課程資源的使用,提高學員在線時長、充分發揮小測的以考促學作用、提供瀏覽網頁的支持。比如,通過提供更為豐富的教學資源、增強課程互動性、設置獎勵機制等方式來提高學員的參與度和在線時長;通過調整小測的頻率、難度等方式來提高學員參與小測的積極性;通過提供在線閱讀器、增加課程筆記等功能來提高學員瀏覽網頁的頻率和效果。這些措施可以有效提升課程瀏覽和評估評價功能對學員成績的正面影響,從而幫助學員取得更好的學習成果。
本研究存在一定的局限性。首先,課題組未考慮學習者個體因素。雖然Coursera平臺記錄了學習者的人口統計學信息,但課題組并未將這些變量納入分析。未來研究可以對不同背景的學員進行分類討論,深入分析不同學員群體的學習行為特征。其次,課題組并未訪談任課教師。教師訪談可幫助研究者更深入地理解課程設置的目標,從而給出更有針對性的教學建議。未來,研究可結合教師訪談深入開展。
參考文獻
[1]王宇.2019年全球慕課發展回顧[J].中國遠程教育,2021(5):68-75.
[2]HAN J,KAMBER M,PEI J.Data mining:concepts and techniques [M]. 3rd ed. Waltham: Morgan Kaufmann,2012:15-19.
[3]DE BARBA P G,KENNEDY G E,AINLEY M D.The role of students’ motivation and participation in predicting performance in a MOOC[J]. Journal of Computer Assisted Learning,2016,32(3): 218-231.
[4]CONIJN R,VAN DEN BEEMT A,CUIJPERS P.Predicting student performance in a blended MOOC[J]. Journal of Computer Assisted Learning,2018,34(5):615-628.
[5]
MEIER Y,XU J,ATAN O,et al.Proceedings of the 2015 IEEE International Conference on Data Mining (ICDM)[C].Atlantic City:IEEE,2015.
[6]ALLIONE G,STEIN R M.Mass attrition:an analysis of drop out from principles of microeconomics MOOC[J]. Journal of Economic Education,2016,47(2): 174-186.
[7]MARTN-MONJE E,CASTRILLO M D,MAANA-RODRGUEZ J.Understanding online interaction in language MOOCs through learning analytics[J].Computer Assisted Language Learning,2018,31(3):251-272.
[8]魏順平.Moodle平臺數據挖掘研究——以一門在線培訓課程學習過程分析為例[J].中國遠程教育,2011(1):24-30.
[9]賈積有,繆靜敏,汪瓊.MOOC學習行為及效果的大數據分析——以北大6門MOOC為例[J].工業和信息化教育,2014(9):23-29.
[10]陳蘭嵐,宋海虹.基于MOOC數據挖掘的學習行為和學習成效分析[J].教育教學論壇,2019(21):50-51.
[11]沈欣憶,劉美辰,吳健偉,等.MOOC學習者在線學習行為和學習績效評估模型研究[J].中國遠程教育,2020(10):1-8,76.
[12]楊小麗,韓雷.國外慕課研究的現狀、特點及范式[J].教學研究,2019,42(3):75-79.
[13]王夢倩,范逸洲,郭文革,等.MOOC學習者特征聚類分析研究綜述[J].中國遠程教育,2018(7):9-19,79.
[14]ANDERSON A,HUTTENLOCHER D,KLEINBERG J,et al.Proceedings of the 23rd International Conference on World Wide Web[C].New York:Association for Computing Machinery,2014.
[15]GUO L M,DU J L,ZHENG Q H.Understanding the evolution of cognitive engagement with interaction levels in online learning environments: insights from learning analytics and epistemic network analysis[J].Journal of Computer Assisted Learning,2023,39(3): 984-1001.
[16]MYERS J P.Creating the digital citizen: students’ co-construction of meaning for global citizenship during online discussions[J].Asian Education and Development Studies,2022,11(4):592-605.
[17]賈積有,于悅洋.學習活動指數LAI及在線學習活動指數OLAI的具體分析[J].中國遠程教育,2017(4):15-22,56,79.
Analysis of learning behaviors and academic achievement based on educational data mining:a case study of a massive open online course at Peking University
FU Ling-yu1,2,JIA Ji-you3
(1.School of Law and Humanities,China University of Mining and Technology-Beijing,Beijing100083,China;
2.School of Chinese as a Second Language,Peking University,Beijing100871,China;
3.Graduate School of Education,Peking University,Beijing100871,China)
Abstract
We used data mining techniques to conduct an in-depth analysis of learner behavior data of a massive open online course (MOOC) offered by Peking University on Coursera.It was found that learners participated more actively in course tasks than in discussion forums.Through cluster analysis,we categorized the learners into three clusters of “standout”,“visitor”and “underachiever”.In addition,key factors affecting the final grades of course completers are the online time,quiz score,and webpage browsing frequency,etc.Hence,we propose several suggestions for MOOC teaching design,such as: setting up reward mechanisms to enhance course interactivity,providing personalized course curriculum,adjusting the frequency and difficulty of quizzes to promote learning,and adding functions such as course notes to increase the frequency and effectiveness of students’ webpage browsing,and so on.These measures can help to improve the learning effect and satisfaction of the students,and then optimize the MOOC teaching.
Keywords
educational data mining;online learning behavior;academic achievement;big data in education;personalized instruction
[責任編輯孫菊]