陳甜甜,何秀青,葛文雙,何聚厚
1.陜西師范大學 現代教學技術教育部重點實驗室,西安710062
2.陜西師范大學 計算機科學學院,西安710062
MOOC 課程的興起給高等教育的全球化提供了契機,使得不同地區、不同年齡的學習者可以在任何時間、任何地點進行學習[1]。但是與大規模學習參與者形成鮮明對比的是,目前MOOC 課程普遍存在完成率低的現象[2]。造成課程完成率低的原因有很多,比如學習者的學習動機、學習者的能力及特質、學習者的知識背景等,除此之外還有一個不可忽視的原因就是學習孤獨感[3]。文獻[3]中指出雖然在線學習平臺上同時學習同一門MOOC課程的在線學習者有成千上萬名,但是實際上絕大多數在線學習者都是在獨自學習。與傳統課堂教學不同,在線學習者主要通過觀看教學視頻進行課程學習,在線課程學習沒有時間和空間的限制、沒有教師管束、沒有同學之間的互相監督與提醒,學習活動完全以個體學習為主,在學習過程中有疑問時沒有老師及時解答,遇到困難時也沒有適合的學習伙伴進行交流、討論,這種學習過程中的孤獨感使其逐漸失去學習的興趣和動力,最終放棄對課程的學習,成為流失學習者,進而造成MOOC課程完成率低的現象。
隨著在線學習和協作學習的發展,在線協作學習成為一種有效的學習模式[4],構建在線協作學習小組可以改善學習者的在線學習體驗,提高學習積極性。越來越多的教育研究者開始意識到協作學習在在線學習過程中發揮的重要作用。在線教育開拓者琳達·哈拉西姆博士[5]首次提出必須修改協作學習教學法以適應在線學習環境;MOOC供應商也認為在線協作學習是在線教育質量的重要保證之一,其中Coursera平臺的創始人吳恩達認為,協作學習環境是MOOC 存在的諸多重大缺失之一,Coursera平臺將更加重視在線協作學習[6];Udacity平臺的首席執行官特倫也認為,在線學習平臺要更具有包容性和協作性[7]。但是在線學習者人數眾多,如何設計和開展大規模在線協作學習分組是當前面臨的一個挑戰。國內,馬艷云等人[8]綜合考慮網絡協作學習者的個性化特征和協作特征,提出基于聚類和梯度選擇的網絡協作學習分組算法,為智能化分組奠定了基礎;羅凌等人[9]構建了在線協作學習者的多維特征模型,并提出了基于模糊C 均值的在線協作學習混合分組算法。但是上述方法僅在理論上為大規模在線協作學習分組提供了一定的借鑒和參考,沒有真正實現大規模的在線協作學習分組。
為了改善在線學習者的學習體驗,降低學習孤獨感,本文在對當前研究進行總結梳理的基礎上,考慮到在線學習平臺具有數據規模大、特征維度高的特點,于是引入深度學習中的自編碼神經網絡與模糊C 均值算法相結合,設計了基于MOOC 課程的大規模在線協作學習分組方法。該方法的基本思想是:首先構建在線學習者的特征模型,利用自編碼神經網絡提取學習者的關鍵特征,對原始數據進行降維;然后根據在線學習者的關鍵特征,利用模糊C均值算法以迭代分組的方式構建與學習者學習特征相適應的在線協作學習小組,使在線學習者的學習形式由獨自學習轉變為小組協作學習,從而改善學習者的在線學習體驗,提高學習積極性和課程參與度,解決在線學習過程中產生的孤獨學習者問題,最大限度地保留課程參與者,提高MOOC課程完成率。

圖1 edX開放數據集字段描述
大規模在線協作學習分組不同于傳統課堂教學的協作學習分組,主要體現在兩個方面:“大規模”和“在線”。“大規模”是指與傳統課堂教學中的學習者數量相比,選擇同一門MOOC 課程的在線學習者可能有成千上萬名;“在線”則是指在線學習者不是在同一間教室里進行面對面的學習和協作交流,而是通過在線學習平臺進行學習和協作交流。這兩個方面的區別導致在線學習者在地理位置、教育背景、性別、年齡等各個方面存在較大差異。為了使在線學習小組中小組成員之間能更充分地進行協作交流,避免個別學習者因為年齡、教育背景和興趣愛好等差異太大而不能很好地融入小組進行協作學習[9]。因此,本文將根據同質分組策略[10]進行大規模在線協作學習分組。同質分組是指將學習水平、學習目標、興趣愛好等特征相似的學習者劃分到同一小組中,確保同一小組內的在線學習者具有較高的同質性[11],使小組成員之間能夠更好地進行協作學習和討論交流,從而改善其在線學習體驗,降低學習孤獨感。
本文采用edX開放數據集[12]作為研究基礎,進行大規模在線協作學習分組研究。edX 開放數據集是哈佛大學和麻省理工學院于2014 年5 月聯合發布的2012—2013 學年edX 平臺上16 門課程的開放數據[13]。該數據集共有641 139 條在線學習者的信息,每條信息包含課程ID、學習者ID、國家、出生年月、性別等19 個特征字段,如圖1所示。
學習者的學習特征能夠反映學習者的個體差異[14],根據在線學習者特征進行聚類是實現大規模在線協作學習分組的基礎。本文將從edX 開放數據集的課程信息、學習者基本情況信息、學習者類型信息和學習者行為信息4 個方面,對原始的19 個特征字段進行分析,從中篩選出與大規模在線協作學習分組最相關的特征,構建在線學習者特征模型。
(1)課程信息
在線協作學習分組是針對選擇同一門MOOC課程的在線學習者進行分組,因此edX開放數據集中課程ID字段與在線協作學習分組不具有相關性,故排除課程ID字段。
(2)學習者基本情況信息
edX 開放數據集中學習者的基本情況信息反映了學習者的文化背景、教育水平、性別和年齡等。與傳統課堂學習者不同,在線學習者分布在世界各地,學習者成分也更加多樣化,比如選擇同一門MOOC 課程的在線學習者可能是學生,可能是公司職員,也可能是退休老人。這意味著在線學習者擁有不同的文化背景、知識水平、年齡和興趣愛好等。如果同一小組內在線學習者之間差異太大,必然會影響小組成員之間的協作交流,無法有效實施在線協作學習。相反,如果同一小組內在線學習者之間有許多共同點,那么小組成員之間就會有更多共同話題,有利于促進小組成員之間的相互了解。因此,edX 開放數據集中在線學習者的基本信息,對大規模在線協作學習分組而言非常重要。
(3)學習者類型信息
學習者類型信息可以反映在線學習者的課程參與程度,在進行大規模在線協作學習分組時,應充分考慮在線學習者的課程參與程度,以便分組完成后,課程開發者有針對性的對在線學習小組進行個性化的教學干預。edX 平臺上的在線學習者被劃分為4 種類型,分別是注冊者、一般學習者、積極學習者和獲取證書者[15],相應的描述和課程參與程度如表1所示。從表1中可以看到,注冊者類型的在線學習者僅注冊課程,并沒有在平臺上產生任何學習行為數據,因此,在進行大規模在線協作學習分組時不必考慮該字段。

表1 edX在線學習者類型
(4)學習者行為信息
在線學習者從注冊、登錄平臺開始,到點擊課程鏈接、觀看教學視頻、參與論壇互動等一系列學習過程中,會產生海量的學習行為數據[16],包括課程交互次數、課程訪問次數、視頻播放次數、學習章節數以及論壇發帖數等。其中,課程交互次數和課程訪問次數在一定程度上反映了學習者的學習動機。具有不同學習動機的在線學習者會有不同的學習需求,根據不同的學習需求對在線學習者進行分組,可以幫助課程開發者和運營者為在線學習者的個性化學習實施各類分層[17]。學習章節數和視頻播放次數反映了在線學習者的課程參與程度。論壇發帖數量在一定程度上反映了學習者的活躍程度。活躍度越高,說明其在學習中主動思考和參與課程討論的積極性越高,越能帶動小組內其他在線學習者的學習積極性。
綜上所述,本文從學習者基本情況信息、學習者類型信息和學習者行為信息三方面,共篩選出13 個在線學習者的特征字段構成在線學習者特征模型,如圖2所示。

圖2 在線學習者特征模型

圖3 自編碼神經網絡的基本結構
大規模在線協作學習分組具有數據規模大、學習者特征維度高的特點,直接對在線學習者進行分組,分組效率很低。深度學習中自編碼神經網絡(AutoEncoder,AE)具有非常好的數據降維和特征提取的能力[18]。在分組之前利用AE 提取在線學習者特征,不僅可以降低在線學習者特征維度,而且能夠學習在線學習者數據中豐富的內在信息,更有助于進行大規模的在線協作學習分組。
AE由兩部分組成:用于提取特征的編碼器(encoder)和用于生成重構的解碼器(decoder),兩者通過瓶頸層(bottleneck)連接[19],其基本結構如圖3所示。從輸入層到隱藏層為編碼過程,用于提取原始輸入的關鍵特征得到編碼數據,編碼數據能夠很好的保留原始數據信息。從隱藏層到輸出層為解碼過程,利用編碼數據對原始輸入進行重構,恢復原始輸入數據。
利用AE提取在線學習者關鍵特征的具體過程如下:
(1)編碼過程。將原始在線學習者數據進行歸一化操作后作為AE 的輸入,經過權重和偏置的線性計算傳入隱藏層,隱藏層的非線性激活函數為sigmoid函數,通過sigmoid函數再進行非線性變換,如公式(1)所示。各隱藏層之間同樣先通過權重和偏置的線性計算,再經過sigmoid 函數進行非線性變化,然后從上一層傳入下一層。AE利用瓶頸層對輸入的原始在線學習者數據進行壓縮編碼,將高維的原始數據用低維的向量表示,使壓縮后的低維向量能夠保留在線學習者數據中的關鍵特征,從而有利于大規模在線協作學習分組。

式中,x表示原始輸入數據,W1表示連接輸入層和隱藏層的權重,b是偏置,σ表示sigmoid 激活函數,其公式如(2)所示。

(2)解碼過程。將提取到的在線學習者特征h作為解碼器中第一個隱藏層的輸入,經過權重和偏置的線性計算傳入下一個隱藏層,隱藏層的非線性激活函數同樣是sigmoid 函數,通過sigmoid 函數進行非線性變換,如公式(3)所示,直到得到在線學習者的重構數據。

式中,h是提取到的新的在線學習者特征,W2是連接隱藏層和輸出層的權重,y是重構的在線學習者數據。
(3)計算損失函數loss。將輸出層的重構數據與輸入數據進行比較,計算損失函數loss,用來評估模型的重構數據與原始輸入數據的誤差程度。該模型使用均方誤差(Mean Square Error,MSE)作為loss,計算公式如(4)所示。使用Adam 優化算法進行梯度下降,降低loss直至收斂。

其中,N是訓練樣本的個數。
(4)保存訓練好的AE 模型。在后續實驗過程中可調用已訓練好的AE 模型用于提取在線學習者的關鍵特征。
(5)AE模型瓶頸層輸出的編碼數據,即在線學習者的關鍵特征,將作為后續大規模在線協作學習分組的輸入數據。
為了對大規模在線學習者進行分組,本文采用模糊C 均值(Fuzzy C-Means,FCM)算法以迭代分組的形式進行在線協作學習分組。
FCM 算法是最常用的模糊聚類算法之一,在運行時間和準確度方面相對優于其他聚類算法[20],在數據挖掘和人工智能等領域中被廣泛應用[21]。利用FCM算法進行協作學習分組的主要思想是:n位學習者構成學習者數據集X={x1,x2,…,xn} ,利用FCM算法將學習者分成c組,通過不斷迭代更新聚類中心Vi和隸屬度矩陣uij來優化目標函數,目標函數如公式(5)所示,使其達到極小值,此時學習者將被劃分給隸屬度最大的那個分組,從而實現學習者的最優劃分。其中,聚類中心vi和隸屬度矩陣uij可以通過拉格朗日條件極值求解,公式如(6)和(7)所示。

式中,U 為隸屬度矩陣,V 為聚類中心。i為小組個數;j為學習者個數;m為模糊加權指數,通常情況下m=2;xj表示第j個學習者;vi表示第i組的類中心;uij表示第j個學習者屬于第i組的隸屬度,它需要滿足公式(8)。

由于FCM算法的最佳分組結果通常取決于分組個數c[22],對于大規模在線協作學習分組而言,如果得到的最佳分組個數c特別小,那么分組后每個小組中在線學習人數依然很多,而小組內在線學習者人數過多會直接影響小組成員之間的交流討論,從而不能達到改善在線學習體驗,降低學習孤獨感的目的,也就失去了大規模在線協作學習分組的意義。因此,為了控制在線協作學習小組中學習者人數,達到降低學習孤獨感的目的,本文采用迭代分組的方法進行大規模在線協作學習分組,將小組成員控制在2~9 人之間,從而確保在線學習者在學習過程中能夠進行有效的協作學習和交流討論,最終順利完成對課程的學習。大規模在線協作學習迭代分組方法的具體步驟如下。
(1)確定分組個數c的范圍。
通常分組個數c的取值范圍為[ ]2, n[23],n為在線學習者總人數。但是對于大規模在線協作學習分組而言,由于在線學習者的數量眾多,若采用該方法確定最優分組個數,將花費大量時間。羅凌等人[9]認為lnn隨n的增長速度比n的增長速度慢,所以當數據集規模特別大時,可將c的取值范圍定為[2,2 lnn] 。
(2)利用FCM算法進行分組,計算聚類有效性函數值,進一步確定最佳分組個數c。
為了進一步確定最佳分組個數c的值,往往需要聚類有效性函數進行判斷。本文通過Xie-Beni 聚類有效性指標(XB)[24]確定大規模在線協作學習分組的最優分組個數,公式如(9)所示。依次計算c為2 至2 lnn時XB值,當XB取得最小值時對應的c,即為最佳分組個數。

(3)確定最佳分組個數c后,利用FCM算法進行在線協作學習分組。
(4)分組完成后,判斷每個小組中在線學習者人數。
(5)如果小組中的學習者人數在2~9 之間,那么分組成功,計算該組的組內相似度。
組內相似度是指同一小組內在線學習者兩兩之間的特征相似程度,反映了同一小組內在線學習者的同質性。本文采用余弦相似度公式計算在線學習者之間的特征相似度,公式如(10)所示,并將同一小組內在線學習者兩兩之間的余弦相似度的平均值作為該組的組內相似度。根據余弦相似度原理可知,兩個向量夾角的余弦值可以作為衡量兩個個體間差異大小的度量,其中余弦值越接近1,說明夾角角度越接近0°,兩個向量越相似。也就是說,組內相似度的值越接近1,說明在線學習者之間的特征越相似,同一小組內在線學習者的同質性越高,越有利于小組成員之間的相互了解和交流討論,說明分組效果越好。因此,組內相似度將作為衡量本文大規模在線協作學習分組方法的評價指標。

其中,表示c組第l個在線學習者x 的特征向量中第t個特征值。
(6)如果小組中的學習者人數多于9 人,那么對該小組重新進行分組,即重復步驟(1)~(5)。
如此循環,直到所有的在線學習者分組結束。迭代分組流程圖如圖4所示。其中表示第i個小組C中有pi個在線學習者。

圖4 FCM迭代分組流程圖
本文以edX數據集中15門課程的621 293條記錄作為原始實驗數據,過濾掉其中存在前后矛盾的數據和異常數據,填充缺失值并進行歸一化操作后得到540 977條學習記錄。將其按照3∶1∶1 的比例劃分成訓練集、驗證集和測試集,其中訓練集用于AE 模型的訓練,樣本數量為324 585;驗證集和測試集的樣本數量均為108 196。經過3 000次迭代后,訓練集和驗證集loss同步收斂,其中訓練集loss 為0.032 1,驗證集loss 為0.038 7。模型訓練結束,保存訓練好的AE模型,用于提取在線學習者的關鍵特征。
為了驗證本文提出的結合AE 和FCM 算法的大規模在線協作學習分組方法分組效率更高,更適合進行大規模在線協作學習分組。本文與傳統的基于FCM的協作學習分組方法進行對比。
為保證數據樣本的平衡性,本文從測試集數據中選出48 078位在線學習者作為對比實驗的實驗數據,以學習成績為標簽,分別利用上述兩種方法將在線學習者分成3組:成績為0的在線學習者為第一組;成績在(0,50]之間的在線學習者為第二組,成績在(50,100]之間的在線學習者為第三組。以準確率和運行時間作為評價指標,準確率計算公式如(11)所示,m是分類正確數,n是樣本總個數。實驗重復運行5次后取平均值,結果如表2所示。

表2 兩種分組方法的實驗結果

從表2中可以看到,相對于傳統的基于FCM的協作學習分組方法,本文利用AE提取學習者的關鍵特征后,利用FCM 算法對在線協作學習者進行分組的方法,不僅降低了運行時間,而且明顯提高了分組準確率。這是因為在線學習者的規模大,特征維度高,直接利用FCM算法進行協作學習分組,計算復雜度高,時間開銷大。而AE 能夠提取學習者的關鍵特征,降低在線學習者的特征維度,從而能夠降低計算復雜度,提高分組效率;同時提取到的關鍵特征對在線學習者有更本質的刻畫,可以提高分組準確率。因此,與傳統的僅利用FCM 算法進行協作學習分組的方法相比,本文提出的方法更適合進行大規模在線協作學習分組。
本文以edX 開放數據集中選擇計算機科學與編程入門課程的19 846位在線學習者為實驗對象,進行大規模在線協作學習分組。
首先將經過數據預處理后的19 846 位在線學習者輸入已訓練好的AE 模型,利用AE 模型提取在線學習者的關鍵特征,作為后續FCM算法的輸入數據;根據在線學習者人數19 846,可以確定最佳分組個數c的范圍是[2,20];根據公式(9)依次計算c=2 至c=20 時的XB值,結果如圖5所示。從圖5中可以看到,當c=3 時,XB值最小,因此將在線學習者分成3 組,其中第一組有6 453人,第二組有3 840人,第三組有9 553人;很明顯3個小組的組內學習者人數均大于9人,不滿足分組約束條件(2~9 人)。因此,分別對這3 個在線學習小組再次進行分組。不斷重復上述步驟,直到組內學習者人數滿足分組約束條件為止。對于滿足分組約束條件的在線協作學習小組,計算其組內相似度。
經過不斷迭代分組,最終本文將19 846 名在線學習者分為2 835組,每組2到9人。如圖6所示是截取了部分在線學習小組的組內相似度。本文把所有小組的組內相似度相加取均值,計算平均組內相似度,結果為0.846 3,該結果說明本文提出的大規模在線協作學習分組方法的分組效果較好,即基于該分組方法得到的每一個小組內的在線學習者都具有較高的同質性,同一小組內在線學習者的學習水平、興趣愛好等特征相似度較高。因此,小組成員之間能夠更充分地進行討論、交流,達到改善在線學習體驗,降低學習孤獨感的目的。

圖5 的XB值
本文主要完成了以下工作:(1)以edX 開放數據集為研究基礎,構建在線學習者特征模型,利用AE提取在線學習者的關鍵特征;然后根據同質分組原則,利用FCM算法以迭代分組的形式進行大規模在線協作學習分組。(2)在edX在線學習平臺上,以計算機科學與編程入門課程為例,實現了大規模在線協作學習分組。實驗結果表明,基于本文提出的大規模在線協作學習分組方法進行分組后,每個在線協作學習小組都有較高的同質性,可以有效改善學習者的在線學習體驗,降低學習過程中的孤獨感,達到保留在線學習者,提高MOOC課程完成率的目的。

圖6 部分在線協作學習小組的組內相似度