祁天龍,任美睿,2,趙建宇,郭龍江,2
(1.陜西師范大學 計算機科學學院,陜西 西安 710062;2.陜西師范大學 現代教學技術教育部重點實驗室,陜西 西安 710062)
近年來,在線學習平臺取得了長足的發展,據統計,中國目前有12 500門左右的在線課程,學習人數已超過2億人次[1]。然而,在線學習平臺的課程完成率僅有不到5%[2],限制了平臺的發展。協作學習是以小組為單位的學習方式,對同一個主題感興趣的學習者組成一個小組,組員間可以一起探討主題,相互幫助,共同完成學習目標[3]。協作學習的過程中,不僅使學習者的能力得以提升,還促進了組員之間的交流,從而有效地降低輟學率。
構建協作學習小組是協作學習中的關鍵問題,已有不少研究者提出了多種不同的分組方法。Andrejczuk等[4]分組時考慮了學習者的性別、個性、能力和小組規模。Nand等[5]以形成技能均衡的小組為目的,依據學習者的技能偏好和水平,使用螢火蟲算法進行分組。
Flores-Parra等[6]考慮了學習者在小組中可能的角色分工,使用社交網絡的方法分組。桑治平等[7]依據學習者的興趣、學習動機、知識水平等構建小組。潘芳等[8]考慮了在線學習者的性格、學習目標、風格、動機、認知水平等因素,使用了Multi-Agent分組。李浩君等[9]結合混合遺傳算法提出了在線學習環境中基于任務驅動的協作學習小組構建方法。
聚類算法由于其復雜度低,可解釋性強,近年來出現了基于聚類的協作學習分組方法。Akbar等[10]考慮了小組規模和主題意愿,結合HK-Means算法(一種基于K-Means的改進算法)提出了改善學習者團隊的形成方法(Improving Formation of Student Teams,IFST),取得了較好的實驗效果。
曹天生等[11]考慮了學習者的信息素養、學習風格、認知能力和知識基礎等因素,使用聚類算法分組。Sanz-Martínez等[12]通過頁面瀏覽量、作業提交量等活動量化學習者的參與度,再依據參與度使用K-Means聚類算法分組。羅凌等[13]考慮了學習者的學習風格、知識水平和學習目標等因素,使用模糊C均值算法分組。陳甜甜等[14]考慮了在線學習者的人口因素(如性別、國籍)、課程參與度、行為信息,分組時也使用了模糊C均值算法。
然而,現有的研究中還沒有同時兼顧學習者的主題意愿、學習時間規律、小組規模這三個重要因素的協作學習分組方法。首先,相同的主題有助于減少組內分歧,且給予學習者對主題的自由選擇權可以提高其參與度和積極性[15]。其次,在線學習平臺中的課程大多沒有固定的時間表,學習者在任意時刻都有可能進入平臺,將學習時間規律相同的學習者分配到同一小組中有助于提高組員間的溝通效率。最后,小組規模過大時會提高組員間的溝通成本[16],進而降低學習效率,小組規模過小會使單個學習者承擔更多的工作,不利于學習目標的完成。綜上所述,對于協作學習分組,主題意愿、學習時間規律、小組規模是三個必要的考慮因素。
為了填補上述分組研究中的空白,該文綜合考慮了學習者的主題意愿、學習時間規律、小組規模三個因素,提出了基于聚類的協作學習分組方法。

定義1(滿意度):若學習者所在的小組成員數在上下限之間(包括上下限),且該小組被分配的主題是當前學習者的第一個意愿,則認為當前學習者是滿意的。滿意的學習者數占學習者總數的比例稱為滿意度。
定義2(時間重合度):時間重合度衡量了小組中學習者的學習時間規律的相似程度。時間重合度的計算方式如下:
定義3(協作學習分組):給定主題集合P,學習者集合S,學習者的主題意愿向量{wi|1≤i≤N},學習者的學習時間規律{ti|1≤i≤N},以及小組人數上下限ceil和floor。最終,將學習者集合S劃分為互不相交、組內學習者數在給定上下限之間的協作學習小組{Gj|1≤j≤M}。使得滿意度和時間重合度最大化。
基于聚類的協作學習分組方法(Cooperative Learning Grouping Method Based on Clustering,CLGC)大致包含以下四個步驟:第一步,預分組;第二步,處理預分組集合;第三步;使用聚類算法分組;第四步,處理聚類后的分組結果集合。分組過程如圖1所示,圖中floor=3,ceil=5。

圖1 基于聚類的協作學習分組方法示意圖
1.2.1 預分組

1.2.2 處理預分組集合
依次遍歷預分組集合{Bl|1≤l≤L},若預分組集合中學習者數大于等于floor,則進入下一個步驟,使用聚類算法進行分組(詳見1.2.3節)。若當前預分組集合中學習者數小于小組成員數下限floor,則依次將該預分組集合中的學習者重新分配到當前學習者第二意愿對應的預分組集合中,如圖1步驟②中將s5從B1分配到B5,如果第二意愿對應的預分組集合中學習者數仍小于floor,則將其分配到該學習者第三意愿對應的預分組集合,依此類推,直到將該學習者分配到某個預分組集合中為止。
1.2.3 使用聚類算法分組
依次遍歷經過處理后的預分組集合{Bl|1≤l≤L},若預分組集合中的學習者數大于小組成員數上限ceil,則依據學習者的學習時間向量,使用聚類算法將預分組集合中的學習者劃分為2個子集,若子集中的學習者數仍大于ceil,則繼續將子集劃分為2個更小的子集,重復這個過程,直到子集中的學習者數小于等于ceil,最后,將滿足條件的子集加入到分組結果集合。如圖2所示,若預分組集合非空且其中的學習者數小于等于ceil,則直接將該預分組集合加入到分組結果集合。

圖2 基于聚類的協作學習分組方法流程
上述過程中可使用的聚類算法大致分為三種:基于劃分的聚類算法,如K-Means[17];層次聚類算法,如Agglomerative Clustering[18](簡稱為AC算法)、BIRCH[19];以及近鄰傳播算法Affinity Propagation[20](簡稱為AP算法)。需要注意的是,使用基于劃分的聚類算法和層次聚類算法時,指定聚類中心數為2,而AP算法不需要指定聚類中心數,可以對所有劃分后的子集遞歸地調用自身再次聚類,所以也可用于分組。其他的聚類算法,如基于密度的聚類算法需要指定聚類半徑,針對不同的學習者集合該聚類半徑也不相同,因此難以確定合適的聚類半徑,而基于網格的聚類和譜聚類算法由于其計算復雜度高,不適用于學習者規模較大的在線學習平臺。
1.2.4 處理聚類結果集合
遍歷聚類后分組結果集合中的所有子集,若子集中的學習者數小于floor,則將該子集中的學習者依次分配到和當前學習者在同一個預分組集合中的其他子集,目標子集須滿足:floor≤目標子集中的學習者數 遍歷結果集合中的所有子集后,若待分配集合非空,則依次遍歷待分配集合中的學習者,先找到該學習者的第二意愿對應的預分組集合中的結果集合,再從這些結果集合中找到滿足條件的目標子集,將當前學習者分配到該目標子集中,如圖1步驟④中將s29分配到B3;若第二意愿對應的預分組集合中找不到滿足條件的目標子集,則依次在后續意愿對應的預分組集合中尋找,直到將學習者分配到某一個目標子集中。 最后,遍歷所有經過處理后的結果集合,若當前結果集合滿足:floor≤結果集合中的學習者數≤ceil,則將其作為一個協作學習小組,小組所在的預分組集合對應的主題即為指派給該小組的主題,如圖1步驟④中指派給小組G1的主題是p2。 學習者的主題意愿是由計算機模擬生成的,學習時間規律來源于公開的真實數據集,由在線學習平臺XuetangX收集[2]。 2.1.1 主題意愿 2.1.2 學習時間規律 XuetangX平臺收集的數據集中包含了從2015年8月至2017年8月的1 213門課程中共378 237名學習者的活動記錄[2],活動發生的時間精確到秒。學習者的時間數據需要將其預處理為標準化的0-1向量用于后續的聚類。 時間數據的預處理過程如下:首先,將活動記錄文件分別按照學習者的學號和課程分割,若某個學習者參與了多門課程,那么將對應多個分割后的文件。然后,隨機選取一門課程,并統計該課程中的學習者在平臺的累計學習時長,為了保證有充足的數據量化學習時間規律,僅保留了累計學習時長超過20小時的學習者。最后,遍歷該門課程中被保留的學習者的記錄,將其記錄編碼為0-1向量,具體地,若si的活動發生在ti的第q個時間段,則tiq=1,否則tiq=0。 為了驗證提出的協作學習分組方法的有效性,將其與隨機分組方法(Random Grouping Method,RGM)以及Akbar等[10]提出的IFST分組算法進行對比。 隨機選取了課程“TsinghuaX_30640014X”中自2015.10.13-0:0:0至2015.10.19-23:59:59期間有記錄的1 754名學習者,平均每個學習者每天的學習時長是138分鐘。將他們在這7天內的活動記錄預處理為0-1向量,將其作為學習者的學習時間規律。編碼時,將Q設置為56,即一周被均分為56個時間段,每個時間段的長度為3小時。主題數L設置為8,floor設置為3,ceil設置為5。 CLGC在分組時可使用的聚類算法有多個,這里僅選擇其中的三個聚類算法。將基于K-Means算法的協作學習分組方法記作CLGC(KM),將基于BIRCH算法的分組方法記作CLGC(BC),將基于AP算法的分組方法記作CLGC(AP)。上述三種分組方法和IFST以及隨機分組方法的實驗結果見表1,表中展示的結果是重復10次實驗后的平均值。 表1 五種分組方法的實驗結果 從表1可以看出,相對于IFST和RGM,CLGC在滿意度和時間重合度上都有更好的表現。其中,基于BIRCH算法的CLGC表現最好,時間重合度約是IFST和RGM的3倍,相當于平均每個學習者每天可參與協作學習的時長為60分鐘,大約占每天學習時長的一半。在運行時長方面,IFST的開銷最大,CLGC次之,RGM的運行時長最短。綜合考慮滿意度、時間重合度和運行時長,該文提出的CLGC優于IFST和RGM,驗證了其有效性。 將2.2節中的1 754名學習者作為實驗對象,Q設置為56,L設置為8,floor設置為3,ceil設置為5。采用與2.2節相同的方式預處理后,使用CLGC(BC)將學習者劃分為361個協作學習小組。其中,組員數為3的小組有23個,組員數為4的小組有5個,組員數為5的小組有333個。指派給各個小組的主題都是組員的前三個意愿之一,較好地滿足了學習者的自由選擇權。組員平均每天可參與協作學習的時長是64分鐘,大約占平均每天總學習時長的一半,保證了學習者有充足的時間協作完成學習目標。 圖3顯示了其中100個小組可參與協作學習的時長,圖中虛線表示平均值。從圖中可以看出,不同的小組可用于協作學習的時長差異很大,這主要是因為內學習者在選定的這段時間內活躍程度各不相同,該文提出的分組算法傾向于將活躍程度高的學習者劃分到同一個小組中,因此這些小組可用于協作學習的時長普遍高于其他小組。 圖3 部分小組的可參與協作學習時長 提出了一種基于多種聚類算法的協作學習分組方法,該方法綜合考慮了學習者的選題意愿、學習時間規律和小組規模,形成的小組有充分的協作學習時間,指派給小組的主題能夠很好地滿足學習者的意愿,且各個小組之間成員數均衡。以上三點都為提高協作學習小組的溝通效率提供了保證,不僅有助于學習目標的完成,還可以有效地降低輟學率。2 實驗及結果分析
2.1 數據集和預處理

2.2 基于聚類的協作學習分組方法有效性

2.3 基于聚類的協作學習分組應用

3 結束語