語(yǔ)義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測(cè)研究

2020-01-08 01:37:02葉俊民羅達(dá)雄廖志鑫

小型微型計(jì)算機(jī)系統(tǒng) 2020年1期

葉俊民，羅達(dá)雄，陳曙，廖志鑫

(華中師范大學(xué) 計(jì)算機(jī)學(xué)院，武漢 430079)

1 引言

在線開放課程不僅為學(xué)習(xí)者提供了學(xué)習(xí)著名大學(xué)先進(jìn)課程內(nèi)容的機(jī)會(huì)，而且還為教師、教學(xué)管理者提供了各類數(shù)據(jù)以進(jìn)行分析的可能.針對(duì)學(xué)習(xí)者的學(xué)習(xí)行為(如預(yù)測(cè)學(xué)習(xí)者期中考試成績(jī)和預(yù)測(cè)學(xué)習(xí)者畢業(yè)與否等問(wèn)題)進(jìn)行預(yù)測(cè)就是這些分析活動(dòng)中的典型[1,2].針對(duì)在線學(xué)習(xí)行為預(yù)測(cè)的早期的研究主要是利用學(xué)習(xí)者的統(tǒng)計(jì)信息和學(xué)習(xí)行為信息預(yù)測(cè)在線學(xué)習(xí)行為，如A.Anderson等人制定了學(xué)習(xí)者參與類型的分類方法，并討論學(xué)習(xí)者的參與度和其成績(jī)之間的關(guān)系[3]；J.Wilkowski等人發(fā)現(xiàn)先驗(yàn)技能與課程完成率之間無(wú)相關(guān)性[4]；C.G.Brinton等人調(diào)查了與論壇活動(dòng)下降有關(guān)的因素，發(fā)現(xiàn)與因素相關(guān)的線程分類和排序策略[5].隨著在線論壇等板塊的出現(xiàn)和短文本數(shù)據(jù)的積累，近年來(lái)越來(lái)越多的工作通過(guò)結(jié)合在線學(xué)習(xí)者的短文本語(yǔ)義信息來(lái)預(yù)測(cè)學(xué)習(xí)者的行為，如ESen-Can A等人提出一個(gè)針對(duì)論壇同步輔導(dǎo)對(duì)話的無(wú)監(jiān)督理解模型，從語(yǔ)義的角度分析學(xué)習(xí)者的短文本信息，從而理解學(xué)習(xí)者的行為[6].

從技術(shù)角度上做分類，可將在線學(xué)習(xí)者成績(jī)預(yù)測(cè)的研究可歸納為基于概率的預(yù)測(cè)方法、基于深度學(xué)習(xí)的預(yù)測(cè)方法和基于矩陣因子化的預(yù)測(cè)方法3類.第一，基于概率的預(yù)測(cè)方法主要包含知識(shí)追蹤(Knowledge Tracing)和認(rèn)知診斷(Cognitive Diagnosis).目前主流的知識(shí)追蹤方法有貝葉斯知識(shí)追蹤[7](BKT)和深度知識(shí)追蹤[8](DKT)，后者在實(shí)驗(yàn)中被證明有更優(yōu)的效果；在此研究領(lǐng)中，最新提出的一種基于動(dòng)態(tài)鍵值對(duì)記憶網(wǎng)絡(luò)的方法，可以學(xué)習(xí)知識(shí)概念之間的關(guān)系和個(gè)體學(xué)習(xí)者對(duì)具體概念的掌握情況，并以此未來(lái)學(xué)習(xí)情況的預(yù)測(cè)[9].傳統(tǒng)的認(rèn)知診斷模型(CDM)可以分為連續(xù)型和離散型，其中潛在特質(zhì)理論(IRT)是連續(xù)模型的典型例子，Deterministic Inputs，Noisy-And gate model (DINA)是離散模型的典型例子[10].在這一領(lǐng)域中，最新提出的一種模糊的認(rèn)知診斷框架技術(shù)，可以用于學(xué)習(xí)者主觀題和客觀題的認(rèn)知建模，增強(qiáng)了對(duì)學(xué)習(xí)者測(cè)驗(yàn)表現(xiàn)預(yù)測(cè)的精度[11].第二，深度知識(shí)追蹤(DKT)技術(shù)是第一次嘗試?yán)眠f歸神經(jīng)網(wǎng)絡(luò)來(lái)模擬學(xué)習(xí)者練習(xí)過(guò)程以預(yù)測(cè)其未來(lái)表現(xiàn)的工作[8]；Yu Su等人結(jié)合測(cè)驗(yàn)的文本信息提出了一種測(cè)驗(yàn)增強(qiáng)的循環(huán)神經(jīng)網(wǎng)絡(luò)框架來(lái)預(yù)測(cè)學(xué)習(xí)者的測(cè)驗(yàn)表現(xiàn)[12]；Wenzheng Feng等人提出了一種上下文感知的特征交互網(wǎng)絡(luò)來(lái)預(yù)測(cè)學(xué)習(xí)者的退出率[13].第三，矩陣因子化(Matrix Factorization)近年來(lái)也常被應(yīng)用于教育領(lǐng)域的成績(jī)預(yù)測(cè)和課堂內(nèi)評(píng)估預(yù)測(cè)[14]，Sweeney等人將SVD、SVD-kNN和因子分解機(jī)(FM)等幾種推薦系統(tǒng)中常見(jiàn)方法用于預(yù)測(cè)下學(xué)期的成績(jī)[15]；Zhiyun Ren等人提出了一種時(shí)序課程影響的分解算法，課程因素和時(shí)間因素結(jié)合到學(xué)習(xí)者成績(jī)預(yù)測(cè)方法中[16].

雖然利用短文本語(yǔ)義能夠增強(qiáng)在線學(xué)習(xí)行為的預(yù)測(cè)效果，但是，該研究工作還面臨許多問(wèn)題，具體表現(xiàn)在：

1)當(dāng)前研究沒(méi)有將短文本語(yǔ)義信息與學(xué)習(xí)者的其他信息(如行為信息)有效結(jié)合，導(dǎo)致對(duì)學(xué)習(xí)者的刻畫不夠全面；

2)當(dāng)前研究大部分只能預(yù)測(cè)特定種類的學(xué)習(xí)行為(如學(xué)習(xí)者的成績(jī))，沒(méi)有形成統(tǒng)一的預(yù)測(cè)框架.

針對(duì)以上的問(wèn)題，本文提出了一種短文本語(yǔ)義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測(cè)方法.具體思想是，首先，利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)[19]得到短文本的語(yǔ)義向量表示；其次，基于深度知識(shí)追蹤模型(DKT)，將短文本語(yǔ)義向量、人口統(tǒng)計(jì)特征向量和學(xué)習(xí)行為特征向量相融合作為長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)每個(gè)時(shí)間步的輸入，以此建模學(xué)習(xí)者在不同時(shí)刻的學(xué)習(xí)狀態(tài)；最后，基于學(xué)習(xí)者的學(xué)習(xí)狀態(tài)設(shè)計(jì)相應(yīng)的預(yù)測(cè)策略來(lái)預(yù)測(cè)在線學(xué)習(xí)者不同類型學(xué)習(xí)行為.

2 問(wèn)題形式化定義

設(shè)N為在線學(xué)習(xí)者的個(gè)數(shù)，V是在線學(xué)習(xí)者的集合，|V|=N.T是課程所包含的知識(shí)點(diǎn)總數(shù)，一門在線課程包含若干知識(shí)點(diǎn)，這些知識(shí)點(diǎn)可以按照在線教學(xué)的時(shí)間順序要求加以安排，學(xué)習(xí)者的學(xué)習(xí)狀態(tài)與其在知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間歩上的各類信息相關(guān).

定義1.學(xué)習(xí)者特征表征.設(shè)F∈RN×T×d表示了在不同知識(shí)點(diǎn)下的所有學(xué)習(xí)者特征.其中，F(xiàn)t(i)=[Fi,t,0，F(xiàn)i,t,1，…Fi,t,d-1]T∈Rd表示示學(xué)習(xí)者i在知識(shí)點(diǎn)t上的特征.Ft(i)由學(xué)習(xí)者的人口統(tǒng)計(jì)特征向量Fgt(i)、學(xué)習(xí)行為特征向量Fbt(i)和短文本語(yǔ)義特征向量DocSTt(i)拼接形成.

定義2.學(xué)習(xí)狀態(tài)表征.設(shè)St(i)=[Si,t,0，Si,t,1，…Si,t,m-1]T∈Rm表示學(xué)習(xí)者i在知識(shí)點(diǎn)t上的學(xué)習(xí)狀態(tài)，其中，Si,t,,j∈[0，1].所有學(xué)習(xí)者的學(xué)習(xí)狀態(tài)被存儲(chǔ)在S∈[0，1]N×T×m中，可通過(guò)學(xué)習(xí)者狀態(tài)S預(yù)測(cè)其行為.

問(wèn)題定義.語(yǔ)義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測(cè).本文要解決的預(yù)測(cè)問(wèn)題描述如下.

輸入：通過(guò)統(tǒng)計(jì)、學(xué)習(xí)行為和短文本信息得到的所有學(xué)習(xí)者的特征張量F

輸出：利用F獲取學(xué)習(xí)者的學(xué)習(xí)狀態(tài)S，并通過(guò)S預(yù)測(cè)學(xué)習(xí)者的在線學(xué)習(xí)行為B.

針對(duì)上述問(wèn)題，本文基于深度學(xué)習(xí)理論設(shè)計(jì)了一種短文本語(yǔ)義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測(cè)方法，具體方法的流程如圖1所示.此框架為三層結(jié)構(gòu)，第一層針對(duì)學(xué)習(xí)者特征建模，在線學(xué)習(xí)社區(qū)的短文本STt(i)通過(guò)BiLSTM模型[19]加工得到其語(yǔ)義向量DocSTt(i)，并將DocSTt(i)、Fgt(i)和Fbt(i)拼接成學(xué)習(xí)者特征向量Ft(i).第二層針對(duì)學(xué)習(xí)狀態(tài)建模，即結(jié)合前一時(shí)間步的學(xué)習(xí)狀態(tài)St-1(i)和當(dāng)前時(shí)間步的特征Ft(i)得到當(dāng)前時(shí)間步的學(xué)習(xí)狀態(tài)St(i).第三層實(shí)現(xiàn)在線學(xué)習(xí)行為預(yù)測(cè)，即基于學(xué)習(xí)狀態(tài)St(i)，使用不同的預(yù)測(cè)策略，以預(yù)測(cè)出該學(xué)習(xí)者的在線學(xué)習(xí)行為Bt(i).

圖1 語(yǔ)義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測(cè)方法框架Fig.1 Semantic enhanced behavior prediction method for online learners framwork

3 在線學(xué)習(xí)社區(qū)學(xué)習(xí)者行為預(yù)測(cè)

3.1 短文本語(yǔ)義編碼

設(shè)每個(gè)學(xué)習(xí)者i在知識(shí)點(diǎn)t上發(fā)表的短文本為STt(i)={s1,…,sp}，其中，sj={wj1,…,wjLj}表示短文本中的一個(gè)句子，wj*表示句子j中單詞的詞，Lj表示句子j的長(zhǎng)度.首先，利用Word2Vec[17]方法將短文本中的每一個(gè)單詞轉(zhuǎn)換成預(yù)訓(xùn)練好的詞向量，即STt(i)={w11,…,w1L1,…wp1,…,wpLp}.其次，將STt(i)中的所有詞向量作為輸入，基于一種名為L(zhǎng)ong-Short Term Memery(LSTM)[18]的循環(huán)神經(jīng)網(wǎng)絡(luò)建模短文本的語(yǔ)義，具體計(jì)算過(guò)程如公式(1)所示：

(1)

傳統(tǒng)的LSTM模型只從一個(gè)方向建模文本的語(yǔ)義，沒(méi)有充分利用短文本整體的上下文信息.為了解決此問(wèn)題，本文使用BiLSTM來(lái)建模文本語(yǔ)義，具體過(guò)程如圖2所示.

如圖2所示，BiLSTM每個(gè)時(shí)間步的隱藏語(yǔ)義向量由兩個(gè)方向的LSTM隱藏語(yǔ)義向量構(gòu)成，具體計(jì)算采用公式(2).其中,hj是第j個(gè)時(shí)間步兩個(gè)方向的LSTM隱藏語(yǔ)義向量的拼接.

(2)

圖2 BiLSTM示意圖Fig.2 BiLSTM schematic diagram

對(duì)每個(gè)時(shí)間步的BiLSTM的隱藏語(yǔ)義向量取均值，并施加一個(gè)線性和非線性變換作為短文本的最終語(yǔ)義表示，具體過(guò)程如公式(3)所示.

docstt(i)=δ(W0mean(h1,…,hL1+…+Lp)+b0)

(3)

其中，W0是權(quán)值矩陣，b0是偏置向量，σ為激活函數(shù)，具體選擇為sigmod函數(shù).BiLSTM在語(yǔ)義建模的時(shí)候沒(méi)有使用任何的專家信息，自動(dòng)化地獲取到短文本的語(yǔ)義特征和不同的學(xué)習(xí)者發(fā)言的特點(diǎn).

3.2 學(xué)習(xí)者特征構(gòu)建與學(xué)習(xí)狀態(tài)建模

為了準(zhǔn)確預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)行為，本文將3.1節(jié)中得到的短文本向量表示與學(xué)習(xí)者的統(tǒng)計(jì)信息和行為信息進(jìn)行融合.此過(guò)程中本文選取了文獻(xiàn)[21]中使用的8個(gè)統(tǒng)計(jì)特征(如：年齡、性別和教育水平等)構(gòu)建人口統(tǒng)計(jì)特征向量Fgt(i).同時(shí)，選取文獻(xiàn)[20]中使用的16個(gè)學(xué)習(xí)行為特征(如：花費(fèi)在看視頻上的時(shí)間、在論壇中的發(fā)言次數(shù)和回復(fù)次數(shù)等)構(gòu)建學(xué)習(xí)行為特征向量Fbt(i).

通過(guò)對(duì)多源數(shù)據(jù)特征信息的融合，具體為將Fgt(i)、Fbt(i)和DocSTt(i)進(jìn)行拼接即可得到學(xué)習(xí)者在某個(gè)知識(shí)點(diǎn)的完整特征表示Ft(i).但由于學(xué)習(xí)是一個(gè)連續(xù)的過(guò)程，其在某一時(shí)刻的學(xué)習(xí)狀態(tài)是受之前的學(xué)習(xí)狀態(tài)與表現(xiàn)的影響.所以，如何有效地建模學(xué)習(xí)者在不同時(shí)刻的學(xué)習(xí)狀態(tài)并刻畫這些狀態(tài)之間的影響是本文要解決的另一個(gè)問(wèn)題.

文獻(xiàn)[12]提出了一種基于深度學(xué)習(xí)方法以得到學(xué)習(xí)者當(dāng)前的學(xué)習(xí)狀態(tài)，并預(yù)測(cè)其在下次測(cè)驗(yàn)中的得分.基于此，本文提出采用可有效處理時(shí)間序列問(wèn)題的LSTM模型來(lái)建模學(xué)習(xí)狀態(tài)，具體的建模過(guò)程如圖1所示，每個(gè)知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的學(xué)習(xí)者學(xué)習(xí)狀態(tài)St(i)計(jì)算采用公式(4)進(jìn)行計(jì)算.

C′j(i)=tanh(Wc[Sj-1(i),Fj(i)]+bc)fj(i)=σ(Wf[Sj-1(i),Fj(i)]+bf)ij(i)=σ(Wi[Sj-1(i),Fj(i)]+bi)oj(i)=σ(Wo[Sj-1(i),Fj(i)]+bo)Cj(i)=fj(i)°Cj-1(i)+ij(i)°C′j(i)Sj(i)=oj(i)*tanh(Cj(i))

(4)

其中，W*是權(quán)值矩陣；b*是偏置向量；C′j(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的LSTM臨時(shí)狀態(tài)；tanh是激活函數(shù)；Sj-1(i)是前一知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步學(xué)習(xí)者的學(xué)習(xí)狀態(tài)；Fj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的學(xué)習(xí)者特征向量；fj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步遺忘門的計(jì)算結(jié)果；σ是激活函數(shù)；ij(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步輸入門的計(jì)算結(jié)果；Cj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的LSTM狀態(tài)；Cj-1(i)是前一知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的LSTM狀態(tài)；oj-1(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的輸出門的計(jì)算結(jié)果；Sj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的學(xué)習(xí)者學(xué)習(xí)狀態(tài)，即是學(xué)習(xí)者狀態(tài)建模所需要得到的最終結(jié)果，接下來(lái)就可以研究學(xué)習(xí)行為預(yù)測(cè)問(wèn)題.

3.3 在線學(xué)習(xí)行為預(yù)測(cè)

3.3.1 預(yù)測(cè)學(xué)習(xí)者期中考試成績(jī)

基于期中考試時(shí)刻對(duì)應(yīng)時(shí)間步的學(xué)習(xí)狀態(tài)向量ST/2(i)，利用一個(gè)線性變換和sigmod函數(shù)可預(yù)測(cè)其成績(jī)，具體預(yù)測(cè)方法如公式(5)所示：

score(i)=sigmod(W1ST/2(i)+b1)

(5)

其中，score(i)表示所預(yù)測(cè)得到的第i個(gè)學(xué)習(xí)者的期中測(cè)驗(yàn)成績(jī)，W1是線性變換的權(quán)重向量，b1是偏置；損失函數(shù)如公式(6)所示：

(6)

其中，scorer(i)是學(xué)習(xí)者真實(shí)的期中成績(jī).

3.3.2 預(yù)測(cè)學(xué)習(xí)者畢業(yè)與否

學(xué)習(xí)者畢業(yè)與否這個(gè)問(wèn)題可視為一個(gè)二分類的問(wèn)題.由于在不同知識(shí)點(diǎn)上的學(xué)習(xí)狀態(tài)與表現(xiàn)對(duì)于畢業(yè)與否有著不同的影響，所以本文采用注意力機(jī)制[21]來(lái)得到不同時(shí)刻學(xué)習(xí)狀態(tài)的重要性.并利用重要性加權(quán)學(xué)習(xí)者狀態(tài)向量得到學(xué)習(xí)者在課程上的最終學(xué)習(xí)狀態(tài)向量.具體過(guò)程如公式(7)所示：

(7)

其中，e(*)為得分函數(shù)；v是計(jì)算t時(shí)刻學(xué)習(xí)狀態(tài)重要性得分的向量；W2權(quán)值矩陣；b2是偏置向量；θt是不同時(shí)刻學(xué)習(xí)狀態(tài)對(duì)于學(xué)習(xí)者i的重要性，F(xiàn)(i)是最終表示學(xué)習(xí)者i的學(xué)習(xí)狀態(tài)向量.

接下來(lái)，基于深度學(xué)習(xí)理論，利用一個(gè)線性層和softmax函數(shù)可得到學(xué)習(xí)者畢業(yè)與否的概率，具體如公式(8)所示：

P(i)=softmax(W3F(i)+b3)

(8)

其中，P(i)∈[0,1]2是表示學(xué)習(xí)者畢業(yè)與否的概率分布的向量；W3是線性層的權(quán)重矩陣；b3是線性層的偏置向量.此任務(wù)的損失函數(shù)如公式(9)所示：

(9)

其中，Pr(i)是學(xué)習(xí)者i畢業(yè)與否的真實(shí)情況類別向量，只有在其所屬類別對(duì)應(yīng)出現(xiàn)時(shí)該位置的值才為1，其余情況該位置之值為0.

至此，利用以上的策略訓(xùn)練得到的模型可以有效完成相應(yīng)的學(xué)習(xí)者行為預(yù)測(cè)任務(wù).

4 實(shí) 驗(yàn)

本文在真實(shí)的MOOC學(xué)習(xí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，論證了本文方法的有效性.

4.1 數(shù)據(jù)集

本文收集了來(lái)自國(guó)內(nèi)某知名大學(xué)MOOC平臺(tái)上的學(xué)習(xí)行為數(shù)據(jù)集.數(shù)據(jù)集由2013秋季學(xué)期和2014春季學(xué)期的11門完整在線課程組成.將這些課程歸為3大類：工科(計(jì)算機(jī)科學(xué)與電子工程)、理科(經(jīng)濟(jì)學(xué))和文科及其他(歷史和體育).每門課程都設(shè)有論壇，學(xué)習(xí)者可針對(duì)不同知識(shí)點(diǎn)的教學(xué)內(nèi)容發(fā)布問(wèn)題或回復(fù)他人提出的問(wèn)題，這一過(guò)程為本文方法提供了所需的短文本數(shù)據(jù).除此之外，數(shù)據(jù)集還包含學(xué)習(xí)者的人口統(tǒng)計(jì)學(xué)信息和多種類型的學(xué)習(xí)者活動(dòng)數(shù)據(jù)，如觀看視頻、完成作業(yè)、下載資源等數(shù)據(jù)，總計(jì)56800000個(gè)時(shí)間戳記的活動(dòng)日志數(shù)據(jù).表1介紹了數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)數(shù)據(jù).

表1 數(shù)據(jù)集介紹Table 1 Dataset introduction

4.2 實(shí)驗(yàn)設(shè)置

在超參數(shù)設(shè)置上，利用Glove[20]訓(xùn)練得到200維度的詞向量.將BiLSTM模型的隱藏節(jié)點(diǎn)個(gè)數(shù)設(shè)置為100，即BiLSTM每個(gè)時(shí)間步的輸出為200維向量.設(shè)短文本語(yǔ)義向量的維度設(shè)置為20；每個(gè)短文本最多含有20個(gè)句子，且每個(gè)句子的長(zhǎng)度不大于50個(gè)單詞.再采用Adam[22]方法優(yōu)化整體模型的參數(shù).將學(xué)習(xí)狀態(tài)的維度m設(shè)置為24.

4.3 在線學(xué)習(xí)行為預(yù)測(cè)實(shí)驗(yàn)結(jié)果

本節(jié)說(shuō)明短文本語(yǔ)義增強(qiáng)的學(xué)習(xí)行為預(yù)測(cè)方法實(shí)驗(yàn)結(jié)果.首先從每門課程中選取發(fā)表短文本次數(shù)處于前80%的學(xué)習(xí)者數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集.

4.3.1 預(yù)測(cè)學(xué)習(xí)者畢業(yè)與否

本文在11門課程上進(jìn)行了預(yù)測(cè)學(xué)習(xí)者畢業(yè)與否的實(shí)驗(yàn).每門課程將80%的學(xué)習(xí)者數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，將其余20%的數(shù)據(jù)作為測(cè)試測(cè)試.實(shí)驗(yàn)中的測(cè)評(píng)指標(biāo)采用Precision、Recall和F1.由于本文數(shù)據(jù)集不滿足基于概率的預(yù)測(cè)方法的需求，所以選擇兩種傳統(tǒng)的機(jī)器學(xué)習(xí)方法Logistic Regression(LR)、Support Vector Machine(SVM)代替基于概率的方法作為本文方法的對(duì)比方法.選擇方法Factorization Machine(FM)[16]作為代表基于矩陣因子化預(yù)測(cè)方法的對(duì)比方法.由于Latent Dynamic Factor Graph(LadFG)[20]被證明優(yōu)于大部分深度學(xué)習(xí)方法，所以選擇其作為代表基于深度學(xué)習(xí)預(yù)測(cè)方法的對(duì)比方法.LR和SVM利用除短文本語(yǔ)義信息外的統(tǒng)計(jì)信息和學(xué)習(xí)行為信息特征訓(xùn)練logistic回歸模型和SVM模型，并利用訓(xùn)練好的摸型進(jìn)行預(yù)測(cè).FM方法先構(gòu)造學(xué)習(xí)者-課程矩陣，將學(xué)習(xí)者對(duì)應(yīng)課程的成績(jī)作為矩陣元素，利用矩陣因子化的方法可得到學(xué)習(xí)者和課程的特征向量，再基于特征向量去判斷學(xué)習(xí)者畢業(yè)與否.LadFG利用學(xué)習(xí)者的人口統(tǒng)計(jì)數(shù)據(jù)、學(xué)習(xí)行為數(shù)據(jù)和論壇行為數(shù)據(jù)構(gòu)建動(dòng)態(tài)圖模型，再基于學(xué)習(xí)者的整個(gè)過(guò)程的學(xué)習(xí)狀態(tài)去預(yù)測(cè)學(xué)習(xí)者畢業(yè)與否.具體結(jié)果如表2所示.

表2 預(yù)測(cè)學(xué)習(xí)者畢業(yè)與否效果對(duì)比Table 2 Result compare of predicting learners′ graduation or not

如表2所示，由于LRC和SVM方法僅考慮基本不變的統(tǒng)計(jì)學(xué)特征和學(xué)習(xí)行為的平均數(shù)值，所以無(wú)法學(xué)習(xí)到學(xué)習(xí)者學(xué)習(xí)狀態(tài)的變化，因此這兩種方法的預(yù)測(cè)效果較差.FM方法僅利用學(xué)習(xí)者的成績(jī)數(shù)據(jù)，無(wú)法刻畫學(xué)習(xí)者整體的學(xué)習(xí)行為，所以此方法的預(yù)測(cè)效果也不理想.相比之下，本文方法與LadFG方法均在時(shí)序上考慮學(xué)習(xí)者的多種特征，因此可學(xué)習(xí)到不同時(shí)刻的學(xué)習(xí)狀態(tài)變化信息，所以實(shí)驗(yàn)效果較好.同時(shí)，本文方法還使用了短文本語(yǔ)義增強(qiáng)機(jī)制和注意力機(jī)制，這不僅使得本文方法可學(xué)習(xí)到學(xué)習(xí)者主觀因素，而且還可以捕捉到不同時(shí)刻學(xué)習(xí)狀態(tài)對(duì)學(xué)習(xí)者畢業(yè)與否的不同的重要性，這又進(jìn)一步提升了本文方法的預(yù)測(cè)準(zhǔn)確性.

4.3.2 期中成績(jī)預(yù)測(cè)

首先本文將百分制的分?jǐn)?shù)換算到[0,1]區(qū)間，并在11門課程上進(jìn)行了期中成績(jī)預(yù)測(cè)任務(wù)的實(shí)驗(yàn).每門課程選擇80%的學(xué)習(xí)者數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，選擇其余的20%的數(shù)據(jù)作為測(cè)試數(shù)據(jù).由于成績(jī)預(yù)測(cè)任務(wù)的輸出是數(shù)值類型，所以此處采用以下兩個(gè)測(cè)評(píng)指標(biāo)，具體形式如公式(10)和公式(11)所示.

(10)

其中，T[-0.03,+0.03]表示預(yù)測(cè)分?jǐn)?shù)和學(xué)習(xí)者真實(shí)期中成績(jī)的差距在此區(qū)間范圍之內(nèi)的學(xué)習(xí)者人數(shù)，N為測(cè)試集中的所有學(xué)習(xí)者人數(shù).

(11)

在實(shí)驗(yàn)對(duì)比方法上，除了上一節(jié)提到的方法FM和方法LadFG之外，同時(shí)再引入多變量回歸(MR)作為本文方法的對(duì)比算法.具體為利用除短文本信息外的統(tǒng)計(jì)信息和學(xué)習(xí)行為信息特征訓(xùn)練多變量回歸模型，并利用此模型進(jìn)行預(yù)測(cè).實(shí)驗(yàn)結(jié)果如表3所示.

表3 期中成績(jī)預(yù)測(cè)效果對(duì)比Table 3 Result compare of predicting learners′ grade

4.3.3 收斂性實(shí)驗(yàn)

為了證明本文方法在實(shí)際使用時(shí)候的有效性，本文針對(duì)這11門課程數(shù)據(jù)進(jìn)行了收斂性分析.首先選取每門課程80%的學(xué)習(xí)者數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，并設(shè)置學(xué)習(xí)狀態(tài)向量的維度m為24.

圖3 收斂性分析Fig.3 Convergence analysis

圖3為收斂性分析的結(jié)果，每次迭代利用了50個(gè)學(xué)習(xí)者的數(shù)據(jù)作為輸入，結(jié)果顯示：在大約15000次迭代(大約300次epoch)之后模型就會(huì)逐漸收斂.

5 總結(jié)

本文提出了一種語(yǔ)義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測(cè)方法.首先，利用BiLSTM得到短文本的語(yǔ)義向量.其次，將短文信息、學(xué)習(xí)行為信息和統(tǒng)計(jì)信息相融合，并利用LSTM對(duì)學(xué)習(xí)狀態(tài)進(jìn)行建模.最后，針對(duì)不同的學(xué)習(xí)行為應(yīng)用不同的策略進(jìn)行預(yù)測(cè).通過(guò)在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)證明了利用短文本語(yǔ)義信息能有效地提升在線學(xué)習(xí)行為預(yù)測(cè)的精度，并且此方法原則上能夠用于所有學(xué)習(xí)行為的預(yù)測(cè)，具有很強(qiáng)的通用性.