樊一娜 郎 波
(北京師范大學珠海分校 珠海 519087)
目前已經(jīng)有很多研究者在這方面進行了大量的研究工作,主要有Ohia 博士提出的著名的六步模型FAMOUS,主要思想是采集和學業(yè)成績相關(guān)的數(shù)據(jù)[1~3],這六個方面分別是Formulate,Ascertain,Measure,Observe,Use,Strength。Duque等通過調(diào)查問卷進行數(shù)據(jù)采集,采用ANOVA方程進行建模,對學生的學業(yè)成績進行預測。文獻[4]提出了基于Quality Function Deployment(QFD),文獻[5]通過分析日常學習行為并對學習結(jié)果進行分類,提出了一種基于學習內(nèi)容分析、行為分析、狀態(tài)分析的成績預測模型。而文獻[6]提出的LAOMA 模型則是通過學生在學習過程以及課堂內(nèi)外的表現(xiàn)情況對學業(yè)成績進行預測。文獻[7]通過若干個工程項目的數(shù)據(jù),主要討論學習的評價標準、學習經(jīng)歷與最后學業(yè)成績之間的關(guān)系。文獻[8]采用象限分析的方法來研究學習滿意度和成就感與最終學業(yè)成績之間的關(guān)系。上述研究結(jié)果在成績預測方面已經(jīng)做出了很大的進步,沿用的基本上是單點預測的方法。但是由于在線學習的隨機性和間歇性,當選取的預測周期內(nèi)某因素發(fā)生明顯變化時,可能會導致最終的輸出波動比較大,所以,如果對學業(yè)成績進行確定性的單點預測可能達不到理想的精度,另外,單點預測無法形成成績的變化趨勢,導致教學管理者或者學習者本身無法根據(jù)這種趨勢及時對學習狀態(tài)做出調(diào)整,對在線學習者未來可能發(fā)生的情形及變化難以把握。本文希望能夠給出下一時刻或時間段所有可能的數(shù)值及其他能夠影響學業(yè)成績的因素所發(fā)生的概率,至少要覆蓋較為全面的預測信息,那么利用概率化的方法就顯得更有價值。利用概率的方法來進行預測也有相關(guān)的研究進展,例如文獻[9]中利用自回歸時間序列模型,對各變量的概率密度函數(shù)進行估計得出先驗概率分布,最后應用貝葉斯方法進行推理來得出后驗概率分布[10]。貝葉斯網(wǎng)絡是由一組隨機變量及相關(guān)的條件概率組成的有向無環(huán)圖,適用于不確定性事務有條件的依賴多種控制因素的相關(guān)問題,目前多應用于氣象及水文方面[11~12],但是在在線學習成績預測方面尚無應用。而動態(tài)貝葉斯網(wǎng)絡模型加入了時間信息,對于受時間因素影響的問題提供了解決途徑[13],這也是本文采用動態(tài)貝葉斯來進行成績預測的原因。

設參數(shù)的先驗分布為P( w1,w2,…,wn),一般情況下,取具有指數(shù)形式的先驗分布,如式(2)所示:


可以得到貝葉斯網(wǎng)絡進行預測時,不斷更新的輸入值與預測值之間的關(guān)系如式(4)所示:

建立預測模型的第一步是構(gòu)建網(wǎng)絡結(jié)構(gòu),根據(jù)上述分析,本文對動態(tài)貝葉斯網(wǎng)絡結(jié)構(gòu)的構(gòu)建按照以下步驟進行。
1)如何選取節(jié)點變量
在實際測試中,以每天為單位對數(shù)據(jù)進行歸一化處理,學習者每天學習的情況受不同影響因子的作用。為了測試結(jié)果公平,統(tǒng)一將每天的影響因子歸結(jié)為五類,為了公平起見,選取影響因子的標準是盡可能地滿足所有狀態(tài)學習的變化,通過大量的實驗測試,我們選取作業(yè)分數(shù)、提問回答、登錄次數(shù)、學習時長、課程資源訪問頻率五個因素,具體的表現(xiàn)關(guān)系如圖1所示。

圖1 在線學習影響因子的變化狀態(tài)
從圖1 中可以看出,這五種影響因子的變化規(guī)律對每個學習者基本呈現(xiàn)相同的規(guī)律,可以用作統(tǒng)計參數(shù)使用。每天的實際影響因子表現(xiàn)為它們的不同組合。用前一日的學習數(shù)據(jù)按一定的權(quán)重比例加上當天的影響因子構(gòu)成完整的數(shù)據(jù)作為訓練樣本,訓練目標以當日的數(shù)據(jù)為基本單位,用當日的測試數(shù)據(jù)及后一日的學習狀態(tài)影響因子來預測后一日的學習成績,依次迭代下去。
2)如何劃分節(jié)點狀態(tài)
關(guān)鍵節(jié)點選定之后,其狀態(tài)主要考慮一段時間內(nèi)的變化周期內(nèi),根據(jù)該變量的歷史最大值和最小值,劃分為不同的取值區(qū)間,然后再按照區(qū)間劃分為不同的狀態(tài),形成各自的狀態(tài)空間。
3)如何確定有向邊的關(guān)系
有向邊用來表示不同節(jié)點的不同狀態(tài)之間互相轉(zhuǎn)移變化的規(guī)律。從在線學習的特點來分析,我們選取的五個關(guān)鍵因素互相牽制,互相聯(lián)系,每一個關(guān)鍵節(jié)點的變化都不是獨立變化的,例如,通常認為,“學習時長”的變化可能會影響到“作業(yè)分數(shù)”的變化,“登錄次數(shù)”的變化也可能與“學習時長”有很強的關(guān)聯(lián)性,因此,我們可以定義如下因果關(guān)系,如式(5)所示:

式中Pgrade為學業(yè)成績,t 和t+1 分別表示當前時刻和預測時刻,F(xiàn)t+1表示能夠影響到最終預測成績精度的各個因素。各個關(guān)鍵因素之間的因果關(guān)系可以如式(6)表示:

在成績預測模型結(jié)構(gòu)已經(jīng)確定節(jié)點參數(shù)的前提下,通過歷史數(shù)據(jù)找出真實反映各影響因素之間互相依賴的關(guān)系屬性。用極大似然估計法來計算各節(jié)點的條件概率表,具體表示如下:
設學生在線學習的歷史數(shù)據(jù)為S={S1,S2,…,Sm},似然函數(shù)可定義為


則式(7)可以變化為


在成績預測的模型結(jié)構(gòu)和節(jié)點參數(shù)都確定的前提下,可以用條件概率公式來預測某一時間段的成績分布,這是典型的貝葉斯概率推理的問題。
為驗證本文提出的成績預測概率模型,使用了Python 中的Bayes Network Toolbox 來實現(xiàn)網(wǎng)絡的構(gòu)建。在實際預測中,本文把從教學平臺中獲得的歷史數(shù)據(jù)根據(jù)學生注冊時間的先后,學生能力層級的高低、所學課程難度的高低進行區(qū)間劃分。然后按照學完一門課程所花費的時間進行時間片劃分,分別進行預測。圖2 表示在學習初期、期中、期末的三種典型情況。

圖2 學習者在三種時間區(qū)間下的成績概率分布
在教育云服務、大數(shù)據(jù)飛速發(fā)展的前提下,學習者在網(wǎng)絡學習的活動或行為形成了具有多維信息的立體化數(shù)據(jù),通過對這些歷史數(shù)據(jù)有效進行分析,預測出學生未來可能的成績概率分布,能夠及早的發(fā)現(xiàn)存在學習障礙和困難的學生,為有效進行教學干預提供了科學化依據(jù)。在線學習與傳統(tǒng)學習之間的最大區(qū)別就是管理松散、組織靈活,很難有效進行教學監(jiān)督。本研究提供的利用動態(tài)貝葉斯方法通過歷史數(shù)據(jù)的分析來對學生未來的學習成績進行有效預測,為松散化的在線學習進行有效教學管理提供了一種思路。在后期的研究中,我們將融入情感計算的技術(shù),采集學習者的情感特征數(shù)據(jù),使得預測數(shù)據(jù)能夠更加準確地反映學習者的真實狀態(tài),真正使得在線學習實現(xiàn)智能化。