黃少年 陳榮元 申立智



摘要:教育大數(shù)據(jù)背景下,如何利用學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù),分析并預(yù)測學(xué)習(xí)行為,評價(jià)教學(xué)效果是當(dāng)前需解決的重要問題。本文基于MOOC網(wǎng)站的學(xué)習(xí)者學(xué)習(xí)行為數(shù)據(jù),采用長短時記憶網(wǎng)絡(luò)模型,構(gòu)建學(xué)習(xí)者學(xué)業(yè)警示預(yù)測模型,對學(xué)習(xí)者的學(xué)習(xí)過程起到一定的監(jiān)督作用。
關(guān)鍵詞:學(xué)習(xí)行為分析;行為預(yù)測;警示模型
中圖分類號:G424? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)23-0207-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
隨著移動互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的不斷深入發(fā)展和推陳出新,來自各行各業(yè)的數(shù)據(jù)量呈爆炸式增長,人類社會正式步入大數(shù)據(jù)時代。大數(shù)據(jù)作為人類世界的下一個自然資源,在各個領(lǐng)域中都具有旺盛的應(yīng)用需求和廣闊的發(fā)展前景;尤其是教育工作者已經(jīng)充分意識到大數(shù)據(jù)在教育領(lǐng)域的“無限潛能”。大數(shù)據(jù)背景下,教師可以利用數(shù)據(jù)來創(chuàng)新教學(xué)環(huán)境,改善教學(xué)過程,增強(qiáng)教學(xué)效果。還可以在教育評價(jià)中利用大數(shù)據(jù)進(jìn)行分析,運(yùn)用技術(shù)層面來對于教學(xué)進(jìn)行評價(jià)與分析,從而對整體的教育綜合質(zhì)量進(jìn)行提升。另一方面,隨著教育領(lǐng)域MOOC教學(xué)模式的迅速發(fā)展,越來越多的慕課平臺開始公開平臺用戶學(xué)習(xí)行為的相關(guān)數(shù)據(jù)。如:edX、Coursera、Canvas Network、學(xué)堂在線、慕課網(wǎng)等。通過對以上數(shù)據(jù)的深度挖掘和分析,可以對用戶的學(xué)習(xí)行為進(jìn)行分類和預(yù)測,為學(xué)生提供實(shí)時的學(xué)習(xí)指導(dǎo),為教師提供相應(yīng)的教學(xué)反饋,從不同角度提高教學(xué)質(zhì)量。本文基于KDD-CUP2015開發(fā)數(shù)據(jù)集,分析用戶的學(xué)習(xí)行為,并構(gòu)建學(xué)業(yè)警示預(yù)測模型。
1 國內(nèi)外研究現(xiàn)狀
國內(nèi)外許多研究者針對大數(shù)據(jù)背景下的網(wǎng)絡(luò)學(xué)習(xí)行為進(jìn)行研究,已經(jīng)取得了豐富的研究成果。國外對學(xué)習(xí)行為領(lǐng)域的研究起步較早,Hoskins. L和Hooff .J 通過對在線學(xué)習(xí)行為的分析,關(guān)聯(lián)挖掘其學(xué)習(xí)行為與學(xué)習(xí)成效之間的關(guān)聯(lián)關(guān)系[1]。Chaplot等則采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),基于MOOC數(shù)據(jù)情感分析預(yù)測學(xué)習(xí)行為[2]。Kloft等則采用機(jī)器學(xué)習(xí)方法,預(yù)測學(xué)習(xí)者在慕課網(wǎng)站上的周逃課率[3]。國內(nèi)對于網(wǎng)絡(luò)學(xué)習(xí)行為領(lǐng)域的研究目前也已經(jīng)形成豐富的研究成果。陳蘭嵐等對學(xué)習(xí)者的類型與學(xué)習(xí)行為進(jìn)行統(tǒng)計(jì)分析,研究學(xué)習(xí)行為與學(xué)習(xí)成效間的關(guān)聯(lián)關(guān)系[4]。榮騰中等對學(xué)習(xí)行為時序數(shù)據(jù)采用高階MPT模型進(jìn)行分析,實(shí)現(xiàn)行為數(shù)據(jù)的短期預(yù)測[5]。沈欣憶等利用中國慕課大學(xué)選修課網(wǎng)站的學(xué)習(xí)行為數(shù)據(jù),采用多種方法構(gòu)建學(xué)習(xí)評價(jià)模型,挖掘?qū)W習(xí)者的不同學(xué)習(xí)特性[6]。
2 KDDCUP2015數(shù)據(jù)集
KDD-CUP2015[7]是由國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽委員會提供的2015年比賽數(shù)據(jù),用于預(yù)測幕課平臺的逃課率。該數(shù)據(jù)集將數(shù)據(jù)分類測試集與訓(xùn)練集,且每類數(shù)據(jù)中均包含如下CSV格式的資源文件,分別為:date.csv、object.csv、sampleSubmission.csv、enrollment_train.csv 、log_train.csv、true_trian.csv。其中,date.csv記錄每門課程的時間跨度;object.csv記錄每門課程的具體信息,包括:課程ID,課程模塊ID,課程種類及子類;enrollment_train.csv記錄選課信息,包括:注冊ID、用戶ID及課程ID。Log_train.csv為網(wǎng)站的日志數(shù)據(jù),記錄學(xué)習(xí)者學(xué)習(xí)行為,包括:注冊號、行為時間、事件類型。該數(shù)據(jù)集共定義了7種事件, 如:做作業(yè)、看視頻、數(shù)據(jù)訪問、閱讀課程Wiki信息、討論、課程瀏覽、其余對象訪問。True_trian.csv為是否逃課的訓(xùn)練標(biāo)簽,包括注冊號及是否逃課;
3 基于學(xué)習(xí)行為的學(xué)業(yè)警示模型
在教學(xué)過程中,學(xué)習(xí)者的不同學(xué)習(xí)行為反映了其不同的學(xué)習(xí)態(tài)度,從而在最終的學(xué)習(xí)效果上體現(xiàn)不同的差異。對于教學(xué)管理者而言,能否基于學(xué)習(xí)者在不同時間段的學(xué)習(xí)行為對學(xué)習(xí)效果做出預(yù)測和預(yù)警,起到實(shí)時教學(xué)反饋、調(diào)整教學(xué)方法和途徑、從而最終提高教學(xué)質(zhì)量的效果,是大數(shù)據(jù)背景下教學(xué)管理工作需要解決的關(guān)鍵問題。本文基于KDD CUP2015提供的公開數(shù)據(jù)集,提出了基于學(xué)習(xí)行為數(shù)據(jù)的學(xué)業(yè)警示模型,該模型根據(jù)學(xué)習(xí)者在一段時間內(nèi)的學(xué)習(xí)行為數(shù)據(jù),給出是否進(jìn)行學(xué)業(yè)警示判斷,從而加強(qiáng)對學(xué)習(xí)者學(xué)習(xí)過程的監(jiān)督,提高學(xué)習(xí)者學(xué)習(xí)專注度。
3.1數(shù)據(jù)預(yù)處理
為了能基于學(xué)習(xí)者學(xué)習(xí)行為對學(xué)習(xí)效果做出預(yù)測和警示,本文首先從KDD-CUP2015數(shù)據(jù)集中提取8種特征表示學(xué)習(xí)者的學(xué)習(xí)行為,具體特征如表1所示。表中所有特征均首先進(jìn)行歸一化處理,通過線性變化將其映射為[[0,1]]區(qū)間。
學(xué)習(xí)者學(xué)習(xí)效果是其在一段時間內(nèi)的學(xué)習(xí)行為的綜合體現(xiàn),鑒于此,為建模學(xué)習(xí)警示模型,本文基于對數(shù)據(jù)集的特征分析,提取學(xué)習(xí)者學(xué)習(xí)行為特征的時間序列數(shù)據(jù),即[(X1,X2,...Xt)]。其中[X1={x11,x12,...x18}]表示學(xué)習(xí)者在當(dāng)前時間段內(nèi)的學(xué)習(xí)行為特征,[Xt]則表示學(xué)習(xí)者在第[t]個時間段內(nèi)的學(xué)習(xí)行為。本文構(gòu)建的學(xué)習(xí)模型將根據(jù)學(xué)習(xí)者在持續(xù)時間段內(nèi)的學(xué)習(xí)行為數(shù)據(jù),預(yù)測學(xué)習(xí)者在下一階段內(nèi)的學(xué)習(xí)行為,并判斷是否進(jìn)行學(xué)習(xí)警示。
3.2模型結(jié)構(gòu)
基于學(xué)習(xí)特征時間序列數(shù)據(jù),本文采用長短時記憶網(wǎng)絡(luò)(LSTM)[8]預(yù)測學(xué)習(xí)者在下一階段的學(xué)習(xí)特征,并判斷是否進(jìn)行學(xué)習(xí)警示。其網(wǎng)絡(luò)模型結(jié)構(gòu)圖1所示。
其中,LSTM單元為是為了避免長依賴問題而精心設(shè)計(jì)的、用于記住較長的歷史信息的存儲單元。該單元的結(jié)構(gòu)圖如圖2所示。
其中:
上式中[×]為點(diǎn)乘操作,[δ]為sigmoid激活函數(shù)。tanh函數(shù)為sigmoid函數(shù)的變形,該函數(shù)定義為如下形式:
對于輸入的學(xué)習(xí)行為時間序列特征[(X1,X2,...Xt)],通過本文模型產(chǎn)生的非線性變化,將模型的預(yù)測輸出可表示為[(h1,h2,...ht)].
3.3學(xué)習(xí)警示預(yù)測
本文將學(xué)業(yè)警示預(yù)測問題表示為二分類問題,即:若學(xué)習(xí)者在之前的一段時間內(nèi)都積極參與該課程學(xué)習(xí),則認(rèn)為該學(xué)生學(xué)習(xí)狀態(tài)正常,可預(yù)測在后續(xù)時間范圍內(nèi)該生將繼續(xù)保持積極的學(xué)習(xí)狀態(tài);若學(xué)習(xí)者在一段時間內(nèi)沒有參與網(wǎng)絡(luò)課程的學(xué)習(xí),其學(xué)習(xí)行為在本模型中的輸出將如正常學(xué)習(xí)行為有較大差別,則被認(rèn)為異常學(xué)習(xí)狀態(tài),并標(biāo)記為警示狀態(tài)。本文采用sotfmax函數(shù)將輸出[(h1,h2,...ht)]轉(zhuǎn)化為[[0,1]]概率分布,并采用交叉熵?fù)p失函數(shù)計(jì)算預(yù)測學(xué)習(xí)特征分布與學(xué)習(xí)特征標(biāo)簽分布之間的距離。
4 小結(jié)
本文通過對慕課網(wǎng)站學(xué)習(xí)行為數(shù)據(jù)的分析,探索提出了一種基于長短時記憶網(wǎng)絡(luò)的學(xué)業(yè)警示模型,該模型根據(jù)學(xué)習(xí)者在一段時間內(nèi)的學(xué)習(xí)行為特征數(shù)據(jù)預(yù)測學(xué)習(xí)者的學(xué)習(xí)效果,并給出學(xué)業(yè)警示判斷。該模型對教學(xué)大數(shù)據(jù)背景下教學(xué)行為分析有一定的指導(dǎo)作用,對大數(shù)據(jù)環(huán)境下新型混合式教學(xué)模型的構(gòu)建奠定了基礎(chǔ)。
參考文獻(xiàn):
[1]Hoskins L, Hooff J. Motivation and ability: which students use online learning and what influence does it have on their achievement[J]. British Journal of Educational Technology, 2005,36(2): 177-192.
[2]Chaplot D, Rhim E, Kim J. Predicting Student Attrition in MOOC using Sentiment Analysis and Neural Networks[C]. International Conference on Artificial Intelligence in Education, 2015,18(6-7): 317-329.
[3] Kloft, M. Stiehler, F. Zheng, Z. Pinkwart. Predicting MOOC Dropout over Weeks Using Machine Learning Methods[C]. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in MOOC: 60-65.
[4] 陳蘭嵐,宋海虹.基于MOOC數(shù)據(jù)挖掘的學(xué)習(xí)行為和學(xué)習(xí)成效分析[J].教育教學(xué)論壇,2019(21):50-51.
[5] 榮騰中,閔祥暉.MOOC學(xué)習(xí)行為數(shù)據(jù)的高階離散MPT模型分析[J].統(tǒng)計(jì)與決策,2019(10):14-17.
[6]沈欣憶,吳健偉,張艷霞,等.MOOCAP學(xué)習(xí)者在線學(xué)習(xí)行為和學(xué)習(xí)效果評價(jià)模型研究[JL].中國遠(yuǎn)程教育:1-9.
[7]P.Fournier-Viger. The KDDCup 2015 dataset.http://data-mining.philippe-fournier-viger.com/the-kddcup-2015-dataset-download-link/.[EB/OL]
[8] Klaus Greff , Rupesh K. Srivastava , Jan Koutník, et al. LSTM: A Search Space Odyssey. IEEE Transactions on Neural Networks and Learning Systems,2017,28(10):2222-2232.
【通聯(lián)編輯:唐一東】