于淑云
(福建船政交通職業(yè)學(xué)院 信息與智慧交通學(xué)院,福建 福州 350007)
隨著線上教學(xué)平臺(tái)應(yīng)用的日益普及,網(wǎng)絡(luò)教學(xué)資源平臺(tái)上的課程資源越來(lái)越豐富.線上教學(xué)已經(jīng)成為傳統(tǒng)教學(xué)不可或缺的組成部分[1].用戶在使用教學(xué)資源平臺(tái)的過(guò)程中,沉淀了大量的歷史數(shù)據(jù)和記錄信息,記錄了學(xué)生的學(xué)習(xí)狀態(tài)、學(xué)習(xí)行為和階段性評(píng)價(jià)數(shù)據(jù)等信息.通過(guò)對(duì)這些數(shù)據(jù)隱藏的規(guī)律進(jìn)行分析和挖掘,不僅能讓教師及時(shí)了解學(xué)生的學(xué)習(xí)狀態(tài)和學(xué)習(xí)效果,還能為教師調(diào)整教學(xué)方法和教學(xué)內(nèi)容提供有效的支撐和參照.
目前數(shù)據(jù)挖掘技術(shù)在商業(yè)、金融業(yè)、市場(chǎng)營(yíng)銷等領(lǐng)域已經(jīng)得到了廣泛的應(yīng)用,但在信息教育領(lǐng)域的應(yīng)用還相對(duì)較少[2].高校對(duì)學(xué)生信息、成績(jī)等數(shù)據(jù)的處理還停留在簡(jiǎn)單的數(shù)據(jù)備份、統(tǒng)計(jì)和查詢階段,大量的信息還沒(méi)有被挖掘和利用起來(lái).本文基于優(yōu)慕課教學(xué)資源平臺(tái),通過(guò)對(duì)平臺(tái)保存的歷史記錄和教師授課記錄等信息進(jìn)行整理和挖掘,分析提取學(xué)生在線學(xué)習(xí)的行為數(shù)據(jù),使用決策樹(shù)構(gòu)建教學(xué)效果預(yù)測(cè)模型,為教學(xué)提供成績(jī)預(yù)警分析,讓教師在網(wǎng)絡(luò)教學(xué)過(guò)程中了解學(xué)生的學(xué)習(xí)情況,及時(shí)干預(yù),從而改善網(wǎng)絡(luò)教學(xué)效果.
分類是數(shù)據(jù)挖掘的重要方法,常見(jiàn)的分類模型有邏輯回歸、K近鄰模型、決策樹(shù)模型、樸素貝葉斯和支持向量機(jī)模型等,不同分類模型的區(qū)別在于對(duì)輸入輸出映射關(guān)系的形式有不同假設(shè)[3].在數(shù)據(jù)科學(xué)領(lǐng)域,決策樹(shù)原理簡(jiǎn)單,易于理解,具有較高的精確度和良好的數(shù)據(jù)處理能力,是數(shù)據(jù)科學(xué)領(lǐng)域最為經(jīng)典的模型之一,它可以建立有價(jià)值的分類規(guī)則,幫助決策者做出正確的預(yù)測(cè).基于不同的節(jié)點(diǎn)分裂評(píng)價(jià)標(biāo)準(zhǔn)、能夠處理的特征類型和目標(biāo)特征類型,研究者提出了不同的決策樹(shù)算法,常見(jiàn)的有ID3、C4.5、CART3種經(jīng)典決策樹(shù).根據(jù)本文待分析的教學(xué)數(shù)據(jù)特點(diǎn),選擇ID3算法.ID3算法無(wú)法處理連續(xù)型特征,偏向于取值較多的特征,這正好符合優(yōu)慕課教學(xué)平臺(tái)用戶數(shù)據(jù)的特征[4].
ID3算法使用信息熵作為節(jié)點(diǎn)不純度的度量,使用信息增益作為節(jié)點(diǎn)分裂評(píng)價(jià)標(biāo)準(zhǔn),數(shù)據(jù)集中有C類,節(jié)點(diǎn)t中第c類樣本的相對(duì)頻率為p(c|t),節(jié)點(diǎn)t的信息熵為:

(1)
若節(jié)點(diǎn)t0包含n個(gè)數(shù)據(jù),經(jīng)過(guò)分裂生成k個(gè)子節(jié)點(diǎn),信息增益定義為:

(2)
在實(shí)際應(yīng)用過(guò)程中,為了避免過(guò)度擬合問(wèn)題,通常使用信息增益率代替信息增益作為評(píng)價(jià)分裂好壞的標(biāo)準(zhǔn):
(3)
本文研究的是以ID3算法為基礎(chǔ)分析預(yù)測(cè)在線學(xué)習(xí)效果的一種方法.實(shí)驗(yàn)流程包含了數(shù)據(jù)處理、特征選擇、模型建立、模型評(píng)價(jià)4個(gè)步驟,具體過(guò)程如圖1所示.

圖1 決策樹(shù)處理過(guò)程
在構(gòu)建決策樹(shù)模型的樣本集合時(shí),特征越多,模型訓(xùn)練耗時(shí)就越長(zhǎng),隨著特征數(shù)量的增加,構(gòu)建的模型就會(huì)更加復(fù)雜,其泛化能力就會(huì)下降.因此,屬性特征的選擇直接影響建模的性能和分類的準(zhǔn)確性.從優(yōu)慕課平臺(tái)獲取的數(shù)據(jù)雖然規(guī)整、標(biāo)準(zhǔn),但是含有各種繁雜冗余的屬性信息,需要將這些數(shù)據(jù)進(jìn)行刪除、選擇和連接運(yùn)算,從而獲得有效數(shù)據(jù)特征[5].不同的屬性特征對(duì)分類有不同的敏感程度,在具體實(shí)驗(yàn)中,應(yīng)根據(jù)實(shí)驗(yàn)需求選取數(shù)據(jù)特征.優(yōu)慕課平臺(tái)獲取的數(shù)據(jù)中,包含了大量的考試成績(jī)、作業(yè)成績(jī)、小測(cè)評(píng)分等數(shù)據(jù)信息,為了便于構(gòu)建分類模型,應(yīng)將這些成績(jī)數(shù)據(jù)全部轉(zhuǎn)為等級(jí)制數(shù)據(jù).
該實(shí)驗(yàn)的目的是經(jīng)過(guò)數(shù)據(jù)分析,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)教學(xué)過(guò)程中學(xué)生的學(xué)習(xí)狀態(tài),便于教師及時(shí)調(diào)整教學(xué)方法或個(gè)性化輔導(dǎo),因此,在處理數(shù)據(jù)時(shí),應(yīng)將課程的章節(jié)知識(shí)點(diǎn)結(jié)構(gòu)并入樣本數(shù)據(jù)集中,使教師在發(fā)現(xiàn)學(xué)生的學(xué)習(xí)狀態(tài)出現(xiàn)異常時(shí),能夠了解是在知識(shí)結(jié)構(gòu)的哪個(gè)節(jié)點(diǎn)出現(xiàn)問(wèn)題.
數(shù)據(jù)處理完成后,可以進(jìn)行分類器訓(xùn)練.將處理好的數(shù)據(jù)集隨機(jī)抽取60%作為訓(xùn)練集,隨機(jī)抽取剩下數(shù)據(jù)的20%作為測(cè)試集.決策樹(shù)的生成從根節(jié)點(diǎn)開(kāi)始,選擇對(duì)應(yīng)特征;然后選擇該節(jié)點(diǎn)特征的分裂點(diǎn),根據(jù)分裂點(diǎn)完成節(jié)點(diǎn)分裂.
最后,為了提高模型的準(zhǔn)確率,用十折交叉驗(yàn)證的方法對(duì)建立好的模型進(jìn)行測(cè)試.將數(shù)據(jù)集隨機(jī)分成10份,輪流將其中的9份作為訓(xùn)練數(shù)據(jù),另1份作為校驗(yàn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),每次實(shí)驗(yàn)獲得一個(gè)正確率,對(duì)10次實(shí)驗(yàn)結(jié)果取平均值,作為決策樹(shù)算法模型的精度值.
本文研究的主要目的是預(yù)測(cè)某一階段網(wǎng)絡(luò)教學(xué)中學(xué)生的學(xué)習(xí)效果,因此在平臺(tái)導(dǎo)出的數(shù)據(jù)集中選擇學(xué)習(xí)效果相關(guān)的屬性特征,主要包括進(jìn)入課程次數(shù)、上交作業(yè)次數(shù)和每次作業(yè)成績(jī)、討論區(qū)發(fā)言次數(shù)、發(fā)言獲贊得分、在線時(shí)長(zhǎng)、閱讀在線資源數(shù)量、學(xué)習(xí)筆記數(shù)量、參加網(wǎng)課時(shí)長(zhǎng)、階段小測(cè)成績(jī)和選修課程等,并對(duì)一些屬性特征做了歸納處理.如平臺(tái)導(dǎo)出的原始數(shù)據(jù)中包含課程討論區(qū)發(fā)表話題次數(shù)、回文次數(shù)、被回文次數(shù),在建立模型時(shí),將這3個(gè)屬性歸并為課程討論參與度.
數(shù)據(jù)采集是數(shù)據(jù)分析和挖掘的前提和基礎(chǔ).進(jìn)行數(shù)據(jù)挖掘需要豐富的規(guī)整、標(biāo)準(zhǔn)數(shù)據(jù),優(yōu)慕課教學(xué)資源平臺(tái)本身就為用戶提供了大量規(guī)整的用戶統(tǒng)計(jì)數(shù)據(jù),給數(shù)據(jù)分析挖掘工作帶來(lái)了極大的便利.這些數(shù)據(jù)包括學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)[6],如學(xué)生進(jìn)入課程次數(shù)、向老師提問(wèn)次數(shù)、在線時(shí)間長(zhǎng)、進(jìn)入播客個(gè)數(shù)、課程討論區(qū)發(fā)表話題次數(shù)、閱讀課程通知次數(shù)、參與問(wèn)卷調(diào)查次數(shù)等;階段性測(cè)評(píng)數(shù)據(jù),如作業(yè)成績(jī)、階段性小測(cè)成績(jī)、提交作業(yè)數(shù)量、參與測(cè)試次數(shù)等;學(xué)生課程數(shù)據(jù),如課程名稱、課程編號(hào)、主講教師等.將這些數(shù)據(jù)從系統(tǒng)中導(dǎo)出,得到數(shù)據(jù)分析的原始數(shù)據(jù)集.
本實(shí)驗(yàn)采用優(yōu)慕課平臺(tái)19級(jí)智能交通運(yùn)用技術(shù)(1)(2)班120名同學(xué)《C語(yǔ)言程序設(shè)計(jì)》課程的系統(tǒng)記錄為原始數(shù)據(jù).去除休學(xué)、退學(xué)等學(xué)生記錄,去除專業(yè)、院系、年級(jí)等冗余字段,經(jīng)過(guò)對(duì)數(shù)據(jù)的預(yù)處理,得到部分?jǐn)?shù)據(jù)如表1所列,第1次測(cè)驗(yàn)成績(jī)?nèi)绫?所列.

表1 《C語(yǔ)言程序設(shè)計(jì)》課程部分學(xué)生學(xué)習(xí)統(tǒng)計(jì)表

表2 《C語(yǔ)言程序設(shè)計(jì)》課程部分學(xué)生第一次測(cè)驗(yàn)成績(jī)表
由于平臺(tái)上不同批次的作業(yè)、測(cè)驗(yàn)、課堂回答問(wèn)題打分等屬性所使用的評(píng)定方式不統(tǒng)一,不利于后續(xù)的分類操作,這里將所有成績(jī)按照表3劃分的等級(jí)替換.

表3 成績(jī)等級(jí)標(biāo)準(zhǔn)
另外,有些獲得的原始數(shù)據(jù)不能直接使用,需要對(duì)數(shù)據(jù)進(jìn)行選擇、連接運(yùn)算后使用,經(jīng)過(guò)交叉運(yùn)算后得到表4.

表4 19級(jí)智能交通運(yùn)用技術(shù)(1)(2)班部分學(xué)生所修課程表
按照模型選取的數(shù)據(jù)集要求,用于構(gòu)建決策樹(shù)模型的數(shù)據(jù)集如表5所列.

表5 決策樹(shù)模型數(shù)據(jù)集部分?jǐn)?shù)據(jù)
決策樹(shù)建立模型的過(guò)程實(shí)際上是一個(gè)分類的過(guò)程.決策樹(shù)算法就是根據(jù)數(shù)據(jù)集中的特征通過(guò)不斷分裂的方式來(lái)劃分?jǐn)?shù)據(jù)集的過(guò)程.非葉節(jié)點(diǎn)是向下分裂的分支,葉節(jié)點(diǎn)是要?jiǎng)澐值念怺7].訓(xùn)練集中的每個(gè)樣本除了包含處理好的有效數(shù)據(jù)特征之外,還有一個(gè)標(biāo)注好的類別標(biāo)簽.分類器訓(xùn)練完成后,對(duì)沒(méi)有標(biāo)簽的測(cè)試集樣本進(jìn)行預(yù)測(cè),使測(cè)試集中的樣本得到合適的標(biāo)簽.
Weka是一個(gè)大眾化的數(shù)據(jù)挖掘工作平臺(tái).該平臺(tái)集成了大量的數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)算法,包括數(shù)據(jù)的預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)分析等.將處理好的19級(jí)智能交通運(yùn)用技術(shù)(1)(2)班同學(xué)的數(shù)據(jù)集轉(zhuǎn)成相應(yīng)的csv文件,導(dǎo)入Weka平臺(tái),從平臺(tái)中選取決策樹(shù)算法,即可對(duì)數(shù)據(jù)實(shí)現(xiàn)快速?zèng)Q策樹(shù)分類.
在建立決策樹(shù)模型的過(guò)程中可以生成分類規(guī)則,提取影響分類的主要因素特征[8],在生成學(xué)生學(xué)習(xí)效果的模型構(gòu)建過(guò)程中,預(yù)測(cè)學(xué)生學(xué)習(xí)效果的規(guī)則概括如下5點(diǎn).
規(guī)則1:if 作業(yè)成績(jī)?nèi)恐谢蚝?and 討論區(qū)參與度全部中或好 and 在線資源閱讀數(shù)量中或好,then階段測(cè)驗(yàn)成績(jī)中或好;
規(guī)則2:if 作業(yè)成績(jī)?nèi)恐谢蚝?and 討論區(qū)參與度全部中或好 and 在線資源閱讀數(shù)量差,then階段測(cè)驗(yàn)成績(jī)中或好;
規(guī)則3:if 作業(yè)成績(jī)?nèi)恐谢蚝?and 討論區(qū)參與度差 and 在線資源閱讀數(shù)量中或好,then階段測(cè)驗(yàn)成績(jī)中或好;
規(guī)則4:if 作業(yè)成績(jī)?nèi)恐谢蚝?and 討論區(qū)參與度差 and 在線資源閱讀數(shù)量差,then階段測(cè)驗(yàn)成績(jī)差;
規(guī)則5:if 作業(yè)成績(jī)差 and 討論區(qū)參與度差 and 在線資源閱讀數(shù)量差,then階段測(cè)驗(yàn)成績(jī)差.
從以上分類規(guī)則中可以看出,決定學(xué)生網(wǎng)課學(xué)習(xí)效果的諸多因素中,作業(yè)成績(jī)、討論區(qū)發(fā)言參與度和在線資源閱讀數(shù)量對(duì)學(xué)習(xí)的影響較大.其中,課后作業(yè)質(zhì)量的影響最大,說(shuō)明課后作業(yè)在某種程度上反映了學(xué)生網(wǎng)課的學(xué)習(xí)質(zhì)量.如果作業(yè)做的好,課堂討論參與度差,線上資源閱讀量少,階段測(cè)驗(yàn)成績(jī)差,可能是非智力的因素;如果作業(yè)成績(jī)不好,課堂參與度好,線上資源閱讀量大,階段測(cè)驗(yàn)成績(jī)差,可能該學(xué)生確實(shí)努力學(xué)習(xí),但在學(xué)習(xí)上確實(shí)遇到困難了,老師應(yīng)及時(shí)根據(jù)具體情況做個(gè)別化指導(dǎo)[9].
該實(shí)驗(yàn)中,最終獲得測(cè)試集數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率為79%.在用十折交叉驗(yàn)證法驗(yàn)證的過(guò)程中,各輪測(cè)驗(yàn)所得到的階段性小測(cè)成績(jī)準(zhǔn)確率如表6所列.
由表6可以看出,十折交叉驗(yàn)證法所得到的正確率均值為80%,和使用測(cè)試集得到的正確率相差不大.

表6 十折交叉驗(yàn)證法驗(yàn)證正確率
在網(wǎng)絡(luò)教學(xué)中,教師很難把握學(xué)生的學(xué)習(xí)狀態(tài),往往在學(xué)期結(jié)束后,考試成績(jī)出來(lái),才發(fā)現(xiàn)教學(xué)效果.本文采用決策樹(shù)分類中較經(jīng)典的ID3算法為主要研究方法,以優(yōu)慕課教學(xué)平臺(tái)19級(jí)智能交通運(yùn)用技術(shù)(1)(2)班同學(xué)《C語(yǔ)言程序設(shè)計(jì)》這門(mén)課的數(shù)據(jù)為訓(xùn)練樣本,構(gòu)建了學(xué)生線上教學(xué)效果成績(jī)預(yù)測(cè)模型[10].經(jīng)過(guò)測(cè)試,該模型根據(jù)學(xué)生所提交的作業(yè)、線上課程討論參與度、在線時(shí)長(zhǎng)等屬性特征能夠較為準(zhǔn)確地預(yù)測(cè)學(xué)生某個(gè)階段線上學(xué)習(xí)效果,從而使得教師在網(wǎng)絡(luò)教學(xué)過(guò)程中及時(shí)發(fā)現(xiàn)學(xué)生學(xué)習(xí)狀態(tài)的異常,并進(jìn)行個(gè)性化輔導(dǎo),提高學(xué)生成績(jī).
由于該模型在訓(xùn)練過(guò)程中使用的樣本數(shù)量較少,所得到的模型正確率不是很高,因此,在后續(xù)工作中,還需要獲取更多的樣本和類型更豐富的樣本數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,從而提高模型的正確率,達(dá)到更好的預(yù)測(cè)效果.
蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版)2021年3期