


摘要:中國(guó)科教事業(yè)飛速進(jìn)步,大學(xué)生數(shù)量越來(lái)越多,高校畢業(yè)生綜合素質(zhì)低、能力不足等問(wèn)題越來(lái)越突出。創(chuàng)建與素質(zhì)教育要求相符合,促進(jìn)教師發(fā)展、學(xué)生成長(zhǎng)以及提高教育教學(xué)質(zhì)量的教育評(píng)估體系,是新課程改革中的重要任務(wù)。本研究基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)預(yù)測(cè)模型,根據(jù)學(xué)生學(xué)習(xí)狀態(tài),間接建立成績(jī)預(yù)測(cè)系統(tǒng),以解決學(xué)生成績(jī)預(yù)測(cè)困難、模型復(fù)雜等問(wèn)題,通過(guò)研究發(fā)現(xiàn),基于大數(shù)據(jù)決策樹系統(tǒng)預(yù)測(cè)學(xué)生成績(jī)精準(zhǔn)率達(dá)到94%,對(duì)學(xué)生成績(jī)的監(jiān)控極為有利,而且也可預(yù)測(cè)學(xué)生成績(jī)的提升。
關(guān)鍵詞:大數(shù)據(jù);決策樹;學(xué)生成績(jī);預(yù)測(cè)模型
近年來(lái),隨著我國(guó)高校教學(xué)、學(xué)生與科研等數(shù)據(jù)不斷積累,數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于各個(gè)行業(yè),教育數(shù)據(jù)挖掘也成了越來(lái)越多專家學(xué)者的關(guān)注和研究方向。尤其是2017年在武漢召開的第十屆國(guó)際教育數(shù)據(jù)挖掘大會(huì),將研究數(shù)字挖掘的熱潮推向新高度。中國(guó)科教事業(yè)飛速進(jìn)步,大學(xué)生數(shù)量越來(lái)越多,高校畢業(yè)生綜合素質(zhì)低、能力不足等問(wèn)題越來(lái)越突出,而創(chuàng)建與素質(zhì)教育要求相符合,促進(jìn)教師發(fā)展、學(xué)生成長(zhǎng)以及提高教育教學(xué)質(zhì)量的教育評(píng)估體系,是新課程改革中的重要任務(wù)[1]。
我國(guó)教育部門頒布的《基礎(chǔ)教育課程改革綱要》中明確提出,應(yīng)創(chuàng)建實(shí)現(xiàn)學(xué)生均衡發(fā)展的評(píng)估體系,該評(píng)估體系既要重點(diǎn)關(guān)注學(xué)生學(xué)業(yè)成績(jī),又要挖掘?qū)W生多方潛能,幫助學(xué)生正確認(rèn)識(shí)自我,創(chuàng)建自信心,從而將評(píng)價(jià)體系的教育功能充分發(fā)揮出來(lái),使學(xué)生綜合水平得到提升[2]。所以,科技飛速發(fā)展的現(xiàn)階段,高校應(yīng)充分發(fā)揮數(shù)據(jù)挖掘技術(shù)的功能,通過(guò)分析預(yù)測(cè)學(xué)生成績(jī),創(chuàng)建大數(shù)據(jù)決策樹,對(duì)學(xué)生成績(jī)的影響因素進(jìn)行科學(xué)分析,預(yù)測(cè)學(xué)生發(fā)展趨勢(shì),幫助教師客觀評(píng)價(jià)學(xué)生和正確引導(dǎo)學(xué)生,保證學(xué)生實(shí)現(xiàn)全面發(fā)展。
一、大數(shù)據(jù)決策樹系統(tǒng)的框架
大數(shù)據(jù)決策樹系統(tǒng)的模塊組成包括數(shù)據(jù)源、數(shù)據(jù)獲取和處理、預(yù)測(cè)成績(jī)及預(yù)測(cè)對(duì)象,其中數(shù)據(jù)源主要為輔導(dǎo)員、任課教師、學(xué)生及舍友等與該學(xué)生學(xué)習(xí)成績(jī)存在密切相關(guān)性的信息來(lái)源。大數(shù)據(jù)決策樹系統(tǒng)基于學(xué)校教學(xué)現(xiàn)狀,選擇和學(xué)生成績(jī)有密切關(guān)系的2~3個(gè)數(shù)據(jù)源,其中數(shù)據(jù)獲取模塊的功能可以解決快速?gòu)臄?shù)據(jù)源中獲取高效信息的問(wèn)題[3]。
信息化時(shí)代下,通過(guò)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等相關(guān)信息平臺(tái)傳遞信息,是獲取數(shù)據(jù)的重要途徑。數(shù)據(jù)處理模塊的功能是將原始數(shù)據(jù)轉(zhuǎn)變?yōu)槟軌蛑苯虞斎氪髷?shù)據(jù)算法,一般需要基于原始數(shù)據(jù)特性,對(duì)數(shù)據(jù)展開標(biāo)準(zhǔn)化、缺失值和異常值的處理,作為大數(shù)據(jù)決策樹系統(tǒng)關(guān)鍵模塊,成績(jī)預(yù)測(cè)模塊根據(jù)相關(guān)算法和成績(jī)模塊預(yù)測(cè)學(xué)生的未來(lái)成績(jī)[4]。成績(jī)預(yù)測(cè)結(jié)果產(chǎn)生后,需要學(xué)生反思現(xiàn)階段的學(xué)習(xí)狀態(tài),同時(shí)向數(shù)據(jù)源處輸出學(xué)生成績(jī),為下次預(yù)測(cè)學(xué)習(xí)成績(jī)奠定基礎(chǔ),此為預(yù)測(cè)對(duì)象模塊的重中之重。大數(shù)據(jù)決策樹框架如圖1所示。
二、基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)分析與預(yù)測(cè)模型設(shè)計(jì)
大數(shù)據(jù)決策樹系統(tǒng)有五大模塊,各模塊分析學(xué)生成績(jī)與預(yù)測(cè)模型設(shè)計(jì)如下:
(一)數(shù)據(jù)源、數(shù)據(jù)獲取和預(yù)測(cè)對(duì)象
以往數(shù)據(jù)源獲取和管理方法沒(méi)有與高校網(wǎng)絡(luò)信息平臺(tái)發(fā)展現(xiàn)狀相結(jié)合,造成數(shù)據(jù)獲取與反饋效率非常低。為實(shí)現(xiàn)信息傳遞效率與準(zhǔn)確率的提升,預(yù)測(cè)模型設(shè)計(jì)結(jié)合互聯(lián)網(wǎng)信息平臺(tái),設(shè)計(jì)信息傳遞模塊,圖2為信息平臺(tái)為中心的整體結(jié)構(gòu)示意圖。
現(xiàn)階段,被廣泛用于數(shù)據(jù)處理和人工智能領(lǐng)域的編程語(yǔ)言為Python,大數(shù)據(jù)決策樹系統(tǒng)通過(guò)Python語(yǔ)言實(shí)現(xiàn),其網(wǎng)絡(luò)信息提交和獲取庫(kù)包的功能非常強(qiáng)大,其中包括Httplib、Urllib以及Urllib2,同時(shí)還應(yīng)用正則表達(dá)和數(shù)據(jù)處理模塊。具體實(shí)現(xiàn)過(guò)程如下。
連接互聯(lián)網(wǎng)信息平臺(tái),關(guān)鍵函數(shù)為:
HTTPConnection(host[,port[,stict[,timeout]]])
在以上關(guān)鍵函數(shù)中,port代表網(wǎng)絡(luò)信息平臺(tái)端口號(hào);host代表網(wǎng)絡(luò)信息平臺(tái)對(duì)應(yīng)地址信息或者域名;timeout代表超時(shí)時(shí)間,如果連接時(shí)間超時(shí),系統(tǒng)就會(huì)發(fā)出信息異常信號(hào)[5]。
將相關(guān)數(shù)據(jù)請(qǐng)求發(fā)送至互聯(lián)網(wǎng)信息平臺(tái),關(guān)鍵函數(shù)為:
通過(guò)HTTP連接過(guò)程中應(yīng)用到的request方式,將數(shù)據(jù)請(qǐng)求發(fā)送至互聯(lián)網(wǎng)信息平臺(tái)中,其中M表示的是請(qǐng)求發(fā)送方式,根據(jù)通信協(xié)議自主選擇get與post方式。Address代表資源獲取對(duì)應(yīng)地址,最后選擇所需提交至服務(wù)器數(shù)據(jù),兩者均會(huì)對(duì)通信協(xié)議進(jìn)行有效安裝,同時(shí)選擇對(duì)應(yīng)資源地址,這樣就能將數(shù)據(jù)提交給網(wǎng)絡(luò)信息平臺(tái)[6]。
對(duì)網(wǎng)絡(luò)信息平臺(tái)的響應(yīng)獲取函數(shù)為:
HTTP響應(yīng)對(duì)象是返回值,所含信息包括獲取響應(yīng)字節(jié)數(shù)據(jù)、頭部數(shù)據(jù)。依照所得響應(yīng)數(shù)據(jù)規(guī)則,能夠?qū)⒃撓到y(tǒng)所需數(shù)據(jù)解析出來(lái)。
(二)相關(guān)數(shù)據(jù)處理
大數(shù)據(jù)決策樹系統(tǒng)中,數(shù)據(jù)處理模塊包括處理缺失值、處理離散量和連續(xù)量?jī)纱蟛糠郑饕康脑谟谵D(zhuǎn)換所得原始數(shù)據(jù),利用大數(shù)據(jù)算法對(duì)標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行有效輸入。
1.處理異常值
近年來(lái),高校互聯(lián)網(wǎng)信息平臺(tái)存在逐漸完善的反饋機(jī)制與數(shù)據(jù)更新狀態(tài),加之HTTP協(xié)議握手制度,自高校網(wǎng)絡(luò)信息平臺(tái)中直接獲取數(shù)據(jù)通常會(huì)存在異常值問(wèn)題,這已并非數(shù)據(jù)準(zhǔn)確率問(wèn)題,重點(diǎn)是數(shù)據(jù)缺失[7]。對(duì)缺失值處理效果進(jìn)行綜合考慮,通過(guò)數(shù)據(jù)統(tǒng)計(jì)特性值對(duì)大數(shù)據(jù)決策樹系統(tǒng)進(jìn)行有效處理,依照不同缺失值特性對(duì)其統(tǒng)計(jì)特性進(jìn)行選擇,采用Python語(yǔ)言將統(tǒng)計(jì)特性關(guān)鍵代碼提取出來(lái),所用庫(kù)是科學(xué)計(jì)算庫(kù)Numpy。
2.處理數(shù)據(jù)量
本次預(yù)測(cè)模型設(shè)計(jì)所用方法為決策樹算法,所以需要應(yīng)用到離散數(shù)據(jù)量。依照離散狀態(tài),可將離散數(shù)據(jù)劃分為不同類別。在連續(xù)值方面,必須離散化處理,才能實(shí)現(xiàn)數(shù)據(jù)區(qū)分度的提升。Python庫(kù)內(nèi),通過(guò)離散化方式cut( ),以下為具體定義:
cut(D,B,R=False,L=NULL)
在以上定義中,D代表的是一維數(shù)據(jù),R代表分組區(qū)間的閉合與否;B代表的是分割點(diǎn)值;L則表示對(duì)應(yīng)分組標(biāo)簽,在對(duì)離散化方法進(jìn)行應(yīng)用過(guò)程中,應(yīng)基于B對(duì)D進(jìn)行離散化,同時(shí)返回離散化數(shù)據(jù)對(duì)象,使數(shù)據(jù)實(shí)現(xiàn)連續(xù)離散化目的。
(三)建立成績(jī)預(yù)測(cè)模塊
當(dāng)前,成績(jī)預(yù)測(cè)算法主要集中于預(yù)測(cè)運(yùn)動(dòng)員、體育生的成績(jī),通常成績(jī)預(yù)測(cè)會(huì)對(duì)歷史成績(jī)與對(duì)象狀態(tài)進(jìn)行預(yù)測(cè),并將最終預(yù)測(cè)數(shù)據(jù)直接計(jì)算出來(lái),該思路或較低預(yù)測(cè)精度,很難滿足實(shí)際應(yīng)用需求。如果預(yù)測(cè)模型比較復(fù)雜,則有助于提升預(yù)測(cè)精度,然而也會(huì)出現(xiàn)運(yùn)算量大、預(yù)測(cè)結(jié)果過(guò)擬合等問(wèn)題,這就要提出基于預(yù)測(cè)對(duì)象分類的成績(jī)預(yù)測(cè)算法,即不直接預(yù)測(cè)學(xué)生的成績(jī),關(guān)鍵在于劃分預(yù)測(cè)對(duì)象成績(jī)變化為各個(gè)區(qū)間,對(duì)學(xué)生成績(jī)變化量進(jìn)行分類預(yù)測(cè),依照分類結(jié)果,間接預(yù)測(cè)學(xué)生成績(jī),預(yù)測(cè)流程如圖3所示。
現(xiàn)階段,大數(shù)據(jù)分類算法包括決策樹算法、K-Means、神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等,相關(guān)研究選擇K-Means算法對(duì)花朵授粉和減速箱狀態(tài)進(jìn)行分類。但是K-Mean算法中,確定K值始終是這一算法的難點(diǎn)。也有研究采用支持向量機(jī)理論對(duì)手語(yǔ)、表情和暫態(tài)穩(wěn)定故障進(jìn)行分類,但該算法對(duì)缺失數(shù)據(jù)環(huán)節(jié)進(jìn)行預(yù)測(cè)的敏感度較低,也很難解決非線性問(wèn)題。還有文獻(xiàn)研究,通過(guò)神經(jīng)網(wǎng)絡(luò)算法對(duì)草地和圖像進(jìn)行分類,結(jié)果發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)非線性擬合能力非常強(qiáng),但是神經(jīng)網(wǎng)絡(luò)的參數(shù)比較多,而且存在較大的運(yùn)算量。
三、基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)預(yù)測(cè)
本次應(yīng)用大數(shù)據(jù)決策樹中的ID3算法,根據(jù)待分類數(shù)據(jù)內(nèi)各特征信息增益進(jìn)行決策樹葉子節(jié)點(diǎn)與根節(jié)點(diǎn)構(gòu)造。基于大數(shù)據(jù)決策樹算法的運(yùn)算過(guò)程如下。
a.計(jì)算信息熵,具體計(jì)算公式為:
也就是說(shuō),各特征概率與概率值自然對(duì)數(shù)的和,表征數(shù)據(jù)集有序程度。大數(shù)據(jù)決策樹下的構(gòu)思理念,就是采用最少根節(jié)點(diǎn),提高數(shù)據(jù)集的有序性。
b.所謂信息熵增益,其實(shí)就是某屬性刪除后和該屬性刪除前信息熵的差,大數(shù)據(jù)決策樹要求將信息熵增益屬性最大值當(dāng)作新根節(jié)點(diǎn),由此就能構(gòu)造大數(shù)據(jù)決策樹。
四、基于大數(shù)據(jù)決策樹學(xué)生成績(jī)分析的實(shí)驗(yàn)驗(yàn)證
選取某高校的175名學(xué)生為研究對(duì)象,對(duì)其期末考試進(jìn)行實(shí)驗(yàn)驗(yàn)證。預(yù)測(cè)對(duì)象實(shí)驗(yàn)如下:所選特征包括學(xué)生階段心理測(cè)評(píng)狀態(tài)(Psy)、作業(yè)完成率(Work)、出勤率(Attend)、學(xué)分成績(jī)(Cur)、平時(shí)成績(jī)(Usual)。階段心理測(cè)評(píng)狀態(tài)屬于離散數(shù)據(jù),其他屬于連續(xù)數(shù)據(jù)。
對(duì)五大特征數(shù)據(jù)信息增益進(jìn)行計(jì)算,明確相對(duì)應(yīng)決策樹根節(jié)點(diǎn),將不同特征的信息熵增益計(jì)算出來(lái),具體如表1所示。從表1數(shù)據(jù)可知,作業(yè)完成率屬性信息增益較高,將作業(yè)完成率視為第一根節(jié)點(diǎn),對(duì)決策樹進(jìn)行創(chuàng)建,從五類領(lǐng)域劃分學(xué)生狀態(tài),采用I-V表示。
通過(guò)決策樹預(yù)測(cè)學(xué)生成績(jī),結(jié)果見表2。
從表2可以看出,模型預(yù)測(cè)學(xué)生成績(jī)的正確率為94%,可見該體系存在有效性與正確性。
五、結(jié)束語(yǔ)
基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)預(yù)測(cè)模型,根據(jù)學(xué)生學(xué)習(xí)狀態(tài),為其間接建立成績(jī)預(yù)測(cè)系統(tǒng),有助于學(xué)生成績(jī)預(yù)測(cè)困難、模型復(fù)雜等問(wèn)題的有效解決。研究發(fā)現(xiàn),基于大數(shù)據(jù)決策樹系統(tǒng)預(yù)測(cè)學(xué)生成績(jī)的準(zhǔn)確率為94%,有助于監(jiān)控高校學(xué)生成績(jī)。但該系統(tǒng)也有不足之處,具體在于:人為因素會(huì)對(duì)學(xué)生成績(jī)特征選取產(chǎn)生影響,成績(jī)一次性特征增加了數(shù)據(jù)收集難度。
作者單位:孫劍 瀘州職業(yè)技術(shù)學(xué)院四川瀘州
參 ?考 ?文 ?獻(xiàn)
[1]胡柳青,趙剛.基于數(shù)據(jù)挖掘下機(jī)器學(xué)習(xí)算法對(duì)學(xué)生成績(jī)影響因素的研究[J].南昌航空大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,35(03):43-48,97.
[2]吳曉倩,權(quán)麗麗,陳誠(chéng),等.基于大數(shù)據(jù)決策樹算法的學(xué)生成績(jī)分析與預(yù)測(cè)模型仿真[J].電子設(shè)計(jì)工程,2020,28(24):138-141,146.
[3]蘇錦.數(shù)據(jù)關(guān)聯(lián)分析與挖掘技術(shù)在學(xué)生信息中的應(yīng)用研究[D].廣西大學(xué),2019.
[4]吳強(qiáng),方睿,韓斌,等.基于決策樹-LMBP神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)分析及預(yù)測(cè)模型的研究[J].成都信息工程大學(xué)學(xué)報(bào),2018,33(03):274-280.
[5]金詩(shī)譜.基于屬性相關(guān)性分析的高校學(xué)生成績(jī)分析應(yīng)用研究[J].西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2018,21(01):30-33.
[6]胡在林.關(guān)聯(lián)規(guī)則和決策樹組合算法在學(xué)生成績(jī)分析中的應(yīng)用與研究[D].青島理工大學(xué),2017.
[7]黃炎,王紫玉,黃方亮.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用與研究[J].蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,30(03):64-68,78.