999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)分析和預(yù)測(cè)模型設(shè)計(jì)

2023-07-25 12:09:51孫劍
中國(guó)新通信 2023年9期
關(guān)鍵詞:大數(shù)據(jù)

摘要:中國(guó)科教事業(yè)飛速進(jìn)步,大學(xué)生數(shù)量越來(lái)越多,高校畢業(yè)生綜合素質(zhì)低、能力不足等問(wèn)題越來(lái)越突出。創(chuàng)建與素質(zhì)教育要求相符合,促進(jìn)教師發(fā)展、學(xué)生成長(zhǎng)以及提高教育教學(xué)質(zhì)量的教育評(píng)估體系,是新課程改革中的重要任務(wù)。本研究基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)預(yù)測(cè)模型,根據(jù)學(xué)生學(xué)習(xí)狀態(tài),間接建立成績(jī)預(yù)測(cè)系統(tǒng),以解決學(xué)生成績(jī)預(yù)測(cè)困難、模型復(fù)雜等問(wèn)題,通過(guò)研究發(fā)現(xiàn),基于大數(shù)據(jù)決策樹系統(tǒng)預(yù)測(cè)學(xué)生成績(jī)精準(zhǔn)率達(dá)到94%,對(duì)學(xué)生成績(jī)的監(jiān)控極為有利,而且也可預(yù)測(cè)學(xué)生成績(jī)的提升。

關(guān)鍵詞:大數(shù)據(jù);決策樹;學(xué)生成績(jī);預(yù)測(cè)模型

近年來(lái),隨著我國(guó)高校教學(xué)、學(xué)生與科研等數(shù)據(jù)不斷積累,數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于各個(gè)行業(yè),教育數(shù)據(jù)挖掘也成了越來(lái)越多專家學(xué)者的關(guān)注和研究方向。尤其是2017年在武漢召開的第十屆國(guó)際教育數(shù)據(jù)挖掘大會(huì),將研究數(shù)字挖掘的熱潮推向新高度。中國(guó)科教事業(yè)飛速進(jìn)步,大學(xué)生數(shù)量越來(lái)越多,高校畢業(yè)生綜合素質(zhì)低、能力不足等問(wèn)題越來(lái)越突出,而創(chuàng)建與素質(zhì)教育要求相符合,促進(jìn)教師發(fā)展、學(xué)生成長(zhǎng)以及提高教育教學(xué)質(zhì)量的教育評(píng)估體系,是新課程改革中的重要任務(wù)[1]。

我國(guó)教育部門頒布的《基礎(chǔ)教育課程改革綱要》中明確提出,應(yīng)創(chuàng)建實(shí)現(xiàn)學(xué)生均衡發(fā)展的評(píng)估體系,該評(píng)估體系既要重點(diǎn)關(guān)注學(xué)生學(xué)業(yè)成績(jī),又要挖掘?qū)W生多方潛能,幫助學(xué)生正確認(rèn)識(shí)自我,創(chuàng)建自信心,從而將評(píng)價(jià)體系的教育功能充分發(fā)揮出來(lái),使學(xué)生綜合水平得到提升[2]。所以,科技飛速發(fā)展的現(xiàn)階段,高校應(yīng)充分發(fā)揮數(shù)據(jù)挖掘技術(shù)的功能,通過(guò)分析預(yù)測(cè)學(xué)生成績(jī),創(chuàng)建大數(shù)據(jù)決策樹,對(duì)學(xué)生成績(jī)的影響因素進(jìn)行科學(xué)分析,預(yù)測(cè)學(xué)生發(fā)展趨勢(shì),幫助教師客觀評(píng)價(jià)學(xué)生和正確引導(dǎo)學(xué)生,保證學(xué)生實(shí)現(xiàn)全面發(fā)展。

一、大數(shù)據(jù)決策樹系統(tǒng)的框架

大數(shù)據(jù)決策樹系統(tǒng)的模塊組成包括數(shù)據(jù)源、數(shù)據(jù)獲取和處理、預(yù)測(cè)成績(jī)及預(yù)測(cè)對(duì)象,其中數(shù)據(jù)源主要為輔導(dǎo)員、任課教師、學(xué)生及舍友等與該學(xué)生學(xué)習(xí)成績(jī)存在密切相關(guān)性的信息來(lái)源。大數(shù)據(jù)決策樹系統(tǒng)基于學(xué)校教學(xué)現(xiàn)狀,選擇和學(xué)生成績(jī)有密切關(guān)系的2~3個(gè)數(shù)據(jù)源,其中數(shù)據(jù)獲取模塊的功能可以解決快速?gòu)臄?shù)據(jù)源中獲取高效信息的問(wèn)題[3]。

信息化時(shí)代下,通過(guò)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等相關(guān)信息平臺(tái)傳遞信息,是獲取數(shù)據(jù)的重要途徑。數(shù)據(jù)處理模塊的功能是將原始數(shù)據(jù)轉(zhuǎn)變?yōu)槟軌蛑苯虞斎氪髷?shù)據(jù)算法,一般需要基于原始數(shù)據(jù)特性,對(duì)數(shù)據(jù)展開標(biāo)準(zhǔn)化、缺失值和異常值的處理,作為大數(shù)據(jù)決策樹系統(tǒng)關(guān)鍵模塊,成績(jī)預(yù)測(cè)模塊根據(jù)相關(guān)算法和成績(jī)模塊預(yù)測(cè)學(xué)生的未來(lái)成績(jī)[4]。成績(jī)預(yù)測(cè)結(jié)果產(chǎn)生后,需要學(xué)生反思現(xiàn)階段的學(xué)習(xí)狀態(tài),同時(shí)向數(shù)據(jù)源處輸出學(xué)生成績(jī),為下次預(yù)測(cè)學(xué)習(xí)成績(jī)奠定基礎(chǔ),此為預(yù)測(cè)對(duì)象模塊的重中之重。大數(shù)據(jù)決策樹框架如圖1所示。

二、基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)分析與預(yù)測(cè)模型設(shè)計(jì)

大數(shù)據(jù)決策樹系統(tǒng)有五大模塊,各模塊分析學(xué)生成績(jī)與預(yù)測(cè)模型設(shè)計(jì)如下:

(一)數(shù)據(jù)源、數(shù)據(jù)獲取和預(yù)測(cè)對(duì)象

以往數(shù)據(jù)源獲取和管理方法沒(méi)有與高校網(wǎng)絡(luò)信息平臺(tái)發(fā)展現(xiàn)狀相結(jié)合,造成數(shù)據(jù)獲取與反饋效率非常低。為實(shí)現(xiàn)信息傳遞效率與準(zhǔn)確率的提升,預(yù)測(cè)模型設(shè)計(jì)結(jié)合互聯(lián)網(wǎng)信息平臺(tái),設(shè)計(jì)信息傳遞模塊,圖2為信息平臺(tái)為中心的整體結(jié)構(gòu)示意圖。

現(xiàn)階段,被廣泛用于數(shù)據(jù)處理和人工智能領(lǐng)域的編程語(yǔ)言為Python,大數(shù)據(jù)決策樹系統(tǒng)通過(guò)Python語(yǔ)言實(shí)現(xiàn),其網(wǎng)絡(luò)信息提交和獲取庫(kù)包的功能非常強(qiáng)大,其中包括Httplib、Urllib以及Urllib2,同時(shí)還應(yīng)用正則表達(dá)和數(shù)據(jù)處理模塊。具體實(shí)現(xiàn)過(guò)程如下。

連接互聯(lián)網(wǎng)信息平臺(tái),關(guān)鍵函數(shù)為:

HTTPConnection(host[,port[,stict[,timeout]]])

在以上關(guān)鍵函數(shù)中,port代表網(wǎng)絡(luò)信息平臺(tái)端口號(hào);host代表網(wǎng)絡(luò)信息平臺(tái)對(duì)應(yīng)地址信息或者域名;timeout代表超時(shí)時(shí)間,如果連接時(shí)間超時(shí),系統(tǒng)就會(huì)發(fā)出信息異常信號(hào)[5]。

將相關(guān)數(shù)據(jù)請(qǐng)求發(fā)送至互聯(lián)網(wǎng)信息平臺(tái),關(guān)鍵函數(shù)為:

通過(guò)HTTP連接過(guò)程中應(yīng)用到的request方式,將數(shù)據(jù)請(qǐng)求發(fā)送至互聯(lián)網(wǎng)信息平臺(tái)中,其中M表示的是請(qǐng)求發(fā)送方式,根據(jù)通信協(xié)議自主選擇get與post方式。Address代表資源獲取對(duì)應(yīng)地址,最后選擇所需提交至服務(wù)器數(shù)據(jù),兩者均會(huì)對(duì)通信協(xié)議進(jìn)行有效安裝,同時(shí)選擇對(duì)應(yīng)資源地址,這樣就能將數(shù)據(jù)提交給網(wǎng)絡(luò)信息平臺(tái)[6]。

對(duì)網(wǎng)絡(luò)信息平臺(tái)的響應(yīng)獲取函數(shù)為:

HTTP響應(yīng)對(duì)象是返回值,所含信息包括獲取響應(yīng)字節(jié)數(shù)據(jù)、頭部數(shù)據(jù)。依照所得響應(yīng)數(shù)據(jù)規(guī)則,能夠?qū)⒃撓到y(tǒng)所需數(shù)據(jù)解析出來(lái)。

(二)相關(guān)數(shù)據(jù)處理

大數(shù)據(jù)決策樹系統(tǒng)中,數(shù)據(jù)處理模塊包括處理缺失值、處理離散量和連續(xù)量?jī)纱蟛糠郑饕康脑谟谵D(zhuǎn)換所得原始數(shù)據(jù),利用大數(shù)據(jù)算法對(duì)標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行有效輸入。

1.處理異常值

近年來(lái),高校互聯(lián)網(wǎng)信息平臺(tái)存在逐漸完善的反饋機(jī)制與數(shù)據(jù)更新狀態(tài),加之HTTP協(xié)議握手制度,自高校網(wǎng)絡(luò)信息平臺(tái)中直接獲取數(shù)據(jù)通常會(huì)存在異常值問(wèn)題,這已并非數(shù)據(jù)準(zhǔn)確率問(wèn)題,重點(diǎn)是數(shù)據(jù)缺失[7]。對(duì)缺失值處理效果進(jìn)行綜合考慮,通過(guò)數(shù)據(jù)統(tǒng)計(jì)特性值對(duì)大數(shù)據(jù)決策樹系統(tǒng)進(jìn)行有效處理,依照不同缺失值特性對(duì)其統(tǒng)計(jì)特性進(jìn)行選擇,采用Python語(yǔ)言將統(tǒng)計(jì)特性關(guān)鍵代碼提取出來(lái),所用庫(kù)是科學(xué)計(jì)算庫(kù)Numpy。

2.處理數(shù)據(jù)量

本次預(yù)測(cè)模型設(shè)計(jì)所用方法為決策樹算法,所以需要應(yīng)用到離散數(shù)據(jù)量。依照離散狀態(tài),可將離散數(shù)據(jù)劃分為不同類別。在連續(xù)值方面,必須離散化處理,才能實(shí)現(xiàn)數(shù)據(jù)區(qū)分度的提升。Python庫(kù)內(nèi),通過(guò)離散化方式cut( ),以下為具體定義:

cut(D,B,R=False,L=NULL)

在以上定義中,D代表的是一維數(shù)據(jù),R代表分組區(qū)間的閉合與否;B代表的是分割點(diǎn)值;L則表示對(duì)應(yīng)分組標(biāo)簽,在對(duì)離散化方法進(jìn)行應(yīng)用過(guò)程中,應(yīng)基于B對(duì)D進(jìn)行離散化,同時(shí)返回離散化數(shù)據(jù)對(duì)象,使數(shù)據(jù)實(shí)現(xiàn)連續(xù)離散化目的。

(三)建立成績(jī)預(yù)測(cè)模塊

當(dāng)前,成績(jī)預(yù)測(cè)算法主要集中于預(yù)測(cè)運(yùn)動(dòng)員、體育生的成績(jī),通常成績(jī)預(yù)測(cè)會(huì)對(duì)歷史成績(jī)與對(duì)象狀態(tài)進(jìn)行預(yù)測(cè),并將最終預(yù)測(cè)數(shù)據(jù)直接計(jì)算出來(lái),該思路或較低預(yù)測(cè)精度,很難滿足實(shí)際應(yīng)用需求。如果預(yù)測(cè)模型比較復(fù)雜,則有助于提升預(yù)測(cè)精度,然而也會(huì)出現(xiàn)運(yùn)算量大、預(yù)測(cè)結(jié)果過(guò)擬合等問(wèn)題,這就要提出基于預(yù)測(cè)對(duì)象分類的成績(jī)預(yù)測(cè)算法,即不直接預(yù)測(cè)學(xué)生的成績(jī),關(guān)鍵在于劃分預(yù)測(cè)對(duì)象成績(jī)變化為各個(gè)區(qū)間,對(duì)學(xué)生成績(jī)變化量進(jìn)行分類預(yù)測(cè),依照分類結(jié)果,間接預(yù)測(cè)學(xué)生成績(jī),預(yù)測(cè)流程如圖3所示。

現(xiàn)階段,大數(shù)據(jù)分類算法包括決策樹算法、K-Means、神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等,相關(guān)研究選擇K-Means算法對(duì)花朵授粉和減速箱狀態(tài)進(jìn)行分類。但是K-Mean算法中,確定K值始終是這一算法的難點(diǎn)。也有研究采用支持向量機(jī)理論對(duì)手語(yǔ)、表情和暫態(tài)穩(wěn)定故障進(jìn)行分類,但該算法對(duì)缺失數(shù)據(jù)環(huán)節(jié)進(jìn)行預(yù)測(cè)的敏感度較低,也很難解決非線性問(wèn)題。還有文獻(xiàn)研究,通過(guò)神經(jīng)網(wǎng)絡(luò)算法對(duì)草地和圖像進(jìn)行分類,結(jié)果發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)非線性擬合能力非常強(qiáng),但是神經(jīng)網(wǎng)絡(luò)的參數(shù)比較多,而且存在較大的運(yùn)算量。

三、基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)預(yù)測(cè)

本次應(yīng)用大數(shù)據(jù)決策樹中的ID3算法,根據(jù)待分類數(shù)據(jù)內(nèi)各特征信息增益進(jìn)行決策樹葉子節(jié)點(diǎn)與根節(jié)點(diǎn)構(gòu)造。基于大數(shù)據(jù)決策樹算法的運(yùn)算過(guò)程如下。

a.計(jì)算信息熵,具體計(jì)算公式為:

也就是說(shuō),各特征概率與概率值自然對(duì)數(shù)的和,表征數(shù)據(jù)集有序程度。大數(shù)據(jù)決策樹下的構(gòu)思理念,就是采用最少根節(jié)點(diǎn),提高數(shù)據(jù)集的有序性。

b.所謂信息熵增益,其實(shí)就是某屬性刪除后和該屬性刪除前信息熵的差,大數(shù)據(jù)決策樹要求將信息熵增益屬性最大值當(dāng)作新根節(jié)點(diǎn),由此就能構(gòu)造大數(shù)據(jù)決策樹。

四、基于大數(shù)據(jù)決策樹學(xué)生成績(jī)分析的實(shí)驗(yàn)驗(yàn)證

選取某高校的175名學(xué)生為研究對(duì)象,對(duì)其期末考試進(jìn)行實(shí)驗(yàn)驗(yàn)證。預(yù)測(cè)對(duì)象實(shí)驗(yàn)如下:所選特征包括學(xué)生階段心理測(cè)評(píng)狀態(tài)(Psy)、作業(yè)完成率(Work)、出勤率(Attend)、學(xué)分成績(jī)(Cur)、平時(shí)成績(jī)(Usual)。階段心理測(cè)評(píng)狀態(tài)屬于離散數(shù)據(jù),其他屬于連續(xù)數(shù)據(jù)。

對(duì)五大特征數(shù)據(jù)信息增益進(jìn)行計(jì)算,明確相對(duì)應(yīng)決策樹根節(jié)點(diǎn),將不同特征的信息熵增益計(jì)算出來(lái),具體如表1所示。從表1數(shù)據(jù)可知,作業(yè)完成率屬性信息增益較高,將作業(yè)完成率視為第一根節(jié)點(diǎn),對(duì)決策樹進(jìn)行創(chuàng)建,從五類領(lǐng)域劃分學(xué)生狀態(tài),采用I-V表示。

通過(guò)決策樹預(yù)測(cè)學(xué)生成績(jī),結(jié)果見表2。

從表2可以看出,模型預(yù)測(cè)學(xué)生成績(jī)的正確率為94%,可見該體系存在有效性與正確性。

五、結(jié)束語(yǔ)

基于大數(shù)據(jù)決策樹的學(xué)生成績(jī)預(yù)測(cè)模型,根據(jù)學(xué)生學(xué)習(xí)狀態(tài),為其間接建立成績(jī)預(yù)測(cè)系統(tǒng),有助于學(xué)生成績(jī)預(yù)測(cè)困難、模型復(fù)雜等問(wèn)題的有效解決。研究發(fā)現(xiàn),基于大數(shù)據(jù)決策樹系統(tǒng)預(yù)測(cè)學(xué)生成績(jī)的準(zhǔn)確率為94%,有助于監(jiān)控高校學(xué)生成績(jī)。但該系統(tǒng)也有不足之處,具體在于:人為因素會(huì)對(duì)學(xué)生成績(jī)特征選取產(chǎn)生影響,成績(jī)一次性特征增加了數(shù)據(jù)收集難度。

作者單位:孫劍 瀘州職業(yè)技術(shù)學(xué)院四川瀘州

參 ?考 ?文 ?獻(xiàn)

[1]胡柳青,趙剛.基于數(shù)據(jù)挖掘下機(jī)器學(xué)習(xí)算法對(duì)學(xué)生成績(jī)影響因素的研究[J].南昌航空大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,35(03):43-48,97.

[2]吳曉倩,權(quán)麗麗,陳誠(chéng),等.基于大數(shù)據(jù)決策樹算法的學(xué)生成績(jī)分析與預(yù)測(cè)模型仿真[J].電子設(shè)計(jì)工程,2020,28(24):138-141,146.

[3]蘇錦.數(shù)據(jù)關(guān)聯(lián)分析與挖掘技術(shù)在學(xué)生信息中的應(yīng)用研究[D].廣西大學(xué),2019.

[4]吳強(qiáng),方睿,韓斌,等.基于決策樹-LMBP神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)分析及預(yù)測(cè)模型的研究[J].成都信息工程大學(xué)學(xué)報(bào),2018,33(03):274-280.

[5]金詩(shī)譜.基于屬性相關(guān)性分析的高校學(xué)生成績(jī)分析應(yīng)用研究[J].西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2018,21(01):30-33.

[6]胡在林.關(guān)聯(lián)規(guī)則和決策樹組合算法在學(xué)生成績(jī)分析中的應(yīng)用與研究[D].青島理工大學(xué),2017.

[7]黃炎,王紫玉,黃方亮.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用與研究[J].蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,30(03):64-68,78.

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
基于大數(shù)據(jù)的小微電商授信評(píng)估研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
主站蜘蛛池模板: 高清不卡一区二区三区香蕉| 久久不卡国产精品无码| 国产全黄a一级毛片| 欧美日韩精品一区二区在线线| 成人毛片在线播放| 亚洲国产精品久久久久秋霞影院| 久久综合丝袜日本网| 超碰aⅴ人人做人人爽欧美| 亚洲人成日本在线观看| 亚洲成人动漫在线观看 | 精品国产福利在线| 午夜视频免费试看| 在线观看欧美精品二区| 欧美翘臀一区二区三区| 第一区免费在线观看| 国产精品免费p区| 欧美成人精品在线| 国产一级裸网站| 午夜日b视频| 在线观看无码a∨| 思思热在线视频精品| 成年片色大黄全免费网站久久| 亚洲美女一区二区三区| 3344在线观看无码| 伊人久久福利中文字幕| 超碰91免费人妻| 国产亚洲高清视频| 青青草原国产一区二区| 国产成人亚洲无吗淙合青草| 久久人妻系列无码一区| 刘亦菲一区二区在线观看| 天堂成人av| 国产美女自慰在线观看| 国产凹凸视频在线观看 | 国产成人艳妇AA视频在线| 中文字幕亚洲乱码熟女1区2区| 亚洲欧洲国产成人综合不卡| 999国产精品| 91精品免费高清在线| 日韩大片免费观看视频播放| 影音先锋亚洲无码| 精品国产www| 欧美成人午夜影院| 久久伊伊香蕉综合精品| 在线国产综合一区二区三区| 亚洲国产成人无码AV在线影院L| 亚洲第一精品福利| 国产精品入口麻豆| 久久国产精品娇妻素人| 免费aa毛片| 精品欧美一区二区三区久久久| 欧美国产综合视频| 国产自在线拍| 久久免费成人| 亚洲人成亚洲精品| 国产福利大秀91| 久久五月视频| 久久国产精品波多野结衣| 在线观看热码亚洲av每日更新| 国产福利微拍精品一区二区| 免费亚洲成人| 网友自拍视频精品区| 成人国产三级在线播放| 欧美成人手机在线观看网址| 国产美女91呻吟求| 色哟哟国产精品一区二区| 日本一区二区三区精品视频| 91精品免费高清在线| 国产91视频免费观看| 日韩毛片在线播放| 97国产在线观看| 欧美色丁香| 久久永久视频| 精品三级网站| 国产视频你懂得| 午夜电影在线观看国产1区| 在线看片免费人成视久网下载| 国产自在线播放| 韩日免费小视频| 久久这里只有精品8| 欧美中文字幕一区二区三区| 在线观看网站国产|