999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多元線性回歸的學(xué)生成績(jī)分析?

2020-11-02 09:00:08李曉戈
關(guān)鍵詞:關(guān)聯(lián)模型課程

張 曉 李曉戈

(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)

1 引言

在互聯(lián)網(wǎng)+時(shí)代,我國(guó)高校的辦學(xué)規(guī)模不斷擴(kuò)大[1],高校的信息化建設(shè)也在逐步完善。與此同時(shí)隨著數(shù)據(jù)挖掘技術(shù)的深層次應(yīng)用,數(shù)據(jù)挖掘技術(shù)也逐漸應(yīng)用到高校教學(xué)管理中[2]。高校招生規(guī)模日益擴(kuò)大,傳統(tǒng)教學(xué)管理模式面臨巨大的挑戰(zhàn),在轉(zhuǎn)型高校中的體現(xiàn)愈發(fā)明顯。高校的教學(xué)管理系統(tǒng)在高校的教學(xué)管理中發(fā)揮著越來(lái)越重要的作用[3]。但是目前的教務(wù)管理系統(tǒng)只是實(shí)現(xiàn)了數(shù)據(jù)的存儲(chǔ)、查詢、統(tǒng)計(jì)等功能[4],沒(méi)有進(jìn)一步挖掘數(shù)據(jù)中有價(jià)值的信息。以我校的學(xué)生成績(jī)管理系統(tǒng)為例,該系統(tǒng)只實(shí)現(xiàn)了對(duì)學(xué)生成績(jī)的簡(jiǎn)單查詢和數(shù)理統(tǒng)計(jì),利用這種方法得到的數(shù)據(jù)只是計(jì)算機(jī)技術(shù)的簡(jiǎn)單應(yīng)用,無(wú)法發(fā)現(xiàn)影響學(xué)生成績(jī)的具體因素[5],以及各種因素之間的關(guān)系。如何有效地分析以往的學(xué)生成績(jī)數(shù)據(jù),從中挖掘潛在的學(xué)生成績(jī)的影響因素[6],不斷提高高校的教學(xué)質(zhì)量,成為所有高校教學(xué)管理的核心內(nèi)容。

本文首先利用數(shù)據(jù)挖掘軟件Weka[7]對(duì)榆林學(xué)院信息工程學(xué)院2003~2015 學(xué)年計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的722 名學(xué)生成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則分析,猜想課程之間是否存在關(guān)聯(lián)性,企圖能找出學(xué)生所學(xué)習(xí)的課程之間存在的一些關(guān)聯(lián)規(guī)則;然后利用數(shù)據(jù)挖掘軟件Wake 對(duì)榆林學(xué)院信息工程學(xué)院2003~2015學(xué)年計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的722 名學(xué)生成績(jī)進(jìn)行多元線性回歸分析,猜想基礎(chǔ)課程對(duì)與之相關(guān)的專業(yè)課是否會(huì)產(chǎn)生影響,企圖能找出學(xué)生所學(xué)習(xí)的基礎(chǔ)課程對(duì)與之相關(guān)的專業(yè)課會(huì)產(chǎn)生怎樣的影響。

2 數(shù)據(jù)與方法

2.1 數(shù)據(jù)

本文的研究數(shù)據(jù)來(lái)源于榆林學(xué)院教務(wù)管理系統(tǒng),并與學(xué)校管理者簽訂了保密協(xié)議,原始數(shù)據(jù)是榆林學(xué)院信息工程學(xué)院2003~2015 學(xué)年的學(xué)生成績(jī),本次數(shù)據(jù)的預(yù)處理是通過(guò)Microsoft Excel2010除去科目中的公共選修課和某些公共必修課,本次數(shù)據(jù)中未發(fā)現(xiàn)空值。

利用數(shù)據(jù)挖掘軟件Wake對(duì)學(xué)生成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘和多元線性回歸分析,從原始數(shù)據(jù)中選出計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)2003~2015 學(xué)年所學(xué)習(xí)的五門(mén)基礎(chǔ)課和七門(mén)專業(yè)課共十二門(mén)課程:五門(mén)基礎(chǔ)課分別是C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理和線性代數(shù),并分別用A、B、C、D 和E 表示;七門(mén)專業(yè)課分別是操作系統(tǒng)、匯編語(yǔ)言程序設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)原理,并分別用F、G、H、I、J、K 和L 表示,在表1中列出。

表1 十二門(mén)課程的學(xué)生成績(jī)

關(guān)聯(lián)規(guī)則挖掘必須要將被研究的數(shù)據(jù)進(jìn)行離散化[8]處理,對(duì)研究數(shù)據(jù)進(jìn)行手動(dòng)離散化和概念分層[9]。首先,將十二門(mén)課程的學(xué)生成績(jī)分成三段,分別是0~60 分,60~80 分,80~100 分,并進(jìn)行分段標(biāo)記。以C 語(yǔ)言程序設(shè)計(jì)為例,C 語(yǔ)言程序設(shè)計(jì)0~60 分,60~80 分,80~100 分分別標(biāo)記為A3,A2,A1。在進(jìn)行手動(dòng)離散化和概念分層之后的數(shù)據(jù),在表2中列出。

表2 對(duì)十二門(mén)課程進(jìn)行離散化和概念分層

利用多元線性回歸分析,挖掘基礎(chǔ)課程對(duì)專業(yè)課程是否會(huì)產(chǎn)生影響。將五門(mén)基礎(chǔ)課與其中一門(mén)專業(yè)課的數(shù)據(jù)多元線性回歸分析,以匯編語(yǔ)言程序設(shè)計(jì)為例,即篩選出C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理、線性代數(shù)和匯編語(yǔ)言程序設(shè)計(jì),在表3中列出。

表3 基礎(chǔ)課和匯編語(yǔ)言程序的成績(jī)

2.2 方法

2.2.1 關(guān)聯(lián)規(guī)則介紹

關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣關(guān)聯(lián)或相關(guān)聯(lián)系[10]。實(shí)現(xiàn)關(guān)聯(lián)的技術(shù)主要是統(tǒng)計(jì)學(xué)中的支持度和置信度分析[11],支持度主要用于測(cè)量連接分析中的統(tǒng)計(jì)在數(shù)據(jù)集中的重要性,置信度用于測(cè)量連接分析中的可信度[12]。支持度即在事物集U中不僅出現(xiàn)項(xiàng)集A又出現(xiàn)項(xiàng)集B的事務(wù)為a%,則關(guān)聯(lián)規(guī)則A==>B 的支持度為a%,即表示A和B在事務(wù)U中出現(xiàn)的頻率,式(1)列出

置信度即在事務(wù)U中出現(xiàn)項(xiàng)集A的同時(shí)項(xiàng)集B也出現(xiàn)的概率,表示關(guān)聯(lián)規(guī)則的強(qiáng)度,式(2),式(3)列出

關(guān)聯(lián)規(guī)則的算法有很多,本文主要采用的是關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori算法[13],該算法使用一種逐層搜索的迭代方法:N 項(xiàng)集用于搜索(N+1)項(xiàng)集。首先,找到頻繁1 項(xiàng)集的集合,記作M1,M1 用于找到頻繁2 項(xiàng)集的M2,而M2 用于找到M3,如此下去,直到不能找到頻繁N 項(xiàng)集,每一次搜索都需要掃描一次數(shù)據(jù)庫(kù),為提高頻繁項(xiàng)集逐層產(chǎn)生的效率,一般作法是利用Apriori 算法的性質(zhì)壓縮收縮空間[13]。Apriori 算法的性質(zhì)是頻繁項(xiàng)集的所有非空子集必須也是頻繁的。

2.2.2 多元線性回歸介紹

回歸分析是從一組數(shù)據(jù)出發(fā)通過(guò)一個(gè)或一些變量的變化解釋另一個(gè)變量的變化[14]。首先根據(jù)對(duì)實(shí)際問(wèn)題的分析判斷,將變量分為解釋變量和非解釋變量;其次,根據(jù)函數(shù)擬合方式,確定合適的數(shù)學(xué)模型來(lái)描述變量間的關(guān)系,再在統(tǒng)計(jì)擬合的準(zhǔn)則下確定模型的參數(shù),建立回歸方程。由于涉及到的變量是不確定的,回歸方程是在樣本數(shù)據(jù)的基礎(chǔ)上得出,必須進(jìn)行回歸模型的統(tǒng)計(jì)檢驗(yàn),經(jīng)統(tǒng)計(jì)檢驗(yàn)后,再根據(jù)回歸模型,進(jìn)行因變量的預(yù)測(cè)。

回歸分析的類型分為一元線性回歸和多元線性回歸,本文主要采用的是多元線性回歸。多元線性回歸的基本模型

其中x1,x2,…,xp是自變量,β0,β1,…,βp是未知參數(shù),ε是零均值隨機(jī)變量。

如果對(duì)式(4)兩邊求期望,則有多元線性回歸方程

估計(jì)未知參數(shù)β0,β1,…,βp是多元線性回歸分析的核心任務(wù)之一。由于參數(shù)估計(jì)的工作是基于樣本數(shù)據(jù)的,由此得到的參數(shù)只是參數(shù)真值的估計(jì)值,記為,,…,。最終解得模型(4)的多元經(jīng)驗(yàn)回歸方程

多元回歸模型中的檢驗(yàn)有兩種,一種是回歸系數(shù)的顯著性檢驗(yàn),即是檢驗(yàn)?zāi)硞€(gè)變量xi的系數(shù)是否為零;另一種檢驗(yàn)就是回歸方程的顯著性檢驗(yàn)[15],即是檢驗(yàn)改組數(shù)據(jù)是否使用于線性方程做回歸。

3 基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析

3.1 利用關(guān)聯(lián)規(guī)則挖掘?qū)W(xué)生成績(jī)的挖掘結(jié)果

將已經(jīng)過(guò)離散化和概念分層的數(shù)據(jù)在挖掘軟件Wake 使用Apriori 算法進(jìn)行訓(xùn)練,在訓(xùn)練中不斷調(diào)整參數(shù)設(shè)置,其中classIndex 是類屬性索引,delta是迭代遞減單位,LowerMinSup 指的是最小支持度下界,MinMetric 指的是度量的最小值,SigLevel 指的是重要程度,進(jìn)行重要性測(cè)試,upperMinSup指的是最小支持度上界,最終參數(shù)修改結(jié)果在表4 中列出。

表4 關(guān)聯(lián)規(guī)則挖掘參數(shù)設(shè)置

最終得到榆林學(xué)院信息工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)所學(xué)課程中的十二門(mén)課程之間的關(guān)聯(lián)規(guī)則,在表5中列出。

表5 關(guān)聯(lián)規(guī)則挖掘結(jié)果

通過(guò)對(duì)十二門(mén)課程進(jìn)行關(guān)聯(lián)規(guī)則挖掘得到的規(guī)則分析有:1)如果大學(xué)英語(yǔ)、大學(xué)物理、線性代數(shù)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80分之間有94%的可能性;2)如果高等數(shù)學(xué)、大學(xué)物理、線性代數(shù)、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60-80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80 分之間有93%的可能性;3)如果大學(xué)物理、線性代數(shù)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、離散數(shù)學(xué)數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80 分之間有93%的可能性;4)如果高等數(shù)學(xué)、線性代數(shù)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80 分之間有92%的可能性;5)如果C 語(yǔ)言程序設(shè)計(jì)、高等數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么大學(xué)英語(yǔ)的成績(jī)?cè)?0~80 分之間有91%的可能性。

綜上所述,數(shù)據(jù)庫(kù)原理的成績(jī)與大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理、線性代數(shù)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)和數(shù)據(jù)結(jié)構(gòu)的成績(jī)有關(guān)系;大學(xué)英語(yǔ)的成績(jī)與C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理和數(shù)據(jù)結(jié)構(gòu)的成績(jī)有關(guān)系。

3.2 利用多元線性回歸分析對(duì)學(xué)生成績(jī)的挖掘結(jié)果

將研究數(shù)據(jù)在Wake 中選擇Linear Regression算法,使用默認(rèn)參數(shù),選擇Cross-validation,設(shè)置Folds 為20,即使用其中的20 條數(shù)據(jù)進(jìn)行交叉驗(yàn)證。并分別對(duì)F列、G列、H列、I列、J列、K列和L列的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

根據(jù)上述對(duì)多元線性回歸建立回歸模型的分析,可對(duì)本次研究的數(shù)據(jù)建立模型:

其中自變量x1、x2、x3、x4和x5分別代表C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理和線性代數(shù),因變量y1、y2、y3、y4、y5、y6和y7分別代表操作系統(tǒng)、匯編語(yǔ)言程序設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)原理。預(yù)測(cè)的多元線性回歸模型在表6中列出。

表6 多元線性回歸模型

回歸模型的好壞由模型評(píng)價(jià)參數(shù)來(lái)說(shuō)明,R、MAE、RMSE、RAE 和RRSE 分別代表的是相關(guān)系數(shù)、平均絕對(duì)誤差、均方根誤差、相對(duì)誤差絕對(duì)值和根相對(duì)誤差,模型評(píng)價(jià)參數(shù)在表7中列出。

表7 回歸模型評(píng)價(jià)參數(shù)

針對(duì)線性回歸模型與回歸模型性能指標(biāo),可得到結(jié)果有:1)匯編語(yǔ)言程序設(shè)計(jì)會(huì)受到基礎(chǔ)課程C語(yǔ)言程序設(shè)計(jì)、線性代數(shù)、大學(xué)英語(yǔ)、大學(xué)物理和高等數(shù)學(xué)的影響,其中對(duì)其影響較大的基礎(chǔ)課程是C語(yǔ)言程序設(shè)計(jì)和線性代數(shù);2)計(jì)算機(jī)網(wǎng)絡(luò)會(huì)受到基礎(chǔ)課程高等數(shù)學(xué)、線性代數(shù)、大學(xué)物理、C 語(yǔ)言程序設(shè)計(jì)、和大學(xué)英語(yǔ)的影響,其中影響較大的基礎(chǔ)課程是高等數(shù)學(xué)和線性代數(shù);3)離散數(shù)學(xué)會(huì)受到基礎(chǔ)高等數(shù)學(xué)、C 語(yǔ)言程序設(shè)計(jì)、線性代數(shù)和大學(xué)英語(yǔ)的影響,其中影響較大的基礎(chǔ)課程是高等數(shù)學(xué)和C語(yǔ)言程序設(shè)計(jì);4)數(shù)據(jù)結(jié)構(gòu)會(huì)受到基礎(chǔ)課程C 語(yǔ)言程序設(shè)計(jì)、大學(xué)物理、大學(xué)英語(yǔ)、線性代數(shù)和高等數(shù)學(xué)的影響,其中影響較大的基礎(chǔ)課程是C 語(yǔ)言程序設(shè)計(jì)和大學(xué)物理;5)數(shù)據(jù)庫(kù)原理會(huì)受到基礎(chǔ)課程大學(xué)英語(yǔ)、高等數(shù)學(xué)、線性代數(shù)和大學(xué)物理,其中影響較大的基礎(chǔ)課程是大學(xué)英語(yǔ)和高等數(shù)學(xué)。

綜上所述,數(shù)學(xué)類專業(yè)課受數(shù)學(xué)類基礎(chǔ)課的影響較大,比如高等數(shù)學(xué)對(duì)離散數(shù)學(xué)的影響就很大;計(jì)算機(jī)類專業(yè)課受計(jì)算機(jī)類基礎(chǔ)課的影響較大,比如C 語(yǔ)言程序設(shè)計(jì)對(duì)匯編語(yǔ)言程序設(shè)計(jì)的影響就很大;計(jì)算機(jī)類和數(shù)學(xué)類相結(jié)合的課程會(huì)同時(shí)受計(jì)算機(jī)類和數(shù)學(xué)類基礎(chǔ)課的影響,比如C 語(yǔ)言程序設(shè)計(jì)和線性代數(shù)對(duì)操作系統(tǒng)的影響就很大。

4 結(jié)語(yǔ)

本文主要通過(guò)數(shù)據(jù)挖掘軟件Wake對(duì)學(xué)生成績(jī)進(jìn)行了關(guān)聯(lián)規(guī)則挖掘和多元線性回歸建模,并給出了參數(shù)設(shè)置和模型評(píng)價(jià)參數(shù),分別得到了課程與課程之間的關(guān)聯(lián)和基礎(chǔ)課程對(duì)專業(yè)課程的影響。基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析是一個(gè)比較廣泛的課題,在利用關(guān)聯(lián)規(guī)則挖掘?qū)W生成績(jī)時(shí),只是對(duì)課程之間的相關(guān)性進(jìn)行了分析,沒(méi)有加入一些附加因素,比如,學(xué)生的性別、年齡、年級(jí)和英語(yǔ)等級(jí)考試成績(jī)等學(xué)生基本信息。在利用多元線性回歸對(duì)學(xué)生成績(jī)建立回歸模型時(shí),只是分析了基礎(chǔ)課程對(duì)專業(yè)課程的影響,沒(méi)有建立學(xué)生平時(shí)成績(jī)對(duì)考研成績(jī)的回歸模型。以上這些不足之處將會(huì)在下一步的研究工作中得到完善與優(yōu)化。

猜你喜歡
關(guān)聯(lián)模型課程
一半模型
“苦”的關(guān)聯(lián)
數(shù)字圖像處理課程混合式教學(xué)改革與探索
重要模型『一線三等角』
軟件設(shè)計(jì)與開(kāi)發(fā)實(shí)踐課程探索與實(shí)踐
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
為什么要學(xué)習(xí)HAA課程?
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产福利一区在线| 亚洲av无码久久无遮挡| 亚洲第一视频区| 免费 国产 无码久久久| 国产主播在线一区| 日韩福利在线视频| 亚洲第一区精品日韩在线播放| 国产va在线观看免费| 成人亚洲天堂| 一区二区三区四区日韩| 又粗又硬又大又爽免费视频播放| 国产成人久视频免费| 乱人伦视频中文字幕在线| 成人一区专区在线观看| 欧美日韩第二页| 精品国产中文一级毛片在线看| 青青青国产视频手机| 亚洲看片网| 亚洲美女高潮久久久久久久| 欧美国产精品拍自| 超清无码熟妇人妻AV在线绿巨人| 亚洲欧美日韩综合二区三区| 日韩a级片视频| 一边摸一边做爽的视频17国产 | 丝袜国产一区| 日韩亚洲综合在线| 国产99视频精品免费观看9e| 天堂中文在线资源| 蝴蝶伊人久久中文娱乐网| 亚洲AⅤ综合在线欧美一区| 就去吻亚洲精品国产欧美| 亚瑟天堂久久一区二区影院| 亚洲精品欧美日本中文字幕| 美女内射视频WWW网站午夜 | 久久国产精品麻豆系列| 国产毛片不卡| 午夜福利在线观看成人| a级毛片网| 久久综合色88| 国产91视频观看| 国产精欧美一区二区三区| 99无码中文字幕视频| 亚洲一区二区三区在线视频| 国产农村1级毛片| 少妇精品网站| 成年A级毛片| 日本亚洲国产一区二区三区| 亚洲国产一成久久精品国产成人综合| 精品伊人久久久香线蕉| 日韩精品毛片人妻AV不卡| 无码日韩视频| 无码专区国产精品第一页| 亚洲欧美不卡中文字幕| 国产精品嫩草影院av| 丁香六月激情综合| 中国一级毛片免费观看| 一级成人欧美一区在线观看| 久久国产拍爱| 国产视频久久久久| 国产中文在线亚洲精品官网| 911亚洲精品| 91毛片网| 91欧洲国产日韩在线人成| 久久这里只有精品66| 精品人妻系列无码专区久久| 国产精品99r8在线观看| 露脸一二三区国语对白| 秘书高跟黑色丝袜国产91在线 | 四虎免费视频网站| 国产精品人莉莉成在线播放| 四虎在线观看视频高清无码| 热热久久狠狠偷偷色男同 | 欧美午夜在线播放| 欧美、日韩、国产综合一区| 亚洲va在线观看| 国产SUV精品一区二区| 国产第一福利影院| 日韩在线播放中文字幕| 久久国产成人精品国产成人亚洲| 婷婷午夜影院| 中文字幕首页系列人妻| 久久国产免费观看|