機器學(xué)習(xí)在學(xué)生成績預(yù)測中的應(yīng)用

2019-02-14 08:51:22徐銘希

電子制作 2019年2期

徐銘希

（南京市第十三中學(xué)，江蘇南京，210036）

1 研究背景

我國正處于實現(xiàn)中華民族的偉大復(fù)興的最關(guān)鍵時期。發(fā)展是是十分重要的，而科技是發(fā)展的前提，要想科技發(fā)展，教育是最重要最根本的。教育領(lǐng)域急需像人工智能這樣的尖端技術(shù)手段來注入活力。人與人之間的競爭隨著社會的發(fā)展、進步變得越來越激烈。每個人都為了自己的前途打拼，大家都在用功，不僅在成人的職場上，更在我們學(xué)生的校園里。這場競爭像一場競速賽，賽場上瞬息萬變，每一秒鐘都有人超越別人或被別人超越。同學(xué)們對于自身的定位沒有準確及時的把握，過高或過低估計自己的情況經(jīng)常發(fā)生，平常學(xué)習(xí)的松懈可能會導(dǎo)致成績下滑而自己感覺不到，當真正意識到的時候，再想追趕，已經(jīng)不容易了。同時科技的發(fā)展使得社會日新月異，每天都變得更好更方便，特別是計算機網(wǎng)絡(luò)方面，人工智能從上世紀五十年代崛起到現(xiàn)在成為生活中必不可少的一部分，讓我們看到了人工智能的巨大潛力和廣闊的發(fā)展前景。人工智能已經(jīng)在許多領(lǐng)域里面得到了應(yīng)用，它的每一次應(yīng)用都會帶來前所未有的改變，本文將把人工智能領(lǐng)域機器學(xué)習(xí)方面的相關(guān)知識應(yīng)用到教育領(lǐng)域中，通過一些模型來預(yù)測學(xué)生的學(xué)習(xí)成績，從而為學(xué)生的學(xué)習(xí)提供一定的指導(dǎo)。

2 研究方法

本次研究將采用多種機器學(xué)習(xí)算法對學(xué)生的成績進行預(yù)測，包括邏輯回歸、決策樹、隨機森林、xgboost。通過對各個模型的對比，最終選擇出一個最優(yōu)的模型，并根據(jù)該最優(yōu)模型為學(xué)生的學(xué)習(xí)提供一定的指導(dǎo)。下面我們介紹一下每個模型的原理及思想。

■2.1 邏輯回歸

邏輯回歸（Logistic Regression），又稱為對數(shù)幾率回歸，它是一種分類算法，可以處理二元或多元分類。該算法的核心思想體現(xiàn)在Sigmoid函數(shù)，如式（1）所示。該函數(shù)限定預(yù)測值的區(qū)間為[0,1]，這樣我們可以根據(jù)預(yù)測的值的大小與指定的閾值進行對比，大于該閾值為一類樣本，小于該閾值為另一類樣本。根據(jù)處理任務(wù)的不同，應(yīng)采用不同的損失函數(shù)來對模型進行優(yōu)化，其中在處理回歸任務(wù)時一般采用均方差損失函數(shù)；在處理分類任務(wù)時一般采用交叉熵損失函數(shù)。

■2.2 決策樹

決策樹（DT），該模型是在已知各種情況發(fā)生概率的基礎(chǔ)上，通過求取凈現(xiàn)值大于等于零的概率來評價項目的風(fēng)險并判斷其可行性的決策分析方法。由于根據(jù)這種決策分析方法畫出圖形很像一棵樹，所以我們一般稱它為決策樹。一般來說，一棵決策樹包括一個根結(jié)點、許多內(nèi)部結(jié)點和葉結(jié)點。葉結(jié)點代表決策結(jié)果，內(nèi)部結(jié)點代表屬性測試，而根結(jié)點代表樣本全集。決策樹主要分為決策樹ID3、決策樹C4.5、CART這三種。決策樹的核心就在于如何去選擇一個最優(yōu)的特征進行結(jié)點分裂，其中ID3采用信息增益作為度量，該度量傾向于特征值比較多的特征；于是C4.5算法在信息增益的基礎(chǔ)上引入了信息增益比作為衡量特征重要性的度量；但是信息增益比所涉及到的計算是非常大的，進而CART又引入了基尼指數(shù)這一新的度量方式，從而使得決策樹在計算特征重要性是只涉及平方運算，不再涉及耗時的對數(shù)運算，同時，CART決策樹在結(jié)點分裂時，只分裂為二叉樹，這樣也比較適合計算機的運算模式，能夠提高計算速度。

■2.3 隨機森林

隨機森林（RF），它是集成學(xué)習(xí)的一種。集成學(xué)習(xí)，是通過將多個單個學(xué)習(xí)器集合到一起使它們共同完成學(xué)習(xí)任務(wù)。它博采眾長，結(jié)合多個弱學(xué)習(xí)器組成了強學(xué)習(xí)器。如果個體學(xué)習(xí)器是同種的，那么這個集成是同質(zhì)的。如果個體學(xué)習(xí)器是不同種的，那么它是異質(zhì)的。而根據(jù)個體學(xué)習(xí)器生成方式的不同可以將其分為兩大類。一種是串行化方法，這種方法具有很強的依賴關(guān)系，必須在個體學(xué)習(xí)設(shè)備之間串行生成，這種方法以Booke級數(shù)算法為代表；另一種是不存在強依賴關(guān)系的并行化方法，它可以在單個學(xué)習(xí)設(shè)備之間同時生成。它是用套袋系列算法來表示的。隨機森林是它的一個拓展變體，弱學(xué)習(xí)器采用CART決策樹，它的核心思想體現(xiàn)在“隨機”二字，即相對于傳統(tǒng)決策樹依次計算所有特征的重要性，隨機森林首先會隨機選擇一部分特征，然后在這些特征中再通過基尼指數(shù)選擇出最重要的特征作為分裂結(jié)點。該模型的特點是比較簡單易于實現(xiàn)，而且計算量相對比較小，是數(shù)據(jù)挖掘領(lǐng)域經(jīng)常使用到的算法。

■2.4 xgboost

上文在介紹隨機森林時，有提到集成學(xué)習(xí)Boosting系列算法。Boost系列中一個比較典型的算法是GBDT（梯度提升樹），它也是一種表達能力比較強的算法。而xgboost可以看作是G B DT的一種優(yōu)化版本。相對于G B DT，xgboost引入了一些新的特質(zhì)，使得模型的訓(xùn)練速度更快、更好的避免過擬合、有更強的擴展性等。如xgboost的弱學(xué)習(xí)器支持其它線性分類器（LR），它引入了一些正則化方法與采樣技術(shù)，可以更好的避免過擬合現(xiàn)象，它引入了“Shrinkage”思想，降低前一棵樹的學(xué)習(xí)效果，從而為后續(xù)的決策樹提供更多的學(xué)習(xí)空間；此外，xgboost還引入了特征并行的方法，大大提高了訓(xùn)練速度。xgboost是當前機器學(xué)習(xí)領(lǐng)域的一個非常優(yōu)秀的模型。

3 實驗過程

■3.1 實驗數(shù)據(jù)

本次研究中用到的數(shù)據(jù)集為xAPL-Educational Mining Dataset。它是一個多變量數(shù)據(jù)集，該數(shù)據(jù)集中樣本的屬性可以分為三個類別：人口統(tǒng)計學(xué)特征，如性別國籍等；學(xué)術(shù)背景屬性，如學(xué)習(xí)教育階段、分數(shù)段等；表現(xiàn)特征，如舉手次數(shù)、學(xué)習(xí)公開資料次數(shù)等。

■3.2 數(shù)據(jù)處理與探索

首先修正數(shù)據(jù)中一些列名大小寫的不規(guī)范。然后進行數(shù)據(jù)探索，查看標簽各個類別的數(shù)目，觀察發(fā)現(xiàn)各個類別的數(shù)量相對均衡；通過可視化工具作圖查看數(shù)據(jù)的分布，實驗數(shù)據(jù)為兩個學(xué)期的數(shù)據(jù)，經(jīng)觀察我們發(fā)現(xiàn)學(xué)生在第二學(xué)期成績會更優(yōu)秀、女生表現(xiàn)的比男生好、越高年級學(xué)生觀看學(xué)習(xí)資源越多等現(xiàn)象。通過PairGrid圖觀察數(shù)值型特征之間的關(guān)系，如圖1所示，可以發(fā)現(xiàn)女同學(xué)在學(xué)習(xí)方面表現(xiàn)的相對積極，如舉手次數(shù)、觀看學(xué)習(xí)資源次數(shù)等。

圖1

■3.3 模型構(gòu)建

該部分分別采用了邏輯回歸、決策樹、隨機森林、Xgboost進行了實驗，并從各個指標觀察模型的性能。其中，各模型的準確率對比如表1所示。

表1

接下來我們應(yīng)用網(wǎng)格搜索法對隨機森林與Xgboost進行參數(shù)調(diào)優(yōu)，主要對弱學(xué)習(xí)器的個數(shù)、每一個葉子節(jié)點上樣本個數(shù)、樹的深度與學(xué)習(xí)率等參數(shù)進行調(diào)整。對參數(shù)調(diào)優(yōu)后，隨機森林與Xgboost的準確率為表2所示。

表2

可以看到經(jīng)過參數(shù)調(diào)優(yōu)后，Xgboost模型的效果最好，準確率為81.94%。我們分別看一下由Xgboost得到的特征重要性（圖2）與由隨機森林得到的特征重要性（圖3）。

圖2

可以看到圖1中觀看學(xué)習(xí)資源次數(shù)、參與討論次數(shù)、看公告次數(shù)和舉手次數(shù)是最重要的特征；圖2中觀看學(xué)習(xí)資源次數(shù)、舉手次數(shù)、看公告次數(shù)和缺勤次數(shù)是最重要的特征，而參與討論的重要性僅次于它們。而性別特征與國籍特征對學(xué)生成績的影響不大。

圖3

4 總結(jié)

本文通過多個模型對學(xué)生成績進行預(yù)測，并對影響學(xué)生成績的各個因素進行了分析，根據(jù)實驗分析結(jié)果可以為學(xué)生、家長及老師提供一些意見與建議。后續(xù)我們可以收集更大量的、更多種類的數(shù)據(jù)，并采用更復(fù)雜的模型優(yōu)化預(yù)測結(jié)果。在此基礎(chǔ)上，還可以針對模型結(jié)果為學(xué)生制定學(xué)習(xí)計劃，提出不同的建議，進為學(xué)生定制個性化作業(yè)，針對弱點劣勢查缺補漏。由此看來，機器學(xué)習(xí)在教育領(lǐng)域的應(yīng)用前景光明，需要更多深入的研究來助其進一步發(fā)展。