基于機器學(xué)習(xí)的在線學(xué)習(xí)數(shù)據(jù)分析與研究

2020-05-11 12:24:30黃家琦隋永博黃麗麗劉暢

數(shù)字技術(shù)與應(yīng)用 2020年2期

黃家琦隋永博黃麗麗劉暢

摘要：本文主要以機器學(xué)習(xí)方法為基礎(chǔ)對學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進行分析和研究。首先采用多元線性回歸的方法對從網(wǎng)絡(luò)教學(xué)平臺獲得的14個量化特征按照對考試成績的影響權(quán)重進行排序，隨后采用廣義回歸神經(jīng)網(wǎng)絡(luò)分別對選出的權(quán)重較高的9個特征以及全部特征進行建模。結(jié)果表明，通過特征選擇后的模型平均絕對誤差為5.7，無論是在預(yù)測能力還是擬合優(yōu)度方面都要高于采用全部特征的模型，因此該模型可以有效預(yù)測考試成績，使教師能夠識別出容易不及格的學(xué)生，及時提供干預(yù)與支持。

關(guān)鍵詞：機器學(xué)習(xí);多元線性回歸;廣義回歸神經(jīng)網(wǎng)絡(luò);在線學(xué)習(xí)

中圖分類號：TP181 文獻標(biāo)識碼：A 文章編號：1007-9416（2020）02-0069-02

0 引言

目前大學(xué)當(dāng)中的高等教育，雖然教育體制相對完善，但普遍存在的問題是老師只能根據(jù)教學(xué)大綱中規(guī)定的任務(wù)授課，很少考慮到學(xué)生的接受程度，以至于學(xué)生在課堂上獲得的知識個體差異明顯，一部分學(xué)生能夠完全領(lǐng)會老師所講的知識，而另一部分學(xué)生或多或少存在知識點的遺漏。因此，工作在第一線的高校教師始終都在嘗試實現(xiàn)個性化教育的方法，可惜的是至今還沒有找到行之有效的解決方案。隨著信息技術(shù)的迅速發(fā)展，教育信息化的深入應(yīng)用，網(wǎng)絡(luò)教學(xué)平臺、自適應(yīng)學(xué)習(xí)系統(tǒng)等應(yīng)用的不斷崛起，在線學(xué)習(xí)已經(jīng)成為諸多高校普遍使用的一種教學(xué)方式。國外學(xué)術(shù)界研究在線學(xué)習(xí)分析技術(shù)的時間較早，并通過實證研究獲得了豐富的研究成果。國內(nèi)學(xué)者針對機器學(xué)習(xí)在教育領(lǐng)域的研究很少，少數(shù)學(xué)者僅從理論層面提出了在線學(xué)習(xí)數(shù)據(jù)分析在提高教師教學(xué)質(zhì)量、學(xué)業(yè)成績預(yù)警等方面的研究[1]。

本文以大學(xué)計算機基礎(chǔ)課程為例，采用的數(shù)據(jù)庫含有從網(wǎng)絡(luò)教學(xué)平臺提取出的14個在線學(xué)習(xí)量化特征，包括：進入課程次數(shù)、向老師提問次數(shù)、課程討論區(qū)發(fā)表話題次數(shù)等，這些特征與考試成績密切相關(guān)。數(shù)據(jù)庫含有355條學(xué)生數(shù)據(jù)，經(jīng)過有效的數(shù)據(jù)集劃分后，使用廣義回歸神經(jīng)網(wǎng)路對全部特征以及通過多元線性回歸進行特征選擇之后得到的部分特征進行建模[2]。通過對結(jié)果的分析，可以得到模型的預(yù)測誤差以及一系列評價指標(biāo)，教師可以在考試前針對預(yù)測結(jié)果進行真正意義上的因材施教。此外，根據(jù)特征選擇的結(jié)果，發(fā)掘出對于考試成績影響較大的特征，在教學(xué)過程中可以進行更多的關(guān)注。

1 廣義回歸神經(jīng)網(wǎng)絡(luò)預(yù)測模型

廣義回歸神經(jīng)網(wǎng)絡(luò)（GRNN，Generalized Regression Neural Network）是由美國學(xué)者Donald F.Specht提出的一種徑向基神經(jīng)網(wǎng)絡(luò)[3]。GRNN具有較好的非線性調(diào)節(jié)能力和柔性網(wǎng)絡(luò)結(jié)構(gòu)，以及高度的容錯性和魯棒性，適用于解決非線性問題。無論在學(xué)習(xí)速度上還是逼近能力方面，GRNN相較于其它神經(jīng)網(wǎng)絡(luò)具有更強的優(yōu)勢。

GRNN的理論基礎(chǔ)為非線性回歸分析方法，獨立變量x與非獨立變量Y的回歸分析事實上是求得具有最大概率值的y。已知兩個隨機變量x和y的聯(lián)合概率密度函數(shù)為f（x，y），設(shè)x的樣本觀測值為X，則y相對于X的條件均值為：

=E（y/X）=? ? ? ? ? ? ? ? ? ? ? ? ? （1）

即為當(dāng)輸入值為X時，Y的預(yù)測輸出。

應(yīng)用Parzen非參數(shù)估計，通過樣本數(shù)據(jù)集可估算密度函數(shù)。

=exp exp? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （2）

式中，Xi，Yi為隨機變量x和y的觀測值;p為隨機變量x的維數(shù);n為樣本容量，σ為高斯函數(shù)的寬度系數(shù)，本文稱為光滑因子。當(dāng)光滑因子σ較大時，近似于所有樣本觀測值的均值。相反，當(dāng)光滑因子σ趨向于0時，和訓(xùn)練樣本比較接近。

2 實驗結(jié)果

2.1 數(shù)據(jù)集準(zhǔn)備

對數(shù)據(jù)集進行合理的劃分將直接影響到回歸模型的穩(wěn)定性。本文采用SPXY（Sample set Partitioning based on joint x-y distances）算法[4]將355條從網(wǎng)絡(luò)教學(xué)平臺獲取到的學(xué)生學(xué)習(xí)行為數(shù)據(jù)按照4：1的比例分成由284條數(shù)據(jù)組成的訓(xùn)練集，和71條數(shù)據(jù)組成的測試集。根據(jù)上文提到的采用多元線性回歸方法進行特征選擇，得到的每個特征對于響應(yīng)變量影響的權(quán)重如表1所示：

根據(jù)上表1可知，對于學(xué)生期末考試成績影響較大的特征有3號：課程討論區(qū)發(fā)表話題次數(shù)、5號：課程討論區(qū)被回文次數(shù)以及4號：課程討論區(qū)回文次數(shù)。而1號：登錄次數(shù)、6號：閱讀課程教學(xué)材料次數(shù)以及2號：進入課程次數(shù)則對學(xué)生期末考試成績影響較小。

2.2 實驗結(jié)果分析

本文分別選取全部特征以及采用MLR方法計算出的對于因變量影響較大的前9個特征作為模型的輸入，將學(xué)生期末考試成績作為模型的輸出，采用GRNN進行建模，通過計算平均絕對誤差（Mean Absolute Error，MAE）：

MAE=? ? ? ? ? ? ? ? ? ? ? ? ? ?（3）

其中yi是第i個樣本的觀測值，是第i個樣本的預(yù)測值，得到的結(jié)果為別為8.1040和5.7303。通過上表不難看出，經(jīng)過MLR特征選擇后所建立的模型雖然在預(yù)測能力和擬合度方面沒有達到理想的效果，可能存在過擬合現(xiàn)象，但平均絕對誤差為5.7，能夠在一定程度上反映出學(xué)生對于課程的掌握程度，教師可以在考試前針對可能不及格的學(xué)生進行監(jiān)督和指導(dǎo)。

為了更加直觀的去衡量模型的預(yù)測能力和擬合度，我們用散點圖分別表示出樣本測試集和訓(xùn)練集的實驗結(jié)果，樣本測試集預(yù)測結(jié)果圖1所示，樣本訓(xùn)練集預(yù)測結(jié)果圖2所示：

通過上圖1、圖2可以得出，無論是測試集還是訓(xùn)練集，對于大多數(shù)樣本都比較趨近于直線y=x，其中測試集誤差范圍在5的樣本為67.6%，訓(xùn)練集誤差范圍在5的樣本為65.8%，證明模型的泛化能力較強，無過擬合現(xiàn)象。此外，觀察散點分布可知，對于分數(shù)在70-90分之間的樣本，模型的預(yù)測結(jié)果較準(zhǔn)，而對于90分以上及60分以下的樣本，存在高分預(yù)測偏低，低分預(yù)測偏高的現(xiàn)象，這是由于數(shù)據(jù)集中90分以上及60分以下的樣本較少，尤其是40分以下的樣本只有一個。我們注意到觀測值為26.6的樣本，模型給出的預(yù)測值為45.2，雖然誤差較大，但是預(yù)測結(jié)果相對很低，對于考試成績不及格具備較高的參考價值。

3 結(jié)語

針對國內(nèi)在線學(xué)習(xí)分析技術(shù)的研究大多數(shù)還在引介述評上，實證研究方面有待提高，本文采用廣義回歸神經(jīng)網(wǎng)絡(luò)對從網(wǎng)絡(luò)教學(xué)平臺獲得的量化特征以考試成績?yōu)橐蜃兞窟M行回歸建模。結(jié)果表明，對考試成績的預(yù)測可以有效識別出可能存在考試危機的學(xué)生，從而可以使教師針對個體差異進行有效的教學(xué)決策、教學(xué)干預(yù)，達到提高教學(xué)質(zhì)量的目標(biāo)。機器學(xué)習(xí)方法已經(jīng)被證實可以應(yīng)用在教育領(lǐng)域，同樣在本文建立的考試成績預(yù)測模型方法上有著潛在的提升空間。未來需增加樣本數(shù)據(jù)集的涵蓋面，尤其是對于低分和高分數(shù)據(jù)的擴充，在收集大量學(xué)生學(xué)習(xí)行為數(shù)據(jù)后，可以嘗試與目前主流的一些預(yù)測模型以及特征選取方法的性能進行對比，例如LSTM等。

參考文獻

[1] 趙慧瓊，姜強，趙蔚，等.基于大數(shù)據(jù)學(xué)習(xí)分析的在線學(xué)習(xí)績效預(yù)警因素及干預(yù)對策的實證研究[J].電化教育研究，2017（01）：62-69.

[2] 劉嚴.多元線性回歸的數(shù)學(xué)模型[J].沈陽工程學(xué)院學(xué)報（自然科學(xué)版），2005（Z1）：128-129.

[3] Specht D F.A general regression neural networks[J].Ieee Transactions On Neural Networks，1991，2（6）：568-576.

[4] Roberto Kawakami Harrop Galvo，Mário César Ugulino Araujo，Gledson Emídio José，etc.A method for calibration and validation subset partitioning[J]. Talanta，2005，67（4）：736-40.

Analysis and Research of? Online Learning Data Based on Machine Learning

HUANG Jia-qi， SUI Yong-bo， HUANG Li-li， LIU Chang

（School of? medical information， Changchun University of? Chinese Medicine， Changchun? Jilin? 130117）

Abstract：This paper mainly analyzes and studies students' online learning behavior data based on machine learning methods. Firstly， the multiple linear regression method is used to rank the 14 quantitative features obtained from the online teaching platform according to the weights of the test scores， Then， nine features with higher weight and all features are modeled by using the generalized regression neural network. The results show that the average absolute error of the model after feature selection is 5.7， which is higher than the model with all features in both predictive ability and goodness of fit. Therefore， the model can effectively predict test scores and enable teachers to identify Students who are prone to fail， provide timely intervention and support.

Key words：machine learning; multiple linear regression; generalized regression neural network; online learning