薛新鵬 楊杉



DOI:10.19850/j.cnki.2096-4706.2021.09.022
摘? 要:文章從四川某高校學生在線學習平臺的后臺分別獲取疫情前和疫情后的學習數據,并進行數據分析、數據挖掘以及學生畫像這三大主題的分析。其中數據分析采用了頻數統計,獨立樣本T檢驗分析方法;數據挖掘則以貝葉斯分析為主題;學生畫像以學院作為主題,對數據內的兩類數據進行了可視化分析。
關鍵詞:大數據分析;可視化分析;SPSS;學習平臺后臺數據分析
中圖分類號:TP391.4? ? ? ?文獻標識碼:A 文章編號:2096-4706(2021)09-0083-05
Data Research on College StudentsOnline Learning Platform Based on Big Data
XUE Xinpeng,YANG Shan
(School of Computer and Software,Jincheng College of Sichuan University,Chengdu? 611731,China)
Abstract:This paper obtains the learning data before and after the epidemic from the background of student online learning platform in a college in Sichuan,and carries out three themes of analysis,namely data analysis,data mining and student portrait. Among them,frequency statistics and independent sample student's T test analysis method are used for data analysis;data mining focuses on Bayesian analysis;takes the college as the theme for student portrait and makes a visual analysis of the two types of data in the data.
Keywords:big data analysis;visual analysis;SPSS;background data analysis of learning platform
0? 引? 言
互聯網所帶來的便利就是為我們的學習提供了更多的選擇,而大數據的發展也為我們提供了更多的可能性,通過搜集學生的學習行為數據推斷其學習的進度和學習的狀態以及學習狀況,學校對學生的各項信息有更加直觀的了解,并對其進行更好的學習提供指導。尤其是疫情以來,網絡教學成為各個學校最主要的教學方式,學生的學習數據是高等學校非常重要的一項數據資源,是一個教育機構不可或缺的一部分,對于學生的日常表現,成績情況,課堂表現以及后勤管理等都有很好的參考作用。并且根據線上的數據對各個學院進行學生畫像可視化分析,也能夠清晰地看出各學院疫情前和疫情后的在線學習平臺的使用情況的變化。
1? 研究思路
以四川省某高校在線學習平臺疫情前后學習數據為研究對象,進行數據預處理以及數據清洗等數據分析前的基本處理,隨后分別對疫情前和疫情后的數據進行數據分析,數據挖掘以及學生畫像可視化分析。其中數據分析以及數據挖掘采用了SPSS數據分析軟件,使用頻數統計,獨立樣本T檢驗和貝葉斯等分析方法;學生畫像可視化分析采用了Python以及圖表秀,以學院為基礎,分類對各學院考試完成數以及各學院視頻任務點完成數進行了各學院的畫像,并對其畫像所得出的分布比例進行數據的對比分析。
2? 數據說明
2.1? 數據來源
以四川省某高校在線學習平臺疫情前后學習數據的統計表為基礎數據,其中疫情前的數據為43 000條,疫情后的數據為26 000條,包括了觀看視頻總時長、任務點完成數、考試平均分、章節測驗完成數等字段數據。
2.2? 數據清洗
我們對Excel數據工作表做了兩方面的清洗工作:第一是對與研究問題無關的行列進行刪除和簡單的整理排序,將無用的或者是信息不完整的列或行進行刪除,另外對部分不合理的數據進行篩查,看其數值是否異常,如果存在異常,我們也對其進行刪除處理。
3? 數據分析
3.1? 關于章節學習次數的疫情前后頻率統計
如表1、表2所示,根據疫情前后的數據對比,我們不難發現疫情前的學習數據大多在一百到兩百次的范圍區間內,學習次數為187次的占比達到了32%,而學習次數為0的占比為0.8%。再反觀疫情后的統計數據,我們發現大多數的有效次數都在1 000左右,而有效次數為0的占比達到了4.8%,有效次數為1 166次的占比達到了12.3%,且1 000次左右的數據都相對分布較均勻,所以我們分析可以得出在疫情前的時期大家大多數都是在教室上課,并沒有太多的時間在學習通上學習,而當發生了疫情后,我們采用的為網絡教學的方式,在一定程度上增加了我們對學習通的使用次數。
3.2? 疫情前后不同年級學生的作業完成數與考試完成數的獨立樣本T檢驗分析
如表3、表4所示,獨立樣本檢驗表中作業完成數的顯著性為0,小于0.05,說明方差不具有齊次性,所以看第二行,根據顯著性(雙尾)為0.048,小于0.05,拒絕原假設,即疫情前,高年級學生的作業完成數與低年級存在顯著差異,高年級學生的作業完成數平均值高于低年級的作業完成數平均值。獨立樣本檢驗表中考試完成數的顯著性為0.098,大于0.05,說明方差具有齊次性,所以看第一行,根據顯著性(雙尾)為0.001,小于0.05,拒絕原假設,即疫情前,高年級學生的考試完成數與低年級存在顯著差異,高年級學生的考試完成數平均高于低年級的考試完成數。
如表5、表6所示,獨立樣本檢驗表中作業完成數的顯著性為0.005,小于0.05,說明方差不具有齊次性,所以看第二行,根據顯著性(雙尾)為0,小于0.05拒絕原假設,即疫情后,高年級學生的作業完成數與低年級存在顯著差異,高年級學生的作業完成數平均低于低年級的作業完成數。獨立樣本檢驗表中考試完成數的顯著性為0,小于0.05,說明方差不具有齊次性,所以看第二行,根據顯著性(雙尾)為0.447,大于0.05接受原假設,即疫情后,高年級學生的考試完成數與低年級不存在顯著差異。
4? 數據挖掘
4.1? 對疫情前后作業完成數的數據進行貝葉斯分析
疫情前后的貝葉斯分析如圖1所示。
圖1(a)中我們可以看到,疫情前的作業完成數對于視頻任務點完成數的依賴程度是最高的,其次是考試完成數,對于章節學習次數基本沒有依賴,說明疫情前老師和學生們對于在線學習平臺的使用基本為視頻的學習。
圖1(b)中我們可以看到,疫情后的作業完成數對于考試完成數的依賴最大,其次是視頻任務點完成數,同樣對于章節學習次數的依賴基本沒有,說明疫情期間老師和學生們大多都是進行的網上學習,因此對于網絡考試以及網絡視頻的學習次數增加,學習方式基本都為網絡學習,而對于成績以及學習情況的檢查,也只能采取網絡考試來進行,因此占比最大。
4.2? 疫情前關于學生考試完成數的支持向量機分析
首先在源數據的“類型”選項卡里對字段類型進行設置。將將要預測的學生考試完成數作為目標變量,其余變量作為預測變量,建立支持向量機模型,模式類型對比選擇RBF模式和專家模式,并且計算預測變量重要性,從而生成結果。
如圖2所示,當內核設置為RBF時,模型正確率為97.01%,且最重要的變量是任務點完成數,重要性是0.37,次要影響的變量為視頻任務點完成數為0.27,其他依次是作業完成數、章節測驗完成數、課程專題閱讀時長、簽到完成樹、討論總數、發帖總數、回帖總數和課程積分。
當內核設置為多項式時,模型正確率為97.06%,且最重要的變量是任務點完成數,重要性是0.36,次要影響的變量為視頻任務點完成數為0.23,其他依次是作業完成數、章節測驗完成數、簽到完成數、課程專題閱讀時長、討論總數、發帖總數、回帖總數和課程積分。
通過RBF模型與多項式模型預測正確率的對比,發現多項式的正確更高,顯然多項式模型更適合于預測本數據集。
5? 學生畫像可視化
從圖3中我們可以看到疫情后各個學院考試完成數的一個數量分布情況。我們可以清晰地看到在疫情后的考試完成數的一個環形的數量分布圖,其中計算機學院所占的比例最大,金融學院第二,建筑學院第三,外語學院第四,電子信息學院第四,藝術學院第五,土木與環境工程學院第六,文學與傳媒學院第七,工商管理學院排在最后。但是根據我們前面的頻數統計,可以看到各學院的學習平臺的考試次數都得到了很大的提升,說明自疫情以來學習方式以及考試等方式都逐漸轉為了網絡學習平臺進行。
從圖4中我們可以看到疫情后各個學院視頻任務點完成數的一個數量分布情況。其中計算機與軟件學院的數量排在第一位,藝術學院排在第二位,金融學院排在第三位,外國語學院排在第四位,土木與環境工程學院排在第五位,文學與傳媒學院排在第六位,工商管理學院排在第七位,建筑學院排在第八位,電子信息學院排在最后。這說明了計算機與軟件學院對于學生在線學習平臺的使用要多于其他學院,并且計算機與軟件學院的教學方式可能主要是以觀看視頻進行學習,并結合課堂上的知識進行學習。
6? 結? 論
根據對三個主題的分析,我們得出以下結論:首先疫情前同學們對于學生在線學習平臺的使用情況沒有疫情后那么頻繁。其次疫情前對于學生在線學習平臺的使用,大多都為視頻的觀看和章節測驗等;而疫情后由于在家網上學習,因此對于考試功能的使用相較于疫情前變得更加頻繁。而通過客戶畫像數據分析我們能夠得出,計算機與軟件學院對于學生在線學習平臺的使用頻率以及功能的使用情況遠遠高于其他學院。
根據對學生線上學習平臺的使用情況的分析,我們提出以下建議:首先可以適當加強學生在線學習平臺其他功能的使用,如發帖回帖以及討論,因為一些學生害羞,不會直接當面找老師進行學習以及問問題,就可以在網絡上發帖與老師進行學習上的探討。其次可以刪除對于學生在線學習平臺直播課的功能,因為疫情期間大家都是使用的騰訊會議,使用學生在線學習平臺直播課的功能的時候比較少,且平臺使用不穩定,因此可以對這個功能進行刪除。最后我們建議可以多使用課堂搶答的功能,這樣不僅能促進課堂氣氛,也能培養學生的學習以及回答問題的積極性。
參考文獻:
[1] 曹玉茹.基于SPSS的多選項問題研究 [J].統計與決策,2020,36(10):55-58.
[2] 吳華斌.大數據的統計分析淺議 [J].經濟師,2014(10):277-280.
[3] 賀玲.大數據背景下統計軟件在數據分析中的運用 [J].經貿實踐,2018(4):328+330.
[4] 文穎.大數據時代數據分析中統計軟件的運用研究 [J].信息與電腦(理論版),2017(6):97-98.
[5] 程澤凱,佘星星,謝寧宇.網絡教學平臺學生學習數據分析 [J].常州工學院學報,2019,32(2):77-80.
作者簡介:薛新鵬(2000-),男,漢族,四川成都人,本科在讀,研究方向:數據挖掘、大數據。
收稿日期:2021-03-02