嚴 志
(長沙民政職業技術學院軟件學院,長沙 410000)
隨著高校數字化建設及信息化管理時代的到來,傳統教育模式及教育方法在新技術的沖擊下正在發生悄然變革,探索從海量教育數據中挖掘學生學習規律和學習方式,讓真實的教學數據幫助教師實現教學工作方式轉變,讓管理者主動把握學生的行為特點和規律,讓教學與管理實現科學化、智能化、精準化與個性化。
傳統的高校教育教學工作中,對學生學習生活狀態的把控和判斷主要依賴相關授課老師或輔導員的經驗和主觀判斷,隨著高校信息化建設的發展,各類信息系統的運用為大數據技術分析高校學生的學習生活規律提供了數據基礎,同時也為創新高校教育教學工作提供了可能性。沈貴慶利用大數據平臺對學生學習行為數據進行存儲,采用數據挖掘算法和云計算技術獲取學生學習隱形行為。王改花等采用數據挖掘工具對網絡學習者進行聚類分析,將學生群體分為4類,得出學習行為與學習效果密切相關;胡學鋼等通過認知跟蹤模型分析學生作答習題的得分表現,追蹤學生隨時間變化的認知狀態,從而預測學生在未來時間的作答表現。張進良等以在線教育平臺為載體構建智能化學習環境,建立以數據支持的在線學習行為研究,通過對學習行為數據的挖掘與分析,促進學生自主反思、自主發現問題,為學習者提供個性化學習服務。徐蕾等梳理歸納了國內外教育大數據在服務教師教學、輔助學生學習、優化高層決策、協助學校管理等方面的研究現狀,提出了教育大數據在實時統籌學生動態發展、優化教師教學質量、動態規劃資源分配、高校智能決策四方面的技術路徑選擇。目前,美國教育部門構建“學習分析系統”,通過數據驅動學校,分析變革教育,幫助預測學生未來的學習行為,為教育工作者提供更多、更好、更精確的信息。澳大利亞臥龍崗大學開發了社會網絡可視化工具,構建在校大學生日常學習行為分析系統。
教育大數據的研究對象包括教育管理者、教師、學生和家長,其本質還是改善管理效率,優化教師教學方法以及提高學生成績。通過學生學習生活中一系列重要的信息,使用大數據分析和可視化手段將其完整地呈現出來,為評優評先、教學質量提升及貧困生鑒別等提供服務,優化高校決策機構與教師對教育資源的配置,進一步提升教師的教學質量與學生的成長環境。教育大數據使得教學信息在高校決策者、教師、學生與家長之間完整無阻地流動,讓教學效果變得可見,讓決策過程有據可依,其對教學質量提升具有重大的意義。本文以教育數據為依托,構建教育可視化分析系統,通過密度聚類算法分析學情與考勤、學情穩定性,挖掘教育規律,為信息化決策提供依據。
學情分析系統的主要原理是:將MOOC課程資源數據、第三方網絡數據源搜集整理,數據經整理后以規范化的數據保存到關系數據庫或文件中,對要研究的數據進行聚類分析,再使用可視化框架工具如echarts等以圖形方式展示,系統的核心框架如圖1所示。

圖1 系統框架
在圖1所示框架中,將第三方數據和MOOC數據爬取存儲到關系數據庫中,然后通過SQL語句對數據進行數據挖掘,形成數據匯總分析,然后再執行聚類算法分析,形成規范化的可視化數據,并將結果顯示到Web前端,系統用戶通過可視化系統查看數據分析結果,方便用戶查看學情效果。
以普通教師為例,通過數據可視化系統可以查看所在班級的成績、學習幫扶推薦、班級消費、班級考勤,其主要功能如圖2所示。

圖2 教學管理框架
本文采用線上資源課程數據結合第三方數據源作為本系統的數據源模型,搜集整理后的數據表格包含文章表、成績表、學生表、教師表、考勤表、考勤類別表、消費記錄表等數據。物理表模型如圖3所示。

圖3 物理表模型
給定集合,包含了個對象={,,,…,X},其中每個對象包含個維度屬性,DBSCAN算法基于一組“鄰域”參數(,MinPts)來刻畫樣本分布的緊密程度。
●-鄰域:對X∈,其-鄰域包含樣本集中與X的距離不大于的樣本,即(X)={X∈|dist(X,X)≤},其中距離函數dis(t)是歐式距離。
●核心對象(core-object):若X的-鄰域至少包含個樣本,即||(X)≥,則稱是一個核心對象。
●密度直達(directly density-reachable):若X位于X的-鄰域中,且X是核心對象,則稱X由X密度直達。
●密度可達(density-reachable):對X與X,若存在樣本序列,,,…,p,其中=X,p=X,且p由p密度直達,則稱X由X密度直達。
●密度相連(density-connected):對X與X,若存在X使得X與X均由X密度可達,則稱X與X密度相連。
如圖4所示,設定=3,虛線代表-鄰域,則是核心對象,由密度直達,由密度可達,與密度相連。

圖4 DBSCAN聚類關系
DBSCAN算法在數據集中任選一個核心對象為種子,由該節點計算密度可達生成的聚類簇,遍歷數據集中所有核心對象形成最終聚類簇。該算法具體過程如下所示:
輸入:樣本集D={,,,...,x}
鄰域參數(,)
過程:
1:初始化核心對象集合:Ω=?
2:for j=1,2,…,do

通過考勤表t_kq、學生表t_student和成績表t_chengji三個表之間的關系,查找出學習成績與學生考勤之間的關系,形成考勤成績元組模型:
x={_,_,_,_};其中:考勤學生學號,:考勤方式,:考核課程平均分,:個人考試成績。
將考勤數據形成樣本集D={x,x,…,x}輸入到DBSCAN密度查詢算法進行聚類分析得到圖5所示結果。其中縱軸0代表平均成績,橫軸代表遲到次數。通過考勤次數與學科成績的聚類關系得出,成績較好的學生考勤數據較好。

圖5 考勤次數與成績分布
圖6給出了考勤數據與學生成績的比例,從中可以看出遲到次數較少的優等生比例較高,遲到次數達到20次以上差等生的比例接近100%。

圖6 考勤與成績優劣關系
通過研究成績表的各科課程平均成績和個人標準差成績,對學生成績的穩定性進行探究。
選擇數據元組
x={_,_,_,_},其中:課程編號,:課程平均成績,:課程個人成績,:學科成績標準差。

采用DBSCAN算法進行分析得到學生學科成績的穩定性,如圖7所示。標準差接近20的為非穩定成績群體,標準差在10以內的群體為學習成績穩定群體。

圖7 學生學科成績穩定性分析
本系統采用前端可視化框架,數據分析使用密度DBSCAN聚類算法,數據源基于在線課程和第三方數據結合而成。通過分析系統架構及聚類算法的原理,挖掘分析成績與考勤的關系、學生的成績穩定性,為大數據學情分析提供了案例。由于統計的數據不夠精細,以上分析不一定代表實際的結果,為使大數據更加精準地為教學服務,需要充分記錄詳盡數據,分析比較各類算法,得到更精準的分析結果,為服務學校管理提供幫助。