張曉穎,榮竹青,曲 亮
(長春大學 理學院,長春 130022)
作為一種新發展起來的技術,大數據技術在各個行業的應用為我們帶來了極大的方便。大數據時代背景下教育領域面臨全新的挑戰,不僅要求教育工作者能夠快速管理好學生的信息,而且還要能從中挖掘出有意義的結論。應用數據分析技術對高校學生行為進行數據分析,用大數據挖掘和分析思想與方法科學地優化學生管理,并通過數據可視化的方法把大數據分析結果呈現出來,為學生校園生活提供更加清晰、詳盡的數據服務,為學校的領導、老師、學生提供更加直觀的決策及管理依據,是當今高校教育教學管理所面臨的重要問題之一。
目前學術界對學生行為的分析和研究方式不盡相同。2012年,黃榮懷等提出智慧校園的五個基本特征和定義,認為智慧校園是數字校園的高端形態,是數字校園發展的理想追求[1]。2014年,胡欽太等在分析了數字校園向智慧校園轉型必要性的基礎上,引入智慧校園的內涵與特征,詳細闡述了當前信息化新技術與智慧校園的技術承載與應用融合的思想[2]。2013年,賀玉珍等以運城學院在校大學生為例,對其消費情況進行了抽樣調查,并利用K-means算法對調查結果進行了聚類和分析[3]。2016年,張繼燕等以甘肅農業大學在校大學生為研究對象,針對其消費行為應用統計調查分析的方法進行了高校學生消費行為的特征分析用戶畫像[4]。2017年,劉涵從大數據的角度觀察與分析大學生的行為,以大學生在學習環境、生活環境中獲得數據為對象,應用價值分析方法研究了大學生信息行為的影響因素[5]。2018年,董瀟瀟等以高校校園數據為基礎,對大學生行為進行行為畫像,應用機器學習中相關分析等技術完成用戶行為分析[6]。
本文在前人對學生行為分析研究的基礎上,主要研究大數據技術在教育領域中的應用,結合心理學理論對學生在校的日常行為進行解釋和分類。主要針對長春大學近10年的校園基礎數據進行多維度的數據分析。通過設計學生行為描述指標體系,采用機器學習的相關方法,建立合理的數學模型,分析學生在校的各種行為及其內在聯系。
文章的結構如下:(1)通過構建數據倉庫,整合教務系統、后勤管理系統、圖書館門禁系統等校園數據完成數據的收集及清洗。(2)應用相關分析方法研究學生行為關聯分析模型,以學生圖書館借還書行為與成績的關聯為例探索學生行為的關聯特征。(3)應用聚類分析方法完成學生的行為分類及用戶行為畫像。
實驗中用到的原始數據來自于長春大學教務處系統、附近超市消費記錄以及學生的調查問卷。分析了長春大學各個學院2013—2018年6年的在校學生數據(圖1),數據類型包括:教學系統數據、學生系統數據、圖書館匯文系統數據、就業系統數據、一卡通數據、各類實踐活動數據、社交數據以及獎助學金數據。不同學院之間的學生成績計算方式可能不同,即使是一個學院不同課程之間成績也會有很大區別。為了消除這種客觀差異,我們將收集到處理后的數據進行歸一化處理。

圖1 學生行為分析模型
將收集到的學生基礎數據,進行結構化分析,多次清洗檢查出錯誤的數據,對于錯誤數據先考慮進行更正,如果不能修正數據,那么考慮去除錯誤數據。
我們首先應用相關性分析方法研究學生學習狀態數據。以長春大學近幾年6個學院的學生圖書館刷卡次數與刷卡時間數據對比學生當期學習成績(專業排名)數據進行數據的相關性分析(圖2、圖3)。

圖2 圖書館刷卡次數和學生成績的相關性分析

圖3 圖書館刷卡次數和學生成績的相關性分析
從圖2、圖3可以看到,圖書館刷卡的次數和學生成績的相關程度比較高,曲線都比較緊密且具有較強的線性相關特征。
而圖書館刷卡的時刻和學生成績的相關程度比較弱,曲線的波動都比較明顯。
其次,我們以高等學校學生的消費數據為研究對象,利用快速聚類算法對學生消費數據進行聚類分析,并結合學生行為數據進行整體學生行為畫像。
令P={p1,p2,···,pm}表示畫像的中心區域,其中,pi表示第i個數據的行為畫像指標,Ci={pi1,pi2,···,pim}表示分類中的第j個數據。當聚類分析結束的時候,各個分類需要滿足下面3個條件:
?Cm,ifCr?P,Cm≠Cr,thenCm∩Cr= Ⅱ
Min?Pi∈Cm,?Cm?P(sim(Pi,Pj))>Max?Pi∈Cm,?Cm?P(sim(Pi,Pj))Ⅲ
其中聚類的目標函數為:
其中k是參數。為保證聚類分析結果的可靠性,首先對數據進行標準化處理。
標準化處理的轉換公式為:
上式中的U和V分別是轉換之后和轉換之前的數值,Vmax、Vmin分別代表轉換值的最大值以及最小值。

圖4 快速聚類流程圖
我們根據學生的消費水平,學習狀態數據將消費行為聚類的類別定為3類,學生行為(學習狀況及消費特征)定為4類。研究在此分類下學生的行為特點。
聚類結果如圖5、圖6、圖7所示:

圖5 聚類(分組1)特征曲線

圖6 聚類(分組2)特征曲線

圖7 聚類(分組3)特征曲線
圖4中藍色曲線為消費時間特征曲線,綠色曲線為消費頻率(次數)特征曲線,紅色曲線為消費金額特征曲線。從圖5、圖6、圖7可以得出以下結論:
聚類群體1:消費主要集中在前90天內,消費次數在25次以內,消費金額在3 000元以內,屬于高消費的學生分群。
聚類群體2:消費主要分布在前30天內,消費次數在15次以內,消費金額在1 500元以內,屬于一般消費水平的學生分群。
聚類群體3:消費主要分布在前30天內,消費次數在26次以內,消費金額在2 000元以內,屬于中等消費金額的學生分群。
聚類1中的多數學生的借書冊數和還書冊數都比較多,大多數學生的學習成績為優秀,但是這類學生的消費金額少,可能有生活問題,應該及時對該類學生給予生活上的幫助和支持。
聚類2和聚類3學生人數比較多,他們在成績、消費金額以及圖書借閱冊數上均屬于中等水平,但由于聚類2學生借書還書比較多,成績會相對好一些,此兩類學生需要加以指導和提高。

表1 學生行為特征聚類
聚類4中的學生在消費水平上比較高,但借書次數很少,成績相對比較差,對于該類學生應提醒其理性消費,而且需要增加對待學習的自主性和積極性,將目標放在提高學習成績上。
利用SPSS數學軟件將學生信息數據進行表格化處理,得到學生行為畫像表格。

表2 行為畫像表格
本文通過分析建立高校學生行為的數學模型,對學生后續可能發生的行為進行評估和預測,同時為學生個人發展提出可行性建議,也為學校制定獎助學金、管理辦法等決策提供了理論依據。