孫美娟,張 俊,2,年 梅
(1.新疆師范大學計算機科學技術學院,新疆 烏魯木齊 830054;2.中國科學院新疆理化技術研究所)
隨著數字化校園建設的推進,高校積累了大量師生基本信息、生活消費、學習讀書等動/靜態數據[1],收集和整理這些歷史數據,構建分類模型,建立學生標簽,可以實現學生畫像,從而全方位了解學生,為個性化教學提供支持。
國內已有一些關于學生畫像的研究,如翟鳴宇等人采用基于漢明距離與歐氏距離混合度量的Kprototype 聚類算法,針對包含類別數據與數值數據的教育大數據,全面分析學生行為數據,構建學生畫像[1]。高語蔚等人基于校園一卡通數據,主要考慮“早起”和“吃早飯”的情況,探討大學生成績與其消費行為之間的關系[2]。
高校教育大數據中,校園一卡通消費記錄能如實反映學生在校食堂、超市的消費情況。通過對其分析能夠獲取學生基本生活行為信息,而成績數據體現了學生學習情況。為了分析學生消費行為和成績之間的關系,本研究利用K-means 算法對高校學生的校園一卡通數據與成績數據進行聚類分析與關聯挖掘處理,構建學生畫像,從而幫助高校教育管理人員全面認識學生,精準預測學生的學習情況,提前制訂從各方面優化個性化學習的措施。
本研究數據集為某高校計算機科學技術學院本科生的校園卡消費數據和成績數據,校園卡消費數據包括食堂消費、超市消費及洗澡消費數據。為保護學生個人隱私,上述數據均經過脫敏處理,原始數據中包含2018~2019 學年計算機科學技術學院本科生的六十五萬條消費記錄和成績數據。消費記錄字段如表1。

表1 校園一卡通消費數據字段
本文數據集中的一卡通消費數據和學生成績數據格式不統一,并且存在缺失現象。首先對原始數據進行預處理,提高數據集的質量。數據預處理包括數據合并、數據清洗、數據轉換等步驟[3]。為保證數據的完整性,成績數據集中,對休學、缺考、及交換生等因素造成的數據缺失,需要刪除對應的成績數據,其他學生成績為一年的成績平均值。對一卡通消費數據,采用統計方法進行數據轉換。例如以月份為周期,統計學生月均消費額、月均消費次數、月均早中晚餐消費次數、月均早晚餐消費金額、消費峰值等指標。學生各項特征屬性如表2所示。

表2 學生各項指標
本文選取K-means 算法對學生一卡通數據和成績數據進行分類,了解學生的消費行為與成績之間的關系,為學生標注標簽的設置提供數據基礎。聚類首先需要確定最佳初始聚類中心數K,故本文利用肘部法作用于預處理數據集,根據不同k 的誤差平方和(sum of the squared errors,SSE)確定最佳聚類中心值K[4]。實驗結果如圖1所示。

圖1 不同k值下聚類結果的SSE
從圖1 可以看出,隨著聚類數K 的增大,簇的聚合程度提高,誤差平方和SSE 逐漸減小。當K>=5,SSE的減小幅度非常小,基本不變,故選擇K=5 為拐點。即本文聚類K-means 分析時將按照K=5 進行,最終得到A、B、C、D、E 五個聚簇。大學生是否正常就餐能體現學生是否具有良好的生活習慣,本數據集聚類的結果如表3 所示。五個簇分別體現了月均消費金額、月均消費次數和三餐就餐率方面的五種聚類結果。

表3 學生成績和一卡通數據聚類結果
通過本數據集,挖掘學生日常消費行為與成績之間的關聯關系。通過K-means 分別將學生早、中、晚三餐的消費次數,消費金額,日均消費額,月均消費額聚集成高、中、低三類,根據成績分布特征將成績聚類成優、良、中、差四類,將兩者關聯,從而將學生的消費信息和成績信息聚類,聚類后的特征見表4。

表4 整理后的學生特征
最后繼續使用Apriori算法對學生消費行為和成績進行關聯分析,設置最小支持度閾值Smin=0.1,最小置信度閾值Cmin=0.3,關聯分析的部分規則見表5。

表5 部分挖掘規則
由表5 中規則1、2 可知,早餐以及三餐去食堂就餐次數較多的學生成績平均分高,規則3說明,部分成績平均分高的學生生活比較節儉,規則4、5 可以看出早餐、午餐的就餐次數高低會影響月均食堂消費次數的高低,即可說明早餐、午餐對學生生活規律度會產生影響。
對數據集通過K-means 算法得到聚類結果,再使用Apriori算法對學生消費行為和成績進行關聯分析,結合實驗結果,對學生標注特征標簽,實現了對各類學生群體詳細統計。結果如表6所示。
表6將學生劃分為A、B、C、D、E五個類別,分別對五個類別的數據分析如下。
A 組類別學生占學生總數28%,是五組中人數最多的類別,成績平均分中等,月消費金額在五組類別中等,說明此類學生符合大部分正常學生的消費情況和學習情況。
B 組類別學生占學生總數6%,是五組類別中最少的類別,在校消費次數最少,說明很少在食堂吃飯,可能經常點外賣或外出就餐。月消費金額最高,單筆消費高,這類學生很少早起,生活不規律,屬于懶癌患者且平均成績差[4]。其符合小富群體,老師也應重點關注此類別的學生能否順利完成學業。
C 組類別學生占學生總數21%,人數處于五組類別中間,在校消費次數較少,一般規律,單筆交費高,成績差。C 組學生情況與B 組學生相似,但C 組人數是B 組的兩倍多,所以學校也應提前重點關注此類學生的學業情況,及時進行預警,提醒這些學生及時糾正不良習慣,避免無法畢業或者就業。
D 組類別學生占學生總數19%,類別人數在五組類別中次低,成績優秀,生活規律,月均消費最低,就餐率最高,單筆消費低,生活節儉,學院可結合其他數據進一步判斷是否為貧困生。此類別學生有著優秀的成績、良好的生活及消費習慣,是學校優秀群體。
E 組類別學生占學生總數26%,人數在五組中排第二,此類別學生消費水平中等,生活規律,成績良好,僅次于D 類別學生,學校也應及時督促此類別學生,幫助其設置長短期學習目標,使這些學生具備上進的動力和激情。
構建學生群體畫像,可以使用可視化的方式展示學生的特征,通過對學生消費數據和成績數據使用Kmeans 聚類分析和關聯分析,結合學生的基本信息,采用詞云圖的方法對學生群體畫像進行刻畫[5]。針對不同類別群體學生畫像進行舉例展示,如圖2所示。圖2的詞云圖反映了不同類別學生的差異情況。

圖2 學生畫像詞云圖
本文基于新疆某高校計算機科學技術學院本科生校園一卡通消費數據和成績數據,通過SSE 科學的確定聚類數目后,采用K-means 算法進行聚類分析。根據聚類結果,為學生群體賦予了特征標簽[6],構建了五類學生群體畫像,為學生教育管理者提供相應的決策支持。
本文研究受到數據來源的限制,僅對學生一卡通消費數據和成績數據進行分析,后續還可以廣泛收集學生的其他教育大數據和上網行為數據,不斷增加數據分析的維度和內容[7],構建更全面的學生畫像,為學校進行個性化教育和學生管理提供基礎。