關金名



摘要:學生作為學校教育的主要參與者與受益者,其身體狀況、行為習慣以及心理健康狀況都會對學生自身的發展產生重要的影響。從另一角度來說,通過各項數據分析對學生的行為畫像進行研究,可以幫助學校及時掌握學生的行為動態,同時針對學生自身存在的不良行為習慣進行糾正,引導學生養成健康向上的行為習慣。學校應當根據大數據平臺等作為基礎,深入分析學生行為習慣,培育良好的學風。該文將對學生行為畫像的構建以及數據處理和分析等環節進行研究,并對結果進行評估,從而為學生行為畫像分析提出意見和建議。
關鍵詞:數據分析;學生行為;畫像研究
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)02-0024-03
1 引言
學生行為畫像的分析需要基礎數據收集、行為標簽確定以及行為畫像構建等環節作為基礎,其次進行學生行為畫像的深入分析,采用行為畫像處理以及行為畫像聚類等方法對數據進行分析與研究,最終得出正確結果。基于數據分析的學生行為畫像分析可以幫助學校樹立優秀的學風、校風,有助于學生自身的成長發展。接下來將就學生行為畫像的分析流程進行敘述,并就實例的分析結果進行分析與評估,通過對學生行為的大數據分析,為當前高校建設與學生發展盡綿薄之力。
2 學生行為畫像的構建
如圖1所示,其為學生行為畫像構建示意圖。在進行學生行為畫像分析之前,需要對學生行為畫像進行構建,此次設計以山東某高校學生為例,針對學生在學校中的基本信息、成績信息、日常表現以及門禁數據等各項信息進行收集,并采取合理的數據處理分析方法,構建基于數據分析的學生行為畫像分析平臺。在學生行為畫像構建過程中,需要進行學生基本數據信息采集、學生行為標簽化兩個過程,只有按照步驟進行學生行為畫像的構建,此數據才可以代表當前高校學生的實際狀況以及學風建設情況。
第一步需要做的是對學生行為畫像進行構建,首先,技術人員需要查閱檔案或數據收集學生的信息,包括大學生基本信息數據、大學生成績數據、大學生圖書借閱數據、大學生消費數據以及大學生門禁數據等信息,在收集此類基礎數據信息之后,由于學生行為畫像需要參照一定的標準對其行為進行界定,標準即大學生行為的標簽化,如學生的學院、專業、班級、姓名、性別、學號、學制、消費總額,學年績點、綜合測評數據、圖書借閱次數、生源地、日均消費額、宿舍樓進出次數以及上課缺勤次數等標簽,通過將學生的各項行為標簽進行細化,學校可以通過數據顯著觀測學生行為的變化,便于技術人員從細微的變化中分析學生的行為。如標簽學習成績可以描述為大學生學期平均學習成績,以成績段為劃分標準,分為不及格、及格、良好、優秀四個級別。體育成績大學生學期平均體育成績,以成績段為劃分標準,分為不及格、及格、良好、優秀四個級別;標簽借書量可以描述為大學生學期借書量,結合全校學生的平均借閱量,劃分為較多、一般、較少、太少、無五個級別。標簽還書量描述為大學生學期還數量,結合全校學生的平均借閱量,劃分為較多、一般、較少、太少、無五個級別。標簽消費總額可以描述為大學生學期總消費額度,參考全校學生的平均消費總額,劃分為較多、一般、較少、太少、無五個級別。
標簽日均消費描述為大學生學期平均每天消費額度,參考全校學生的平均消費總額,劃分為較多、一般、較少、太少、無五個級別。
在學生行為畫像標簽劃定之后,需要進行學生行為畫像的構建。按照學生的信息或檔案數據對上述確定的標簽進行填寫,如計算機學院、計算機科學與技術、計科1802班、李XX、男、18110403022、四年、年消費總額10000元、日均消費額度50元、學年績點專業第二、綜合測評專業第二、圖書借閱量一般、生源地山東、無上課缺勤記錄。通過上述實例進行學生行為畫像的構建,可以幫助學校全方面地了解學生的心理和思想狀況,便于對下一步的學生工作指明方向[1]。
3 對學生行為畫像的分析
在對學生行為畫像進行構建之后,需要對上述數據進行分析和評估。而在分析過程中,可以將分析環節分為學生行為畫像處理和學生行為畫像聚類兩部分。在對學生行為畫像進行聚類之前,需要對第一步收集的學生信息和標簽屬性進行處理,由于北京高校的學生人數眾多,其行為習慣與屬性也各不相同,此次設計是基于數據分析的學生行為畫像分析,因此,學生數據信息是進行評估的基礎,學生信息在學院、專業、班級、姓名、性別、學號等方面不存在數量等級差異較大的問題,但在日均消費額、消費總額以及缺勤次數等方面存在著較大的數量級差異。如部分學生家庭環境較為優越,生活費較其他同學高出很多,如某位同學學期消費總額為15000元人民幣,而其他同學學期消費總額大都在5000元左右,因此,在消費總額這個標簽處存在數量級差異,使得此標簽對整體的貢獻度可以忽略,這就導致后續的聚類無法得出真實的數據結果。技術人員在學生行為畫像聚類之前需要對數據信息進行歸一化處理,使得各個標簽都擁有與之相對應的貢獻度,即將大學生的各項標簽信息統一映射到[0,1]的區間內,如采用線性函數轉換、反正切函數轉換以及數函數轉換等方法對其進行歸一化,使其呈現相應的數據效果[2]。下式為轉換公式:
在經過學生行為畫像處理之后,需要對標簽信息進行聚類,聚類的主要含義為針對學生的數據信息進行全方位的對比與分析,計算各項標簽之間的相似程度,并根據不同標簽之間的相似程度,將相似程度較大的標簽歸為一類,這樣一來,可以減少同類型的標簽差異,由于聚類缺少相應的先驗知識,因此聚類不存在監督分類,在聚類之后,行為畫像需要滿足三個條件:①聚類之后的所有集合仍能構成全部的行為畫像;②聚類之后兩種不同類別的畫像集合之間幾乎不存在交集;③同一聚類類別中的兩行為畫像的相似程度應當大于不同聚類類別中行為畫像的相似程度。相似程度也可以表示為最大相似度距離。即同一聚類類別中的最大相似度距離應當小于不同聚類類別中畫像的最大相似度距離。
如圖2所示,其為學生時間安排示意圖。在經過聚類之后,可以明確把握學生的行為習慣,如早飯時間集中在6:00~8:00之間,由于存在兩個下課時間,因此午飯時間集中在11:30與12:00兩個時間段,晚飯時間集中在18:00左右,打水洗澡時間在21:00~22:00之間。通過聚類我們可以看出不同行為畫像之間所存在的隱含的關系,而學??梢酝ㄟ^提取不同的類別信息,對學生的不良習慣進行矯正,以確保行為畫像發揮應有的作用。
如圖3所示,其為K-Means算法流程示意圖。在此階段需要采用K-Means算法對大學生行為畫像進行分析,算法流程為當算法開始后,首先輸入行為畫像聚類個數K,同時為中心向量C1、C2...Ck初始化K個種子,將樣本分配至距離其最近的中心向量,之后確定中心,用各個聚類的中心向量作為新的中心,檢查是否收斂,若無法收斂,重復分組和確定中心的步驟,直至算法收斂,此為K-Means算法的流程,可以幫助尋找不同聚類類別之間隱含的信息,加上前一步的歸一化處理,可以使學生行為畫像分析更具代表性和說服力,從而在學校發展中發揮應有的作用[3]。
4 對研究結果的分析與評估
在對行為畫像進行構建以及處理和聚類之后,需要對研究結果進行分析和評估,此次研究以北京某高校機械學院的全體學生作為研究對象,并對其構建行為畫像,行為畫像構建的依據為學生的基礎數據、消費信息、圖書借閱數據、上課缺勤次數以及宿舍門禁次數等數據,可以在學生日常學習、生活、思想品德、日常表現等方面對學生的行為進行畫像,此次研究與學校教務系統以及校園一卡通等數據系統進行合作,收集到有關學生的基礎信息以及消費數據,可以較為全面地對學生數據進行分析,在信息收集之后,我們利用數據處理方法對收集到的信息進行處理,首先確定行為標簽,同時按照學生行為標簽對其進行描述,描述完成之后,此時才算完成了行為畫像構建前的準備工作,之后通過行為畫像處理和聚類對數據信息進行分析和評估,得到較為完善的數據處理結果。最后對研究結果進行分析與評估,針對已經構建完成的學生行為畫像,需要考慮數據誤差等多種影響因素,如不同標簽之間的取值范圍各不相同,對整體數據的貢獻度也會有差異,為了避免此類問題,可以對標簽描述數據進行歸一化處理,將其取值范圍都固定在[0,1]之間,這樣一來,可以有效調整數據的貢獻度,使數據更具說服力[4]。
以學生日均消費額的數據分析為例,如圖5所示,其為學生日均消費額統計圖。此次研究將日均消費額分為10元以下、10~30元、30~50元以及50元以上四個級別,由聚類結果可以看出,日均消費額30~50元的學生占39%,50元以上的學生占32%,10~30元的學生占21%,10元以下的學生占8%,這也從側面說明了北京所在地域的消費水平,同時學生的消費觀念也發生了較大的變化,學生的消費水平在增加。通過大數據的分析,可以幫助學校準確把握學生的行為習慣以及心理健康狀態,并采取針對性的措施糾正學生的不良習慣,培育良好的學風、校風,以便學生更加健康地發展[5]。
5 總結
學生行為畫像是基于學生各類標簽,如姓名、日均消費額、圖書借閱次數以及違紀情況等多方面的信息綜合來構建,構建過程中需要收集學生的基本信息、教務系統中的信息以及校園一卡通內的數據,同時對數據進行歸一化處理,采用K-Means算法對數據進行聚類,并按照標簽的屬性對其進行描述,使學校可以準確把握學生的心理動態與消費情況,幫助學校更好地制定下一步計劃,為國家培養所需要的人才。
參考文獻:
[1] 董瀟瀟,胡延,陳彥萍.基于校園數據的大學生行為畫像研究與分析[J].計算機與數字工程,2018,46(6):1200-1204,1262.
[2] 朱梓熙,劉文敏,徐寶焱,等.基于數據分析的學生行為畫像分析[J].中國教育信息化,2018(23):21-23.
[3] 張麗娟.基于大數據分析的用戶畫像助力精準營銷研究[J].電信技術,2017(1):61-62,65.
[4] 趙國亮,陳曉軍,李思奇,等.基于數據分析高校學生自畫像的初探[J].數字技術與應用,2017(8):233-234,236.
[5] 石敏,盧丹海,秦婷.基于大數據的高校學生分析與服務平臺的研究[J].信息技術,2019,43(2):5-10.
【通聯編輯:代影】