文/吳領航 王默玉 申曉留 王璐 梁如霞
近年來,高校相繼建立并投入使用了大量信息系統和大數據應用平臺。一卡通消費系統是綜合了大數據技術、云計算技術、信息安全技術、數據加密技術的平臺,不僅可以方便學生和教師掌握自己在學校的消費情況,也可以更好地安排自身的工作和學習。
高校在數字化校園建設的大潮下,學生一卡通系統在實際應用場景中會產生海量數據,這些數據記錄了學生的消費情況、圈存情況等,是消費預警的重要依據。本文重點研究一卡通消費數據的月變化值和家庭經濟困難學生的困難程度的相關關系。以家庭經濟困難學生的月消費金額為研究對象,劃分消費區間,從中總結并研究出規律,判斷是否存在家庭經濟困難學生消費數據異常,進一步挖掘出困難程度變化較大的學生數據。采用數據挖掘技術分析家庭經濟困難學生的一卡通消費金額數據,采用聚類算法劃分消費金額的不同區間,根據區間使用一元離群點檢測算法檢測出消費數據異常的學生,進行家庭經濟困難學生消費預警,檢測所得結果為家庭經濟困難學生認定提供輔助參考,進一步提升精準資助。
本文選取的數據來源于某高校一卡通消費平臺和家庭經濟困難學生認定系統平臺。高校一卡通消費平臺記錄了全校學生的總消費金額、有效交易次數、平均消費金額。家庭經濟困難認定系統中記錄了高校家庭經濟困難學生的經濟狀況數據。在數據分析前先進行數據審計、數據清洗、數據脫敏等數據預處理工作,保證數據的完整性和有效性。一卡通消費平臺上的消費數據表結構如表1所示。
2.2.1 Pearson相關系數
相關分析是對變量之間關系密切程度的度量,是對總體中具有聯系的標志進行分析。Pearson相關系數,用于度量兩個變量之間的相關性。一般采用樣本相關系數(r)進行相關性分析。
兩個變量間的Pearson相關系數定義為兩個變量之間的協方差和標準差的商:
2.2.2 聚類分析
聚類是對大量未知標注的數據集,按照數據的內在相似性將數據集劃分為多個類別,使類別內的數據相似度較大而類別間的數據相似度較小。聚類的基本思想對于給定的類別數目k,首先給出初始劃分,通過迭代改變樣本和簇的隸屬度關系,使得每一次改進后的劃分方案都較前一次好。
聚類分析常用于對數值型數據進行數據挖掘。運用聚類分析的方法研究學生消費數據可實現以下2個方面的作用:
(1)掌握在校生消費的實際情況。這是開展家庭經濟困難學生消費預警工作的重要環節。
(2)劃分消費區間。運用數據挖掘技術對學生一卡通消費數據進行數據分析,因此選取總消費金額,有效交易次數,平均消費金額,總消費次數四個指標參數對學生數據進行聚類分析,從而劃分出學生消費區間。
2.2.3 k-means算法
k-means算法被稱為k-平均或k-均值,是一個經典的聚類算法,它開始輸入參數k,然后將n個數據對象劃分為k個聚類,使同一聚類中的對象之間的相似度較高,不同聚類中的對象之間的相似度較小。其中“聚類相似度”是利用各聚類中對象的均值所獲得的一個“中心對象”的方式計算。當k=2時,k-means算法的步驟可視化如圖1所示。
假定輸入樣本為S=x1,x2,x3……,xm,則算法步驟為:
(1)選擇初始的k個類別中心u1u2u3…uk

表1

表2:相關性結果

表3:高校學生消費數據聚類分析結果

表4:正態性檢驗
(2)對于每個樣本xi,將其標記為距離類別中心最近的類別,即:

(3)將每個類別中心更新為隸屬該類別的所有樣本的均值

(4)重復最后兩步,直到類別中心的變化小于某閾值。

通過Pearson相關系數來分別分析高校學生平均每天消費金額、每月消費總金額、有效交易天數、月消費次數之間的相關性。本文選取2000名高校學生某個月的一卡通消費數據。選用spss軟件中的Pearson相關系數進行相關性分析,結果如表2所示。
表中指定的顯著性水平為0.01,統計檢驗的概率小于0.01(表中顯示為“0.00”),可以看出各個指標間的相關性十分顯著,具有較強的相關性。針對4個指標作k-means聚類分析,便于進一步劃分消費金額區間。
根據Pearson相關性分析得出,學生的平均消費金額、總消費金額、總消費次數、有效交易天數之間具有較強的相關性。因此選取上述4個指標數據進行k-means聚類分析。通過家庭經濟困難認定系統平臺上獲取全校2820名家庭經濟困難學生的有效數據。按照聚類數3類、4類、5類進行聚類分析,層間檢驗均呈顯著性差異。表3顯示了快速聚類結果中各簇屬性和個數,涵蓋了各簇包含的示例。
實驗結果分析:
分析平均消費額,按三層來劃分消費區間,各層的“平均消費金額”為14、21、31。按照四層來劃分,各層的“平均消費金額”為14、20、26、35。按照五層來劃分,各層的“平均消費金額”為10、17、26、31、38。以上k-means快速聚類的分類結果和高校之前的人工劃分消費區間的情況有所不一致,說明了之前的劃分消費區間更多是主觀的,缺少數據和理論的支持。
以聚類數3分類,各層人數比為843:1313:664,各層人數較多,層內差異較大,不利于家庭經濟困難學生的精準資助且消費區間劃分不夠詳細,各層的“平均消費金額”分別為14元、21元、31元,總體覆蓋的范圍比較小,不能夠較為準確的說明學生的消費情況。

圖2:正態性檢驗

圖3:平均消費數據分布直方圖
分析有效交易天數,在聚類數為4的情況下,第一層內學生的有效交易天數為23天,平均消費金額為14元,可能存在交易天數少而使得消費金額較低的情況,不能夠很好的視為家庭經濟困難學生的消費行為。而聚類數為5時,學生的有效交易天數為28天,平均每天消費金額10元,這更能說明學生貧困的情況屬實。
根據實驗的結果可劃分學生的消費區間劃分為5個。學生日平均消費金額在10元以下,日消費金額在10元-20元之間,日消費金額在21元-26元之間,日消費金額在27元-31元之間,日消費金額在32元-38元之間。
本文采用spss軟件進行正態分布的檢驗。選取學生的平均消費金額作為正態性檢驗的依據。正態性檢驗結果如表4和圖2所示,表4以K-S結果為準,sig.=0.2>0.05,圖2中的點都圍繞著一條直線,兩者都顯示服從正態分布。
采用2018-2019學年的部分家庭經濟困難學生作為樣本數據,在2018年度的認定過程中,2018級學生有622名同學被認定為家庭經濟困難學生。從中隨機抽取600名同學的平均消費金額,共抽取4次,有4組訓練數據。則樣本xi的概率函數為求似然函數得到:

根據4組樣本數據進行求解,得出均值近似于20.1。由3.2中的正態性檢驗可知,學生的平均消費金額數據滿足正態分布。
擴大樣本數據后,針對全校2820名家庭經濟困難學生采用基于正態分布的一元離群點監測算法進行異常點的檢測。根據分析樣本消費數據的標準差為6.08,均值為20.36,與4組樣本數據計算得出的均值十分接近。
結合樣本數據來進一步分析,低于2元的同學有3人,高于38元的同學有9人。3位消費數據低于2元的同學由于消費數據太低,需要輔導員去深入了解情況。9位高于38元的同學由于本身是已被認定為家庭經濟困難學生,但消費水平已經大大超出正常家庭經濟困難學生的消費水平,要作為異常點進行分析。相對應的學號可以提交學校資助中心工作人員,對消費異常數據的同學進行更深入的了解和評定。如圖3所示。
本文從數據挖掘的技術入手,從中選擇了k-means算法和一元離群點算法應用于高校學生在校消費的數據挖掘中,利用聚類分析的方法劃分出家庭經濟困難學生的消費區間,并針對家庭經濟困難學生樣本采用基于正態分布的一元離群點算法進行消費異常情況的檢測。實驗表明,采用Pearson相關性分析法能夠有效的挖掘學生消費金額與有效交易天數的內在關聯,為聚類分析提供理論的依據。利用k-means聚類算法將學生的消費區間劃分為5類,同時消費數據分布滿足正態分布,更加科學地表明了困難程度與消費情況的關系。一元離群點檢測算法檢測所得結果便于開展消費預警工作。但基于一卡通大數據的家庭經濟困難學生消費預警研究方法還可以進一步的優化和改進,首先,數據來源于一卡通消費平臺,該研究方法對于一卡通消費數據依賴性較強,可能存在學生外出實習導致消費數據較低的情況。其次,目前研究的對象是家庭經濟困難學生,將來可以將研究對象的范圍擴大,實現資助更加精準。再者,本文是基于一卡通消費大數據這一角度進行消費預警的研究,采用數據挖掘的算法,為輔導員開展家庭經濟困難學生消費預警工作提供理論支撐,也為實現精準資助提供理論基礎,但要進一步實現消費預警的科學性,還需結合高校的家庭經濟困難認定系統和模型,完善研究工作。