楊江海 鄧海生 婁德涵 李旭東
摘要:為研究校園學生的消費行為規律,以校內食堂的學生微信消費記錄為數據基礎,結合數據挖掘技術對其進行研究分析,嘗試挖掘出學生消費的行為規律。通過對原始數據進行預處理、計算相關系數、選取最佳K值和評估輪廓系數,采用K均值聚類算法找出不同消費行為的學生群體,研究分析其不同群體的消費行為規律特征。研究結果表明,該算法將學生分成了低中高水平的消費群體,得出了不同時段學生在食堂各樓層的消費習慣。
關鍵詞:學生群體;微信消費;數據挖掘;消費行為;K-means聚類算法
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)08-0016-04
1 引言
國家提倡數字化以來,校園的數字化和信息化也緊跟步伐不斷發展,校園的消費方式從線下的紙幣支付轉變成了線上掃碼支付,并已在全國高校推廣應用。對于線上支付消費,學校都有配套管理系統來記錄學生的消費情況,該系統具有用戶量大、每日交易多、單筆交易金額參差不齊等特點。通過這些龐大的數據量,對其進行有效地挖掘、分析,可發現消費人群的消費特點和規律。
2 相關研究
2.1 研究現狀
2015年,姜楠、許維勝[1]在學生一卡通數據上,采用優化的K-means算法進行聚類分析,輔助管理部門更好地服務學生。2020年,李婷等在以陜西工業職業技術學院校園“一卡通”中教職工交易流水數據為研究對象,利用分類、K-means聚類算法,研究教職工的就餐規律和消費水平等,為后勤部門優化提供了科學依據[2]。2020年,龔黎旰以高校校園一卡通消費記錄為數據基礎,利用K-means算法結合Spark大數據計算框架,深度分析不同群體的消費組成結構和消費行為特征,為學校心理輔導提供參考依據[3]。
2.2 學生消費行為分析
截至目前,校園在線支付已經得到非常廣泛的應用,小到日用品,大到看病購藥,每天在校園群體中使用得很頻繁。
本文研究數據由西京學院智媒體傳播研究中心資助,主要通過對西京學院的校園微信消費數據進行數據挖掘分析。第一步,整理歸納校園消費數據對于現實的需求;第二步,從數據庫中提取原始數據,并對數據進行預處理操作,主要包括數據轉換、數據篩選、數據集成和數據歸約等[4];第三步,對于預處理后的數據,將相關的字段變量按照實際情況進行量化處理,字段包括學生性別、學生年級、消費金額、商家所在樓層和支付時間;最后,通過聚類算法對該數據進行分析,提取當中潛在的數據價值,如消費行為規律。
3 相關技術
董新科等人在基于校園一卡通消費數據的幾種聚類算法的分析比較論文中,使用常用的聚類算法在校園一卡通的消費數據上進行了實驗,通過對多個指標的分析,得出了K-means 算法最合適在當前的數據上做聚類分析的結論[5]。本文基于該結論,使用K-means對校園微信消費數據進行聚類分析,對學生在食堂飲食的消費習慣劃分類別。
在聚類分析中,大多數都是通過優化初始聚類中心選擇的方式,來達到提高聚類效果的準確性和類內密集程度。本文在進行聚類分析前,使用相關系數對數據中的變量進行相關關系分析,找出正相關的變量;再通過手肘法選取數據的真實聚類數;最后用輪廓系數評估聚類結果。
3.1 皮爾遜pearson相關系數
在本次使用的微信消費數據中,通過總體Pearson相關系數來計算數據各變量的相關性,從而找出協方差為正的變量。
4) 誤差平方和[SSE]為全部樣本的聚類誤差,其結果表示聚類效果的優劣。
當聚類數k增大,樣本會被更加細分,每個簇的聚合程度也會被提高,[SSE]也會隨著變小;相反,當k值小于真實聚類數時,[SSE]的下降幅度會變大;當k值接近真實聚類數時,[SSE]的下降幅度會減小,之后隨著k值的增大而趨于平緩,最終生成的關系圖是一個手肘的形狀,而數據的真實聚類數就對應肘部的k值[6]。
3.3 輪廓系數
本文所研究的消費數據分類類別是未知的,故使用輪廓系數作為聚類性能的評估指標,以評估分類結果的準確度。該系數的取值范圍在[-1,1]之間,當取值靠近1時,證實聚類成果越優越;反之,當取值偏向-1時,則證實聚類效果越弱。其計算步驟如下:
1) 第[i]個樣本對象到所屬簇中其他對象的平均距離,記為[ai](體現凝聚度)[7],稱為樣本對象[i]的簇內不相似度;[ai]越小,則該簇對其聚類到內的可能性越大。
2) 第[i]個樣本對象和不包含該對象的其他任意簇,記為[bi](體現分離度)[7],稱為樣本對象[i]與簇[ci]間的不相似度:[bi=min{bi1,bi2,???,bik}]
3) 依據樣本對象[i]的簇內不相似度[ai]和簇間不相似度[bi],其樣本對象[i]的輪廓系數為:
4 數據處理與建模
4.1 數據提取
本文數據從高校的服務器中提取校園學生微信消費數據樣本,包含食堂消費、卡機充值、校園公交消費及圖書館消費等數據。為了保護學生個人隱私,以上研究數據均已通過脫敏處理。該原始數據每天都會從客戶端往服務器產生大量的消費記錄存入數據庫中,故選取時間為2021年1~5月份校內本科生和研究生作為研究數據,約三百萬條消費記錄。表中字段如表1所示:
4.2 數據預處理
校園學生微信消費數據存在一些不符合規范或超出范圍的數據,在分析研究學生的消費行為之前,需要通過數據預處理技術對該消費數據進行數據清洗和標準化處理。為了保證數據的完整性,即消費記錄盡量保證所有學生都在校內食堂消費,故排除2021年1月份和2月份的寒假時間,共統計3個月(2021年3月至2021年5月)的消費記錄;并排除在食堂消費以外的非餐飲商家消費記錄,如圖書館消費、校園公交消費、醫務室消費等,數據經過處理后從原始包含的2983824條消費記錄降到2503243條。對于時間字段,需要將消費時間的時和分提取出來,存放于單獨的字段內。根據食堂的就餐開放時間,將6點零分至9點零分劃分為早晨就餐時間,10點零分至13點零分為午餐就餐時間,17點零分至20點零分為晚餐就餐時間。65E71114-E2A4-42E9-96FB-4A0F5E09D398
4.3 變量間相關性
為了觀察消費與各變量的相關關系,以方便后面進行模型建立。對學生的消費水平進行多方面考量,分析校內學生的消費結構以及不同時段的消費差異,通過選用消費金額(pay_surplus)、時段(session)、樓層(level)、性別(sex)及年級(grade)這5個變量進行Pearson相關性計算。計算結果及可視化如圖1、表2所示:
由上述圖表可看出,消費與樓層是呈正相關的,越往高的樓層,消費也在隨著增加;在消費時段上也是同樣的關系,晚上時段的消費會比上午和下午的消費高;而性別和年級呈負相關關系,不適合作為聚類。故選用時段和樓層來作為聚類模型的分類指標。
4.4 聚類模型建立與評估
對上述經過相關關系計算篩選出來的變量,采用K-means聚類算法對該消費數據進行聚類分析。
首先,將以上3個變量指標的數據單獨存放到新的數據框中,并對其進行標準差標準化處理,即去均值和方差歸一化,使得經過處理的消費數據符合標準正態分布;然后通過手肘方法,依次做K-means聚類,計算k值取1到10的誤差平方和,看不同值對應的簇內誤差平方和,以找出最佳k值,結果如圖2所示,由圖可看出,k值從5開始簇內誤差平方和趨于平緩,故k值取5效果最佳。
因此,K-means聚類模型的參數以k值(n_clusters)為5,初始化方法(init)為K-means++,質心初始化值(n_init)為10,最大迭代數(max_iter)為300,隨機從訓練數據中選取初始質心(random_state)為0。通過訓練得出聚類模型,并以模型為基礎計算出預測值;最后利用輪廓系數,將變量指標數據和預測值各取60000條數據作為輸入參數,來評估分類結果的準確度,評估結果約為0.923。可見分類效果不錯。
5 結果分析
校園學生微信消費數據通過K-means聚類模型的訓練后,將分類后的標簽并入到數據表中,對聚類后的情況進行統計,結果如圖3所示。可見,學生的消費情況被分成5個群體,3群的占比最大,占總學生消費記錄數的32.9%,其次是0群,占總記錄數的28.3%,而4群僅占0.1%。
為進一步地刻畫校園內學生的微信支付消費情況,對聚類指標進行統計分析。各分類群的消費區間分布如表3所示。可見,占比最大的3群,其消費范圍在2~28元不等,平均消費價格在7.5元;0群的消費范圍和3群接近,但平均消費在6.9元;1群的學生群體的消費則在5.9~60.8元,屬于消費偏高的群體,平均消費在15.6元;而2群體屬于低消費人群,價格在1.8~16.4元,平均消費屬于5群體中最低,在4.5元;4群的消費價格已超出普通學生的正常范圍,且僅占消費總數的0.1%,故在此不做深入分析。
為了比較全面地分析學生在食堂的消費規律,故以類別為依據,按樓層和時段的分類結果,結合各群體的消費范圍做整體分析,如表4表5所示。
在表4樓層分類中,屬于中等消費且占總量較大的0和3群體,其消費習慣主要分布在食堂的1和2層,3層也有部分消費;屬于高消費的1群體在食堂的消費習慣大部分集中在3層,小部分在4層;而平均消費最低的2群體出現在1和2層,兩層的消費各占50%。可見,1層和2層的是學生比較習慣去消費的樓層,且屬于中低消費群體,占到了總消費記錄的78.6%;而3層和4層屬于高消費群體經常去的地方,僅占到了21.3%。由此說明校園內學生的消費普遍屬于經濟性。
在表5時段分類中,中等消費的0群和3群的消費群體各集中在中午和早上時段,高消費1群體的消費分布在中午和晚上,低消費的2群體主要集中在晚上。由此可見session在群組中是較好的分群變量。
從學生消費的整體客觀因素來看,2群的消費習慣是根據時段消費的;而1群和4群更側重于樓層的選擇,如表6所示:
綜上分析,可得出以下結論:消費價格范圍在1.8~16.4
元的低消費學生群體,其消費規律主要在晚上的1層和2層;處在2~28元的中消費學生群體,其出現在中午的1和2層,小部分在第三層;而高消費的學生在5.9~60.8元范圍消費,主要出現在3和4層的中午和晚上。
6 結語
本文通過多個計算方法對研究數據進行篩選和處理,再對其進行聚類統計分析,與實際情況相結合,從而大致了解學生在校的消費水平和行為規律,研究結果可為學校餐飲部門或者在獎學金的發放上提供相關參考依據。本文通過對校園學生消費數據使用數據挖掘技術,來探險其中的數據價值,為以后相關的校園數據研究建設打下基礎。
參考文獻:
[1] 姜楠,許維勝.基于數據挖掘技術的學生校園消費行為分析[J].大眾科技,2015,17(1):26-28,39.
[2] 李婷,李海平,尉亦兵.校園“一卡通”消費行為數據分析[J].微型電腦應用,2020,36(4):42-46.
[3] 龔黎旰,顧坤,明心銘,等.基于校園一卡通大數據的高校學生消費行為分析[J].深圳大學學報(理工版),2020,37(S1):150-154.
[4] 徐云.多通道數據采集系統數據預處理方法研究[D].杭州:浙江大學,2014:14-18.
[5] 董新科,張暉.基于校園一卡通消費數據的幾種聚類算法的分析比較[J].計算機系統應用,2014,23(1):158-161,183.
[6] 夏海峰,陳軍華.基于文本挖掘的投訴熱點智能分類[J].上海師范大學學報(自然科學版),2013,42(5):470-475.
[7] 張冬梅.基于輪廓系數的層次聚類算法研究[D].秦皇島:燕山大學,2010.
【通聯編輯:王力】65E71114-E2A4-42E9-96FB-4A0F5E09D398