南京市第九中學 馬樂之
近年來,隨著學校信息化建設的飛速發展,校園一卡通系統得到了廣泛應用,也累積了海量的信息,通過對這些數據進行深入的用戶行為分析,可以為教學、科研、后勤和管理等多個部門提供有價值的參考意見[1][2]。以某高中校園一卡通數據為例,由于卡中最為頻繁、交易量最大的消費行為是在校高中生的食堂消費,其隱含的信息量也最為豐富,故本文針校園一卡通的食堂消費記錄進行數據分析和挖掘。
以2016年9月至2017年1月,某高中秋季學期的一卡通食堂消費記錄作為數據來源,按期初考、第一次月考、期中考、第二次月考、期末考的順序,將該學期劃分為四個時間段,將每個時間段均至少有一次外賣記錄的2015級70名學生作為研究對象。
為便于后續處理,根據不同編號窗口所售食品的種類將售賣窗口分為兩大類:若某個編號的窗口專售各種中式套餐,由于所用餐具需回收,據此推測,購買者必須堂食,不會外帶,故將該窗口稱為堂食窗口;而另一編號的窗口專售漢堡、飲料等快餐食品,采用紙質或塑料包裝,便于攜帶,據觀察,凡只購買此類食品的學生,一般都是將食品直接帶回教室,故將該窗口稱為外賣窗口;如果在同一餐次中,堂食窗口和外賣窗口均產生消費記錄,則劃歸為堂食。據此,可得到該用戶每日三餐的就餐方式(堂食或外賣),并統計出日外賣次數。
聚類的用途很廣,典型作用是挖掘數據中的一些深層信息,并概括出每一類的特點,或者把注意力放在某一個特定的類上,以作進一步的分析。時間序列是一條由n個實數變量組成的有序序列,其中對象點以時間先后排列、并且時間間隔相等。基于時間序列的聚類挖掘是一種常用的基礎性數據處理和分析方法[3][4]。
在本文研究中,考慮到不同用戶選擇堂食或外賣的原因各不相同:也許是隨機的,例如下課時間延遲、身體不適等,也許是出于其他某種特定的需求,而后者可能與相應的上課日期即時間因素有關。因此,時間因素是就餐行為模式聚類分析的關鍵。在上述任意一個統計時間段內,可以通過任意兩個用戶日外賣次數逐日變化規律的相似度度量進行聚類分析。
基于以上設想,構建該時間段內每個用戶的日外賣次數時間序列,即:

K-means聚類算法是典型的基于距離的非層次聚類算法,在最小化誤差函數的基礎上將數據劃分為預定的類數K,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大[2]。這里以歐式距離作為聚類距離的度量,即:[3]

分別取聚類數K=2、3、4進行分析。經試驗,當聚類數K=3時,聚類結果最佳,如表1所示。結合實際情況分析,認為本次聚類結果劃分為三類相對合理。

表1 K=3時的聚類結果
以橫坐標表示該月正常上課日期,以縱坐標表示人均日外賣次數,分別畫出表1中三個簇的人均日外賣次數在某時間段內的變化情況,如圖1所示。

圖1 三個簇的人均日外賣次數變化情況
由圖1可知,第I類人群的人均日外賣次數在時間軸的分布上不均勻,后兩周顯著增加;第II類人群的人均日外賣次數較少,且比較隨機;第III類人群的人均日外賣次數最多,在時間軸上的分布基本比較均勻,但最后1周有增加。
以上三個簇代表了三種不同特點的就餐行為模式。
關聯規則分析是數據挖掘中最活躍的研究方法之一,目的是在一個數據集里找出各項之間的關聯關系。Apriori算法是經典的挖掘頻繁項集的算法,其主要思想是找出存在于事物數據集里最大的頻繁項集,利用得到的最大頻繁項集與預先設定的最小置信度閾值生成強關聯規則[3][4]。
為方便利用Apriori算法進行關聯分析,結合上述三類學生的考試成績(通過總分排名反映),對數據進行離散化處理。選擇最小支持度閾值為5%,最小置信度閾值為20%,經計算得到關聯規則,如表2所示。

表2 關聯規則計算結果
由規則1可知,第I類與排名位于1~20名同時發生的概率為11.4%、第I類中排名位于1~20名的概率為50%,說明第I類學生中約半數成績優秀;由規則2和規則3可知,第I類與排名位于21~50名或51~70名同時發生的概率均為5.7%、第I類中排名位于21~50名或51~70名的概率均為25%,說明第I類學生中的另一半成績中等或較差。這可能是因為,第I類上游和中游的學生其學習自覺性和緊迫感隨著考試的臨近而加強,因此選擇外賣的次數越來越頻繁,意味著用餐時間的縮短、復習備考時間的延長。
由規則4可知,第III類與排名位于1~20名同時發生的概率為12.8%、第III類中排名位于1~20名的概率為56.3%;由規則5可知,第III類與排名位于51~70名同時發生的概率為8.6%、第III類中排名位于51~70名的概率為37.5%。以上數據說明,第III類學生的學習成績具有兩極分化傾向,一部分名列前茅,另一部分趨于下游。可能的原因在于,表面上兩者均經常性地購買外賣,但前者的目的是以快餐的方式擠出完成作業的時間,從而提高學習效率;而后者的目的主要是為了能有更多的時間消遣在手機游戲等娛樂活動上。因此,看似相似的行為模式卻導致了截然不同的結果。
本文利用基于時間序列的K-means聚類算法進行了就餐行為模式的聚類分析,并在此基礎上運用Apriori算法研究不同模式與其學習成績之間的關聯規則,所做工作對于今后進一步深入挖掘校園一卡通消費數據具有實際意義和應用價值。教學管理部門可以以相關分析結論為參考,對重要的階段性考試進行考前預測和考后綜合評估,從而提高學習成效評價的準確性和時效性,并對部分有可能成績下滑的學生發出預警。
[1]陳鋒.基于校園一卡通系統的高校用戶就餐消費行為分析與數據挖掘[J].中國教育信息化,2014(5).
[2]董新科,等.基于校園一卡通消費數據的幾種聚類算法的分析比較[J].計算機系統應用,2014(1).
[3]張良均,楊坦,等.MATLAB數據分析與挖掘實戰[M].北京:機械工業出版社,2015,6.
[4]周英,卓金武,等.大數據挖掘系統方法與實例分析[M].北京:機械工業出版社,2016,4.