張愛華

摘 要:本文提出一卡通數據挖掘的功能需求,并建立了一卡通數據挖掘架構。采用數據分析和數據挖掘技術對一卡通數據進行深度處理,為學校圖書采購、獎學金發放、補助發放以及各項政策制度的制定等提供數據支撐。以適應學校信息化發展,方便師生日常學習生活。
關鍵詞:校園一卡通;數據分析;數據挖掘
1 現狀分析
目前學校一卡通系統數據量大,因此要使用數據挖掘技術發掘各個子系統中數據的相互關系,形成有價值的數據。校園一卡通數據的挖掘分析研究目前主要是兩個方面,一是側重于理論研究的,主要討論數據挖掘技術在一卡通系統中的可行性;二是則側重于實證,通過對具體的一卡通數據挖掘分析,得出實際的結論。本文根據一卡通數據挖掘的需求,結合理論研究和數據分析對一卡通數據進行了預處理,構建了數據挖掘的一卡通數據集,為學校提供數據支撐。
2 源數據準備
數據預處理又稱為 ETL(Extraction-Transformation-Loading),ETL 最主要包括以下四個方面的數據處理:第一步是數據清洗:冗余數據的刪除,臟數據、不一致數據的清理。第二是數據集成:將各個子系統數據整合,打通阻礙,實現數據流轉。第三是數據的選擇:從整合好的數據中抽取需要挖掘分析的那一部分,最后是數據的變換:通過數據轉換,把數據統一成適合數據挖掘的模型與算法的形式,簡單來說數據預處理就是數據源的提取、轉換、加載!
要對一卡通數據進行預處理,就要了解一卡通的幾類基本數據,主要包括三大類:身份類數據(大類):英文標識identity,簡稱id;帳務類數據(大類):英文標識accounts,簡稱ac;業務類數據(大類):英文標識operation,簡稱op。數據表命名規則:大類簡稱_數據表。
卡戶數據示例:卡戶信息表(id_AccountsInfo):卡戶帳號AccNum,卡序列號CardID,卡內編號CardCode,卡戶狀態AccStatus,卡戶類型AccType,交易密碼PayPWD,個人編號PerCode,卡戶姓名AccName,卡戶部門DepNum,卡戶身份ClsNum,證件號碼CertCode,配卡日期PostDate,失效日期LostDate,撤戶日期DelDate等。
流水數據示例:交易流水表(ac_PaymentBooks):交易站點StaNum,卡內編號CardCode,卡戶帳號AccNum,交易類型FeeNum,交易金額MonDeal,卡余額MonCard,庫余額MonDBCurr,商戶帳號DealerNum,交易時間DealTime,到帳時間RecTime等。
商戶數據示例:商戶信息表(ac_Dealer):商戶帳號DealerNum,商戶名稱DealerName,營業分組DealGroupNum,卡序列號CardID,結算人姓名BalanceMan,部門編號DepNum,交易密碼PayPWD等。
從上我們可以看到有很多數據是相互關聯的,例如:用戶信息表中的AccNum字段與交易流水表中的AccNum字段關聯;交易流水中的DealerNum字段與商戶信息表的DealerNum字段關聯。我們需要從以上這些相互關聯的信息中提取轉換出我們需要的數據。
3 數據分析
本文以2018年一年的流水1035.49萬條數據為原始數據,通過數據清理,數據集成,數據變換等處理提取需要的數據。
原始數據主要是流水數據和身份信息類數據,流水數據包括正常的消費流水,充值流水,圈存流水等,其中充值包括銀行轉帳充值(目前學校只支持建行轉賬)和充值點現金充值兩種方式。下表給出了2018年一年之中不同充值方式所占的比例。
從上表可以看出銀行轉帳已經成為學校一卡通主流的充值方式,占到總額的69.2%,隨著時間的推移和學校信息化發展的推進(如統一支付平臺的推進建立等),非現金充值方式所占的比例會越來越高。而使用現金充值使用這種方式充值的主要是退休教職工以及部分無法正常綁定銀行卡的學生,比如,短期學校培訓人員,技能學歷班級,假期培訓班等。
銀行轉帳又包括:圈存機自助轉賬、建行微信公眾號轉賬和手機APP 轉賬。
從以上數據分析可以得出現金充值場所可以適當減少,充值人員安排可以重新部署,銀行轉賬服務器可以適當加強配置以滿足越來越多的轉賬需求,自助轉賬機設備可以適當裁撤減少設備支出。
4 數據挖掘
本文采用數據挖掘中的K-mean 算法,以2018年一年的流水數據為原始數據進行聚類分析,從性別、學歷、身份等各個方面,可以得到以下聚類結果:
(1)從學生的消費數據和宿舍門禁數據聚類分析,這一類的學生生活規律、數據量多,女生比例高于男生,反應了學校大多數學生的學習生活習慣;
(2)從圖書館借閱信息數據和圖書館門禁數據聚類分析,這一類的女生研究生占比最高,在圖書館預約座位很規律,可能是學校中的學霸一類,另外從宿舍門禁數據可以推測這一聚類人群生活規律,早出晚歸時間都類似,而且發現研究生比本科生更規律;
(3)這一聚類以在校教職工數據為主,女教工消費更為頻繁。
另外校園一卡通數據量大,除了以上的聚類分析,還可以從商戶營業狀況聚類分析為商戶的選擇和工作提供指導意見,優化POS機的資源配置,使之更好的服務于學生,還能對繁冗的圖書借閱信息進行挖掘,聚類分析出學生感興趣的圖書,進而為學校圖書的采購與管理提供意見。
參考文獻:
[1]劉文學,劉汝元.基于校園一卡通平臺的數據挖掘應用分析[J].信息系統工程,2015(5):73.
[2]劉珍蘭,袁新輝,宋強.校園一卡通數據分析系統的設計與實現[J].華中師范大學學報(自科版),2017(s1):74-77.
基金項目:湖州師范學院校級科研項目成果(編號KX37009)