蘇兆兆 欒靜


摘要:目前高校本科生的身體素質普遍下降,大學生除了加強體育鍛煉外,還需要在日常飲食上注意養成良好的習慣。校園卡是高校智能化管理的重要手段和媒介,學生在校園內的各項活動都能通過校園卡后臺管理系統反映出來,將學生消費數據從數據庫中提取出來,分析學生的三餐消費情況,通過關聯分析不同消費屬性之間的關聯強度得到學生的就餐習慣。對不在食堂就餐的學生,應重點關注這類學生的就餐問題,確保學生按時就餐,不節食。
關鍵詞:本科生;校園卡;飲食消費;數據挖掘;關聯規則
1引言
隨著經濟的快速發展和物質生活水平的提高,很多高校大學生的身體素質卻在下降,根據《國民體質監測公報(2014)》調查顯示,與前幾年相比,學生體質與健康狀況總體改善,中小學生身體素質繼續呈現穩中向好趨勢,而大學生身體素質繼續呈現下降趨勢。很多高校對學生的體育課程數量作了添加,以期提高學生的身體素質。除了體育鍛煉外,是不是存在部分學生因為飲食不規律而導致身體素質下降?如男生熬夜玩游戲導致沒有時間吃早餐,女生為了瘦身節食等情況。本論文通過對在校本科生的消費挖掘分析,得到學生的就餐情況,對飲食不規律的學生,校方和老師要加強管理,及時解決存在的問題,培養良好的飲食習慣。
2數據預處理
數據預處理的目的是提高數據質量,通過對所收集的不同來源數據的審核、清理、補充完善等一系列操作,保證數據的挖掘和分析結果。
2.1數據收集
數據收集是根據目的需求,收集所需數據到單個位置以便挖掘分析。由于本校的校園卡管理系統覆蓋各個層面,包括多個應用平臺,因此本論文的數據分別來源于校園卡管理平臺下的綜合業務管理子系統(留學生餐廳、馕房消費)、商務子系統(昆侖校區食堂、商店消費)、第三方對接子系統(國際教育大廈水控、商店、休閑吧消費)、POS子系統(溫泉校區漢餐及清餐充值、消費)等不同子系統。整理匯總后,本論文從校園卡后臺數據庫獲取的2016-2017學年第一學期138天的消費流水數據量約801萬條。
2.2數據清理
數據清理是通過約簡數據和屬性、糾正錯誤、填寫缺失值等可行性操作來保證數據的質量。本論文對匯總后801萬條消費流水數據進行審核后,發現不同子系統平臺下的數據格式不同,各屬性列所占存儲空間也不同,為提高數據的一致性,本論文將采用下列四種不同方式的數據清理。
2.2.1約簡數據
本論文的分析主體為在校本科生,因此約簡了外國留學生、教職工、研究生等15項與本論文研究無關人員的數據,約簡后的數據量為538萬條。
2.2.2約簡屬性
本論文的分析主題為在校本科生的飲食消費,因此約簡了開戶單位、賬戶類型、操作員、流水狀態、交易單位等16項與學生消費無關的屬性。
2.2.3糾正錯誤
本論文審核數據時發現由于業務操作員的誤拼或者輸入法的切換沖突等,導致民族學生姓名中的分隔符“·”,錯誤顯示為“?”或“-”等,因此在導人數據庫之后糾正錯誤信息,糾正為正確的“·”。
2.2.4填寫缺失值
因為學校現有三個校區,當學生在三個校區之間活動時,偶爾會因為網絡延遲或者不同子系統間上傳數據而產生亂碼,本論文將亂碼數據分別歸類填寫到相應的屬性列中。
3數據挖掘分析思路及方法
確定分析思路主要是為了準確、全面分析學生的就餐情況。本論文將從三餐消費維度切人對在校本科生的消費情況作統計、挖掘分析。
3.1三餐分析
每日三餐是學生在校內學習和生活的基礎保障,也是學生自我管理的體現,通過對在校本科生的一日三餐統計分析,了解學生的飲食情況,幫助老師規范學生飲食習慣。本論文從日常的消費流水數據中,將學生的三餐根據對應的時間段分別統計,每餐的所有刷卡次數和金額累計為該餐的一次消費和金額,統計出三餐的就餐天數后計算三餐的就餐率,根據各餐的頻繁性得到學生的就餐習慣。
3.2算法選擇
算法是對問題解決方案的準確而完整的描述,確定分析維度之后,將數據收斂到與分析主題相關的范圍,提高數據的處理速度與準確性,然后選擇合適、高效的算法來分析。
3.2.1統計分析
統計分析是應用最廣泛的數據處理技術,通常三個步驟即可完成對數據的操作,即收集-整理-分析。本論文將不同來源的食堂消費流水數據收集整理后,對學生三餐消費數據進行分析,如統計出各餐的消費人數及天數,查看隨著時間的增加,學生的消費天數是否增加,有多少學生能保證規律性就餐,學生的就餐趨勢是遞增還是遞減。
3.2.2關聯分析
關聯規則挖掘的主要目的在于發現數據中有意義的關聯關系。本論文通過創建關聯矩陣,查看所有學生的消費金額、天數與總金額之間的關聯強度。前面通過統計的方式分別計算機出學生的三餐消費天數和消費金額、學期總消費次數和總金額,利用關聯分析查看每個學生的三餐對總消費的影響和支持度,哪些餐次頻繁出現、在學生總消費中所占權重最大,學生的消費習慣是否一樣,這些都將通過各屬性之間的關聯系數體現出來。
關聯系數位于矩陣中,它是表示關系強度的一種指標,取值范圍在±0至±1之間,所有介于0到1之間的關聯系數都表示正關聯,所有介于0到-1之間的關聯系數都表示負關聯。在屬性與自身相交的位置,關聯系數為“1”,因為任何事物在與自身進行比較時都具有完全匹配的關系,所有其他屬性對的關聯系數都小于1。
3.3工具選擇
3.3.1統計工具
本論文對校園卡消費流水數據的統計分析使用了SQLServer 2012數據庫,SQL Server是關系數據庫管理系統,支持存儲過程、ODBC等,且自身包含的SQL語言操作方便。由于數據量大,且存儲過程具有執行數度快,代碼可重用、共享等優點,本論文使用存儲過程來實現對數據的操作。
3.3.2挖掘工具
本論文使用的數據挖掘工具是RapidMiner Studio開源工具,RapidMiner是目前世界上開源工具中比較可靠、先進的數據挖掘工具,軟件自帶1500多個函數,無需編程,拖拽建模,并且可連接多個類型的數據庫,能實現完整的建模步驟,從數據的加載、匯集到轉化,再到分析和預測。
本論文將RapidMiner和SQL Server數據庫連接起來,在左下角的數據源窗口選擇DB(數據庫)將數據源拖拽到界面正中的主流程(main process)工作區,在左上角的算子(operator)窗口選擇所需的算子,拖入至流程中,在右側參數選項(Parameters)中對具體參數進行設置,選擇上方工具欄中的運行,即可在結果視圖(Result Overview)中看到關聯分析結果。
4數據挖掘分析
本論文在對計算機學院508名學生的數據進行分析時,為保證數據的穩定性和精確性,約簡了外出實習的93名畢業班學生和46天節假日期間的消費數據,分析了415名學生92個工作日的三餐消費情況。
4.1學生三餐就餐情況
如圖1所示,本論文對計算機學院學生的三餐就餐天數、人數分析后得到如下結果:
1)早餐就餐人數遠低于午餐和晚餐,且人數隨時間的增加而遞減。
2)所有學生都在食堂吃過午餐,且大部分學生在食堂就餐天數高于45天。
3)晚餐時段的學生人數分三段:第一部分是就餐天數在5-25天,第二部分是就餐天數在25-55天,第三部分是就餐天數在55-85天。其中,第二階段的學生人數占多數。
根據分析結果可推斷出:
1)早餐就餐人數過少,可能存在部分學生購買零食代替早餐,因此需對學生的早餐就餐隋況作進一步分析。
2)午餐就餐人數較高且比較穩定的原因可能是午休時間較短且下午要上課,學生選擇在食堂就餐比較方便、快捷。
3)晚餐就餐人數低于午餐的原因可能是晚上時間充裕,學生選擇何種方式就餐的形式多種多樣,如外出就餐、叫外賣、吃零食或者減肥不吃等。
4.2學生早餐就餐情況
由于學生早餐在食堂就餐人數過少,本論文提取了早餐時間段內在商店購買零食的消費數據來對比分析,根據圖1早餐消費的變化曲線,分為五個時間段,結果如圖2所示:
根據對圖2的數據對比分析可知:
1)僅有8%的學生能規律性的在食堂吃早餐,就餐天數在66-92天內,17%的學生就餐天數在45-65天內,21%的學生就餐天數在24-44天內,48%的學生就餐天數在1-23天內,8%的學生從來沒去食堂吃過早餐。
2)計算機學院的學生在商店買零食的人數并不多,并沒有學生每天去買零食代替早餐,1%的學生購買天數為45-65天,9%的學生購買天數在24-44天內,82%的學生購買天數在1-23天內,8%的學生購買天數為0。
3)通過賬戶對比發現經常在食堂吃早餐的8%的學生與從不在商店買零食的8%的學生為一類學生,符合實際情況。
對學生早餐分析的結果,可以得到如下結論:
1)學生在食堂吃早餐的人數確實過少,可能存在部分學生認為食堂飯菜不合口味。
2)在早餐時間段內學生購買零食代替早餐的人數也不多,推測可能存在部分學生提前備好零食和干糧,如牛奶、面包、馕、奶茶等,對這類學生老師要適當引導學生去食堂吃新鮮、熱乎的早餐,且食堂的早餐價格要低于零食的花費。
3)可能存在部分學生直接空腹上課,對這類學生老師應重點關注。
4.3學生消費情況關聯分析
為探索和證實學生的三餐消費情況,本論文在RapidMiner中創建了一個包含九個屬性的關聯矩陣對學生的消費情況進行挖掘分析,得到各屬性之間的關聯系數如圖3所示:
根據各屬性之間的關聯系數值可知:
1)早餐消費金額、消費天數占學生的學期消費金額及天數的權重為0.507和0.746,屬于有些關聯關系。
2)午餐消費金額、消費天數占學生的學期消費金額及天數的權重為0.921和0.912,屬于強關聯關系。
3)晚餐消費金額、消費天數占學生的學期消費金額及天數的權重為0.866和0.848,屬于較強關聯關系。
根據挖掘結果,可得到如下結論:
1)早餐就餐率太低,無論是哪種原因,都應該重視起來,避免有學生長期不吃早餐出現頭暈、惡心等突發狀況。
2)午餐就餐率很好,晚餐就餐率略低于午餐,但總體呈現良好發展趨勢。
3)早餐消費金額最低,午餐的消費金額與晚餐的消費金額相差不大,與食堂飯菜價格相符。
4)學生在食堂的消費習慣是平均每天就餐兩次,早餐被大部分學生忽略。
5總結與展望
本論文通過對在校本科生飲食消費數據的挖掘分析,得到學生的消費情況及就餐習慣,通過分析和減少部分學生的飲食不合理現象,既能加強學校和老師對學生的了解,同時也能引導學生加強自我管理。
學生的消費數據仍待進一步挖掘分析和利用,如通過分析各類學生的消費金額作為甄選貧困生的標準之一,對這些數據的每一次深入分析,都是管理學生向前邁進的一大步。