張翠軒 曹素麗 王淑梅
摘要:隨著校園信息化程度的日益提高。學校積累了大量的學生數據,如何充分利用這些數據,獲取其中蘊藏的價值,已經成為大數據時代面臨的主要任務?;跀祿诰蚬ぞ逽PSS Modeler和Oracle數據庫對校園“一卡通”數據進行分析,挖掘出學生消費習慣、獎學金和助學金之間的關系,從而使學校相關管理部門從中受益。
關鍵詞:大數據;數據挖掘;數據庫;一卡通
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)28-0001-03
Analysis of Student Behavior Based on SPSS Modeler and Oracle
ZHANG Cui-xuan, CAO Su-li, WANG Shu-mei
(Shijiazhuang Post & Telecommunication Technical College, Shijiazhuang 050021, China)
Abstract: Along with the increasing degree of informatization campus, the school has accumulated a large number of data.How to make full use of these data to obtain the value of them has become the main task in the era of big data. Based on Data Mining tools SPSS Modeler and Oracle DB, the campus data of one card solution are analyzed, and the relationship between students' consumption habits, scholarships and grants is excavated so that the relevant management departments of the school will benefit from it.
Key words: big data;data mining;database;one card solution
目前,校園的數字化、信息化已經普及,校園一卡通作為信息載體,成為學校信息資源整合的重要組成部分,它將學校的各個部門連為一體,動態掌握持卡人的生活和學習情況,并與學校其他信息基礎設施相配合,極大地提高了學校的管理效率和水平。
為了順應高校信息化發展,將學生日常一卡通數據、獎學金和助學金數據與數據庫和數據挖掘技術進行整合和分析,主要針對學生的消費習慣和學習行為進行分析,首先通過數據清洗、數據預處理、數據集成、數據轉換與數據規約等數據預處理手段提取出一個小型數據倉庫,然后采用一種優化的K-means算法進行聚類分析,將學生分為幾類,并分析不同類別行為特征,最后運用決策樹模型采用Apriori關聯規則算法針對學生學習相關行為進行關聯度分析。
SPSS Modeler充分利用計算機系統的運算處理能力和圖形展現能力,將方法、應用與工具有機地融為一體,該軟件不但界面友好、操作簡捷,而且功能強大,是解決數據挖掘問題的最理想的工具。
Oracle數據庫系統是目前世界上流行的關系數據庫管理系統,系統可移植性好、使用方便、功能強,適用于各類大、中、小、微機環境。它是一種高效率、可靠性好的 適應高吞吐量的數據庫解決方案。
午餐最能反映學生的消費情況,為了探究學生助學金評定的合理性,本文主要研究午餐消費情況與學生助學金之間的相關性;另外,鑒于當前大學生不吃早餐的情況,來探究良好的早餐習慣和學習結果是否具有一定的關系,所以這里還要研究早餐習慣與學生獎學金之間的相關性。
1數據前期處理
為了更好地對數據進行分析,有必要對原始數據進行充分的處理準備,主要針對學生就餐、獎學金和助學金這3種數據。
1.1就餐數據
為了解學生的就餐規律和習慣,獲取了2017年1月1日到2017年5月1日的所有就餐數據,大約200萬條數據,如表1所示。
2針對SPSS Modeler的Apriori算法的數據預處理
最早的Apriori算法是阿格拉瓦爾和斯里坎特于1994年提出的,現在是數據挖掘中簡單關聯規則技術的核心算法。
Apriori算法是為提高關聯規則的產生效率而設計的,只能處理分類型變量,無法處理數值型變量,所以有必要對整合后的數據進行預處理。
數據準備。為了提高效率,這里進行了70%的分層抽樣,又根據Apriori算法的需要,計算生成新的分類型變量,再通過特征選擇,去除掉不必要的變量,然后對圖1的數據進行多級評定計算,定義出A、B、C、D和E這5種級別,如圖2所示。
3相關性分析
選擇“建?!边x項卡中的“Apriori”節點,將其連接到數據流恰當位置上,如圖3所示。分析的目的是找到所獲得獎學金、助學金、午餐消費以及早餐消費次數的關系,所以這4項均被選入后項和前項。
在最低條件支持度中,指定前項最小支持度為6%,最小規則置信度為65%,為防止關聯規則過于復雜,指定前項包含的最大項目數為5,分析結果如圖4所示。
4結果分析
SPSS Modeler以列表形式列出計算所得的2條簡單關聯規則。其結果具體解讀為:
1)如果學生吃早餐次數較多,午餐消費比較低,獲得頭等獎學金的機會就很大,支持度百分比為8.174%,置信度百分比為67.518%。這類學生起床早、勤快,家庭條件較差或本人比較節儉,努力學習的可能性就很大,從而獲得較高級別的獎學金。
2)如果學生家庭經濟狀況比較困難,得到的是C類助學金,而且學習成績相對較好,這類學生午餐消費就很低。
3)如果學生家庭條件非常困難,助學金得到的是最高級別,而且午餐消費很低,這類學生反而沒有獲得獎學金。
上面前兩條關聯規則是當今大學生的普遍現象,但是看到第3條的時候很令人意外,和相關輔導員交流之后才發現,原來這類學生大都來自偏遠地區,學習基礎不好,到大學后學習上跟起來就比較吃力,所以學習成績不好。
綜上所述,學校管理部門應在以下方面做出管理策略:
1)教學部門應該對偏遠地區的學生學習給予更多幫助,必要時單獨輔導。
2)學生管理部門在評定助學金時要嚴格把關,參考學生消費數據,盡量獎助學金發放到最需要的學生手中。
3)鼓勵學生吃早餐,不僅能夠提高身體素質,更能養成勤快的習慣,促進學習成績的提高。
5結論
通過對校園一卡通數據、獎學金和助學金數據的分析,由于篇幅有限,不再一一列出分析過程,總共得出了下面這些結論:
1)助學金和就餐消費的關聯性。
2)助學金和獎學金的關聯性。
3)早餐情況數據分析。
4)早餐和身體健康狀況的關聯性。
5)早餐和獎學金狀況的關聯性。
6)學生籍貫和窗口(菜品)關聯性。
7)獎學金和籍貫的關聯性。
8)助學金和籍貫的關聯性。
9)孤僻人群的發現。
10)消費與性別的關聯性。
11)消費水平與系部關聯性。
12)餐廳各個窗口就餐人數排名。
13)餐廳各個窗口收入金額排名。
這些結論對于教務部門、學生管理部門、后勤管理部門等都有很好的指導意義,其實,預先有很多種假設,但是通過挖掘卻發現沒有相應的結果,當然沒有規律的結論也是一種結論,當然也會出現一些預想不到的規律,這也許就是數據挖掘的魅力所在。
遺憾的是,目前校園“一卡通”的數據還不是很全面,不能覆蓋所有學生行為,隨著校園信息化的發展,校園“一卡通”必將更準確反映學生在校的各種消費和學習行為,對應的數據分析將更加具有指導意義。
參考文獻:
[1] 薛薇.基于SPSS Modeler的數據挖掘(第二版)[M].北京:中國人民大學出版社,2014.
[2] Jiawei Han Micheline Kamber Jian Pei.數據挖掘概念與技術[M].北京:機械工業出版社,2016.
[3] 谷斌.數據倉庫與數據挖掘實務[M].北京:北京郵電大學出版社,2014.
[4] Levin N,Zahavi J.Predictive modeling using segmentation.Joural of Interactive Markeing,2001,15(2):2-23
[5] 秦靖.Oracle從入門到精通[M].北京:機械工業出版社,2011.
[6] www.oracle.com網站.
[7] http://bbs.pinggu.org/人大經濟論壇.
【通聯編輯:王力】