張璽 咼森林 孫宗良
摘要:目前,各大高校都建立了較為全面的貧困大學生資助體系。但是在確定受助人員時存在很大的不確定性,沒有具體的貧困指標量化,真正貧困的同學礙于面子,缺乏主動性,非貧困生渾水摸魚等情況導致貧困生認定工作依舊是高校資助決策的難題。為了尋求一種客觀,公平,公正的方法,本文采用支持向量機(Support Vector Machine,SVM)對學生校園一卡通的消費數據進行分析,將學生按貧困與非貧困分類,在高校資助決策工作中給予一定輔助。
關鍵詞:校園一卡通 支持向量機 貧困生分析 數據挖掘
中圖分類號:TP181 文獻標識碼:A 文章編號:1007-9416(2016)08-0100-01
我國在高校貧困生資助體系上已經相對完善,但是其評定工作由人工進行認定,所以在貧困材料的申請上很難甄別真假,外加每年申請貧困助學金的人數較多,沒有具體的貧困指標進行量化,導致貧困生確定依舊是各大高校資助決策的一個難題。
隨著校園一卡通的使用,其記錄的學生個人消費信息值得我們深度挖掘。本文以成都理工大學校園一卡通的消費數據為基礎,采用SVM對數據進行分類,在貧困生的資助決策工作中給予工作人員一定輔助。
1 支持向量機
支持向量機(Support Vector Machine,SVM)是一種二類分類模型,是Corinna Cortes和Vapnik等于1995年首先提出的。其主要思想是建立一個分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。支持向量機的理論基礎是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,考慮的是經驗風險和置信界之和的最小化。根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折中,以求獲得最好的推廣能力。
2 數據提取
校園一卡通數據記錄了學生每天的消費行為,能夠客觀真實反映學生的貧困情況。根據對高校學生資助工作的調查和了解,本文提出:貧困生使用校園一卡通在校內消費的次數相對較高的假設。在數據提取中,必須滿足所有學生每月在校內消費次數大于等于45次。
我們在學校資助中心由人工提取了700名具有代表性的貧困學生名單,并且提取了貧困學生近期半年內的校園一卡通消費記錄和戶口情況。其遲,我們隨機從全校學生中選取了300名非貧困學生,獲取了非貧困生近期半年內的校園一卡通消費記錄和戶口情況。
校園一卡通數據龐大,因此我們整理并提取了學生近期半年內的消費總次數,消費總金額,人均消費金額,每月消費次數,戶口情況,性別與是否貧困。在SVM實現時,其輸入和輸出必須是數值型的,所以我們需要對相關數據進行預處理。戶口分為農村戶口和城鎮戶口,在數據輸入時,我們用-1表示農村戶口,1表示城鎮戶口。性別分為男、女,我們用-0.5代表女生,0.5代表男生。貧困分類為2類,以0代表非貧困,1代表貧困。
經過預處理,數據里一共包含1000個樣本,每個樣本含有4個特征值,分別為:消費總次數,消費總金額,戶口情況,性別。每個樣本的類別標簽已給出。數據分類預測時,從1000個樣本中隨機選取800個樣本作為訓練集,200個樣本作為測試集。
3 模型建立
模型建立首先需要從原始數據里把訓練集和測試集提取出來,然后對數據進行一定的預處理,接著用訓練集對SVM進行訓練,再用得到的模型來預測測試集的分類標簽。本案例中的模型是一個4輸入,1輸出的SVM模型。模型整體流程如圖1。
4 實驗及結果分析
該實驗在matlab下編程進行。在數據預處理時將數據歸一化到[0,1]區間,核函數采用RBF進行訓練,并交叉驗證選擇最佳參數c,g。最終在測試SVM分類時,準確率達到77.5%(155/200)。其中SVM的實現采用的是libsvm工具箱(libsvm-mat)。從整個系統的分析來看,本實驗提出的方法高效、快捷、可擴展以及直觀性強。對高校的貧困生認定工作將有十分積極的貢獻。
前期選取了學生近期半年內的校園一卡通每月消費次數和人均消費金額。每月消費次數用于篩選每月消費次數大于等于45次的學生。人均消費金額用于直觀的反映學生的實際消費水平。其在后續的決策中也可以給予決策者一定的輔助。
5 結語
本文結合成都理工大學的實際情況,采用SVM進行數據分類。在得出SVM模型后,依據學生近期半年內的消費總次數,消費總金額,戶口情況,性別四項指標對學生進行分類是否貧困,從而在貧困生認定工作中給予一定的幫助。
參考文獻
[1]費小丹,董新科,張暉.基于校園一卡通消費數據的高校貧困生分析[J].電腦知識與技術,2014(20).
[2]劉文學,劉汝元.基于校園一卡通平臺的數據挖掘應用分析[J].信息系統工程,2015(5).
[3]沈吉文.高校貧困生資助體系實施現狀的思考[J].揚州大學學報,2008(1).