仲蓓鑫,孔蘇鵬,程 實,張 恒
(1.南通大學 信息科學技術學院;2.南通大學 阿里云大數據學院,江蘇南通 226019)
保障貧困家庭學生順利入學并完成學業,是促進教育公平的重要舉措[1]。隨著高校招生并軌政策實施,招生規模呈逐年增加趨勢,并且伴隨收費制度的進一步改革,高校貧困生問題逐步凸顯[2]。如何更精準有效地資助貧困大學生成為亟待解決的重要問題。
人類大數據時代的開啟,在理念和技術上為創新資助工作模式提供了科學依據,使得創新資助工作得以快捷、高效、精準實施[3]。如依據大學生一定時間內的一卡通數據,根據大學生的經濟水平、消費能力和日常行為界定該大學生是否為真實的貧困學生,這種界定需要借助大數據挖掘與分析技術,通過數學建模進行分析研究,從而實現資助工作的精準厘定,使得助學資金精準到達每一位貧困生手中,確保每一筆助學金落到實處,助力貧困家庭的學生順利完成學業[4]。由此可見,利用大數據挖掘與分析技術對大學生在校期間的消費數據進行精準挖掘具有較強現實意義。
近年來,國家在教育領域的投入可謂不遺余力,國內高校響應國家號召,不斷擴大招生規模,提升教學水平,相繼申請或設立各種國家級、省級和校內助學金或費用減免、免息貸款、勤工儉學等直接或間接資助項目,以減輕貧困家庭的經濟壓力,助力寒門學子順利完成學業[5]。
為了實現資助對象精準、資金分配精準、資助標準精準和資金發放精準的目標,高校在貧困生的資助流程上大多采用當事人申請舉證、逐級評審和定期公示的方式,即:當事人提出書面申請和證明材料,通過班組篩選、輔助導員評議和院委會復核,并對復核通過的學生名單進行公示,如無異議,貧困生資格才正式確定,助學資金將定期發放至該貧困生手中,資助流程才算完成[6]。
現階段,這種依靠書面申請和材料舉證的貧困生評定方式存在人為干預和標準模糊的弊端,無法通過定量分析對貧困學生的真實情況進行量化對比,造成助學資金分配不精準,甚至分配對象不合理,從而使得真正的貧困學生無法獲得急需的助學資金,無法真正實現助學金的精準發放,也就失去了其存在的意義[7]。國際通用做法:一是調查大學生消費水平[8],二是調查大學生家庭財務狀況[9]。這種方法的缺陷是認定標準單一,需要建立在大量的調查基礎上,并且要耗費較長一段時間[10]。
本文基于大數據分析學生日常消費習慣、日常行動軌跡等數據,通過GBDT 分類器和SVM 建立精確預測模型,客觀預測大學生助學金發放情況。實際應用效果表明,該模型輔助大學生助學金發放效果明顯,實現了精準資助。
DataCastle 大數據競賽平臺曾公開一組某高校貧困生資助數據[11-12],以2016-2017、2017-2018 兩個學年的助學金發放實情為標簽[13],以2012-2016、2016-2017 兩個學年的學生在校活動情況作為原始數據,如門禁、消費、圖書借閱等數據,以助學金發放金額為結果數據,兩相結合進行模型優化與評價,從而依據學生2017/09—2018/09 的數據對2018 年的助學金發放情況進行預測。顯然,訓練集與測試集的數據在2016 年9 月—2018 年9 月這段時間出現了混合交叉,但這并不影響學生的行為數據和助學金數據的正確性。
訓練集和測試集是數據的兩種分組模式,每一組均含有約10 000 名學生的個人信息。
(1)圖書借閱數據borrow_train.txt 和borrow_test.txt(見表1)。
(2)一卡通數據card_train.txt 和card_test.txt(見表2)。
(3)寢室門禁數據dorm_train.txt 和dorm_test.txt(見表3)。
(4)圖書館門禁數據library_train.txt 和library_test.txt(見表4)。
(5)學生成績數據score_train.txt 和score_test.txt(見表5)。
(6)助學金獲獎數據subsidy_train.txt 和subsidy_test.txt(見表6)。

Table 1 Book-borrowing data表1 圖書借閱數據

Table 2 One-card data表2 一卡通數據

Table 3 Dormitory access control data表3 寢室門禁數據

Table 4 Library access control data表4 圖書館門禁數據

Table 5 Student achievement data表5 學生成績數據

Table 6 Data of grants and awards表6 助學金獲獎數據
在Python 環境下完成數據分析和建模。
(1)助學金分布可視化(見圖1)。可以看出,一等助學金發放比例為3%,二等助學金發放比例為5%,三等助學金發放比例為8%。

Fig.1 Financial Aid distribution圖1 助學金分布
(2)一卡通表信息簡要統計(見表7)。由表7 可知,總消費額最高達到30 000 元以上,中值為8 903 元;單筆消費額最大為4 407 元,中值為300 元;有的學生歷史消費單筆最低93 元,從數據上分析該學生要么家境優越要么經常幫人帶飯,而負數應當是屬于退款或其它異常扣款,具體情況還需要專業知識進行判斷。從保有金額看,最大4 399 元,中值316 元,基本貼近大學生實際情況。

Table 7 One card table summary statistical information表7 一卡通表簡要統計信息
(3)深夜出入寢室人員過濾(見圖2)。2 131 多條記錄中,共涉及1 297 人,最多的34 次,最少的1 次,平均2.08次。
(4)學生出入圖書館數據展示。如圖3 所示,最多的是1 485 次,最少的是兩年只去1 次,平均122 次。

Fig.2 Students'late night access to dormitories圖2 學生深夜出入寢室情況

Fig.3 Students'access to the library圖3 學生出入圖書館情況
(5)出入圖書館次數與學習成績之間的關系。如圖4所示,實線代表去圖書館的次數,虛線代表成績排名。累計去圖書館1 269 次的同學比764 次的同學成績要高出許多。

Fig.4 The relationship between the number of library visits and academic performance圖4 出入圖書館次數與學習成績之間的關系
解決分類問題是采用機器學習的最終目的,例如電子郵件的區分,將垃圾郵件和正常郵件進行分類處理,評判歸類訪問日志的異常與否,百度蜘蛛對不同網站在訪問頻次和深度上進行區分等。在助學金發放方面,則是分出哪些人屬于貧困學生,哪個貧困學生發放1 000 元,哪個貧困學生發放1 500 元,這些都需要分類解決。
通常情況下,解決這些問題的方法是編輯規則條件,如果滿足條件是一類,如果不滿足條件或滿足另外的條件則又是另外一類。然而,問題過于復雜而無法寫出規則予以判斷分類,又或者所寫出的規則過于繁雜,這時可以考慮采用機器學習方法予以解決。
機器學習過程如圖5 所示[14]。
機器學習需要兩種數據:一種是起到標識作用的特征數據,它是一個人或物體的基本特征,例如學生每一次的消費數據(消費次數、消費總也、單筆最大額和最小額等);另一種是標記分類的答案數據,或者說它是一種編輯好的已知規則,機器按照這個規則對特征數據進行篩選歸類。當兩種數據都具備了,就選擇可行的算法,讓機器進行學習訓練,從而形成模型。特征數據和答案數據量越大,機器學習量也就越大,智能化越高,模型也就越豐富,預測愈加準確[15]。機器學習預測過程如圖6 所示。
被預測的數據應當與特征數據在格式上保持一致,名稱、順序和結構的少許變動都會使得預測結果出現偏差,導致模型預測結果不準確。
本文選取學生的日常消費數據構建特征數據與標記數據,通過日常消費數據分析,確保助學金資助精準落地。
特征數據與標記數據是一一對應關系,它們都是一行描述一個數據對象,可以是人,也可以是物體,且每一行都是唯一存在的數字類型的數據,若是字典類型,也應以數字取代,如婚否采用0、1 表示。特征數據與標記數據選取完成后,就要選取合適的機器學習算法,通常有K 近鄰(KNN)[16]、決策樹[17]、支持向量機(SVM)[18]、隨機森林[19]和迭代決策樹GBDT[20]這幾種算法。

Fig.5 Machine learning training process圖5 機器學習訓練過程

Fig.6 Machine learning predictive processes圖6 機器學習預測過程
算法選取與原始數據有著緊密聯系,至于如何選擇,則需要具備一定經驗,采用多種分類器將每一類的效果進行對比后進行選擇是一種比較常見的方法。當模型構建訓練完成,就可以實施預測,在計算方法上,預測數據同特征數據基本一致,此處不再贅述。本文使用GBDT 分類器和SVM 進行實驗,預測結果如表8 所示。

Table 8 The two models were compared表8 兩種模型預測對比
綜合考慮,GBDT 優于SVM。
對GBDT 模型進行優化,過程如圖7 所示。

Fig.7 Model optimization process圖7 模型優化過程
(1)重采樣。由于樣本數據有失均衡,必然造成分類結果偏差,使得準確率虛高,例如全部預測資助為“0”。本次樣本數據中,只有約15% 的學生獲得了資助,倘若不對數據實施過采樣,必然對訓練結果造成一定影響。
要想數據均衡,必選用采樣方式將小分類數據添加到訓練數據。在特征數據中找到1 000、1 500 和2 000 的資助金數據并分揀出來,分別命名為DF 表T1、T15、T20 進行保存。將數據進行過濾,1 000 資助金提高5 倍,1 500 的資助金提高8 倍,2 000 的資助金提高10 倍,繪制餅圖,這樣訓練數據的分布情況便可直觀展現出來,如圖8 所示。
這里的5、8、10 只是一個經驗值,在最后階段可根據需要進行微調整。

Fig.8 The distribution of training data after oversampling圖8 訓練數據過采樣后的分布
(2)參數優化。子模型數量(n_estimators)和隨機對象(random_state)是GBDT 經常用到的兩個參數,前者越大精度越高,這并非好事,反而會因為形成過擬合而導致預測效果欠佳,因此,參數優化是個難題。
(3)維度選擇。一個模型能否成功,關鍵在于是否具備扎實的業務能力,是否能夠做出優質的維度特征數據。如果在數據分析中只采用消費數據,而忽略成績、圖書館、教室等維度,會造成模型預測偏差。
維度多寡和質量高低是影響模型成功的關鍵因素,通常而言,維度越多越豐富,越有利于模型精準構建,然而并非所有維度都能夠起到積極作用,一旦引入這些起負面作用的維度,就會影響模型優劣。
模型優化前后預測結果如表9 所示。

Table 9 Prediction results before and after model optimization表9 模型優化前后預測結果
現階段高校在貧困生的認定標準上缺乏科學性、合理性,且過于盲目主觀,缺乏客觀的必要手段,無法精準評定出資助對象,使得高校資助工作事倍功半,助學資金落地出現偏差。本文采用機器學習結合大學生助學金數據,研究精準資助預測模型,解決了不平衡訓練數據訓練參數選擇問題,并對GBDT 進行優化。結果表明,精度比傳統的GBDT 算法提高2 個百分點。同時,研究中也存在一些問題,比如標注的樣本數據偏少,只有2019-2020 年的數據,造成訓練模型過擬合。下一步工作是對數據進行人工標注,提高預測精度。