基于數據挖掘和RandomForest算法的助學金分類研究

2019-12-25 01:50:16王雨萌武小軍羅雅晨

中國市場 2019年3期

王雨萌,武小軍,羅雅晨

(同濟大學，上海 201804)

1 引言

高校提供助學金資助貧困學生完成學業是實現教育公平的重要手段。但是目前助學金的資助體系存在諸多問題,其中主要的一項是貧困生的認定缺乏可操作性。由于高校無法獲取學生的真實家庭情況,目前的貧困生認定主要依賴貧困證明,貧困生申請書以及班級民主測評等證明文件。而有些學生通過開虛假貧困證明,夸大家庭貧困程度或學生之間拉選票等方式得到助學金名額,使得部分真正的貧困學生無法得到資助。[1]而大數據的高速發展,使得傳統領域更多的融入了互聯網思維,為越來越多的現實難以解決的問題提供了新的思路。由于各高校的學生信息系統的建立與完善,學生校園一卡通具有該學生的消費信息、學習情況、學習興趣和生活習慣等數據,該數據難以造假,同時高校擁有學生的一卡通數據權限,這些都為準確判定學生是否為貧困學生提供了良好的基礎。文章采用大數據挖掘方法,對學生的各項指標進行知識發現,對學生是否為貧困學生進行分類判定。從而為完善學生的助學金評價提供科學的決策,實現學生助學金的精準資助。

2 文獻綜述

DUCATIONAL數據挖掘是數據挖掘技術在教育數據中的應用[2],其目的是解決教育研究問題。隨著大數據挖掘的教育數據的增長,如何選取合適的方法對海量數據進行分析是當前的挑戰。如今數據挖掘技術與機器學習算法已經應用于分析高校平臺系統數據：Y Qian[3]等人基于校園卡平臺數據,分別運用K-Means和時間序列算法,分析和預測學生的行為和食堂的現狀,從而改進高校管理。數據挖掘技術與機器學習算法還可以用于判定給予貧困補貼：Utomo[4]等通過比較五種數據挖掘分類算法在印度尼西亞學生教育成本分類應用上的結果,優化政府對高等教育的補貼。通過數據挖掘和機器學習的算法判斷出應享有的補貼,能夠實現資源的有效利用,克服了主觀傳統方法的低效。此外,數據挖掘技術與機器學習算法可以通過高校校園卡數據進行貧困學生認定。Fang、Yongsheng[5]等采用基于校園卡系統消費數據的數據挖掘技術對學生貧困程度進行聚類分析,從而建立一套科學的貧困生決策資助系統。唐穎[6]等采取關聯規則和支持向量機算法,對學生的日常消費和特殊消費進行數據挖掘,從而發現貧困生的動態生活消費水平,為貧困生評定工作提供輔助依據。Ma、Hong wei[7]等建立基于學校一卡通系統數據的C4.5決策樹模型,結合K-Means算法,幫助學校發現貧困學生,為學校管理決策提供建議。

不過,將數據挖掘和機器學習算法應用到校園一卡通系統的方法,主要是基于學生的消費情況進行分析,未綜合考慮學習情況,成績排名,學習興趣,生活習慣等多維度指標；在方法上,主要是采用簡單的機器學習單模型方法,未考慮采用集成的算法以及多種分類方法進行對比。因此文章根據我國高校現狀,采用多維度分析,比較多種機器學習算法,選擇最優模型,從而得出數據挖掘及機器學習算法(RF)在助學金判定上具有可行性,有重大的研究價值。

3 實驗過程

3.1 數據處理及模型訓練

文章所有數據來源于數據城堡某高校一卡通兩年的脫敏數據集。數據集包含消費行為數據、圖書館門禁數據、寢室門禁數據、助學金分類數據、學生成績排名數據以及圖書館借閱數據等測試集和訓練集分別6個,共計12個文本數據集(見表1)。由于test數據集沒有分類標簽,而實際的分類標簽又未知,不能進行數據測試集的擬合優度和泛化能力的測量,所以助學金模型的數據完全基于訓練集的數據,同時采用交叉驗證進行模型訓練。預留30%的數據用于測試。

表1 數據集的規模和含義

續表

在輸入模型進行訓練之前,首先對各個數據集合分別進行數據預處理。主要包括構建新特征以及填充空值,去除重復數據等。另外,由于數據不同特征的量級存在較大差異,為避免模型訓練過程中由于數據規模差異造成分類不準確,對數據進行Z分數標準化,使數據變為服從標準正態分布的數據。合并清洗后的數據集共有10885個樣本,511個特征(包括學生ID和助學金等級),其中分類為0的樣本有9325個,分類為1000的樣本有741個,分類為1500的樣本有465個,分類為2000的樣本有354個(如表2)。樣本分類不平衡。為避免對模型訓練造成嚴重偏差,對樣本數據進行SMOTE[8]采樣,既保留了數據主要的特征,又有效地避免模型過擬合。采樣后的數據共有26060個樣本,每類樣本均為6515個。再對數據采用特征工程[9]技術篩選出對助學金分類模型重要的30個特征。文章采用Sklearn包中的ExtraTreesClassifier算法,這是一種基于樹的預測模型,能夠用來計算特征的重要程度,因此能用來去除不相關的特征。

表2 樣本分類分布

3.2 模型訓練結果

對進行特征工程后的數據,分別采用單機器學習算法[10]：邏輯回歸、決策樹、人工神經網絡、貝葉斯、支持向量機,集成模型算法[11]：adaboost,GDBT,bagging,Randomforest,以及模型融合的stacking[12]方法進行訓練。實驗采用MacroF1值,AUC值和用時作為模型評價標準。MacroF1綜合考慮模型的預測結果的正確率(Precision)和召回率(Recall),時間來評估模型的復雜度。由于隨機森林(RandomForest)的結果已經很優,且網格調參算法很耗時,所以在進行調參時,僅對GDBT算法進行調參以比較調參前后結果。

分析結果可知(如表3)。

(1)在單模型中,邏輯回歸和樸素貝葉斯的分類結果不是很好。因為無法保證特征之間是相互獨立的,衍生特征之間很可能存在多種相關,所以樸素貝葉斯的結果很差,而邏輯回歸容易欠擬合,分類精度不高。實驗表明決策樹模型簡單,且在該數據集上表現良好。同時在模型復雜度上,決策樹也最為簡單。

(2)集成算法中,boosting算法中,GDBT算法表現優于Adaboost,bagging算法表現都優于boosting算法。因為隨機森林(RandomForest)的抗干擾性能較強,表現最為優越，且用時最短。而模型融合的方法Stacking算法的表現結果優于各個基學習器,但是并沒有顯著提高,且耗時最久。因為基學習其分類結果差則復合后的結果也會表現得不是很好。

(3)通過網格搜索算法和手動進行調參,優化GDBT模型的參數,模型的性能得到較大幅度的提升,性能得以優化，但是耗時較久。

表3 各模型結果展示

續表

4 結論

在大數據挖掘技術和機器學習算法的日益快速發展的背景下,以及高校對于獎助學金的評價提供新的探索方式的基礎上,文章基于高校大學生一卡通消費行為信息的脫敏數據,利用數據挖掘和機器學習的技術,針對性地提出了基于RandomForest算法的分類模型。實驗過程涉及對數據進行預處理,特征工程,平衡分類樣本(SMOTE采樣),比較單模型和混合模型的分類算法的泛化性能,并進行網格搜索算法調節參數進一步提高模型的性能這5個主要的數據挖掘的過程。綜合結果表明,基于RandomForest算法的模型的效果比更優分類預測的泛化性更好,更能夠有效剔除虛假的助學金申請者,保證助學金給最需要的學生。