大數據挖掘的分類算法應用
——以XGBoost為例

2022-12-21 07:41:36田威

無線互聯科技 2022年19期

田威

（常德職業技術學院，湖南常德 415000）

0 引言

近年來，大量研究資料表明，高校“00后”中有相當一部分人存在心理問題，且數量逐年上升，關注、解決高校學生存在的這種問題刻不容緩。據統計，獨生子女、留守兒童經歷、家長對子女的教育等因素都會對學生的心理健康產生很大的影響。常德職業技術學院對學生的心理普查非常重視，對于有問題的學生會積極予以干預輔導和教育。但是當前學院對學生的心理普測仍然采用傳統的問卷調查方法，即通過組織全院學生填寫SCL－90量表，篩查結果往往不盡人意。原因如下：(1）篩查結果不準確，學生在填寫問卷答題時，刻意隱瞞、隨意亂填或者當時環境因素不好都會造成調查結果出現較大的偏差，而且問卷答題只能收集某一時刻學生的心理狀態，缺乏時效性。(2）心理問題是一個相對動態的過程，對有潛在心理問題的學生沒有辦法進行及時輔導。(3）老師需要組織全院學生，且要保證學生在一個相對比較理想不受外界干擾的環境中填寫，成本比較大［1］。

為了解決上述問題，本文從大數據和數據挖掘的角度，使用XGBoost分類算法，設計了學生心理健康問題預測應用，應用對比調查問卷具有高準確率、低成本等優點，能識別出有潛在心理問題的學生，還能夠根據學生的特征數據變化不斷自適應優化，保證高準確率。

1 XGBoost算法原理

XGBoost算法采用了集成思想，將多個弱分類器逐步迭代，集成組合在一起形成一個強分類器，是梯度提升決策樹(GBDT）的一種高效實現。相對于GBDT，XGBoost具有能并行學習的優點，快速實現迭代運算。同時，算法也設置了懲罰因子來防止過擬合，具體算法步驟如下。

優化目標函數：l(yi，yi＇）＝(yi－yi＇）2

每棵決策樹逐步迭代，形成一個強分類器。

決策樹如果葉子節點太多，會增加過擬合的風險，通常目標函數還需加入正則項Ω(ft）來對決策樹進行剪枝。

式中，γ為正則化強度；T為葉子節點個數；w為葉子節點權重。

加入正則化項后要優化的完整目標函數為

分別記gi，hi為l的一階和二階導數

最終求出目標函數最優解為

根據上式，作為樹分裂結構的分數，分數越高，則樹的結構越優異，最終獲得最優的樹結構。算法的停止取決于預設的樹深度或者分裂后的結果值小于某個閾值［2］。

2 模型實現

2.1 模型訓練

高職院校往往由于傳統業務系統存在信息孤島問題，管理人員僅僅只能看到學生的一維數據，如通過教務系統，管理人員只能查看到學生的學籍、學分、掛科、處分、考生評價等信息，無法獲取學生綜合管理系統、一卡通消費、上網行為、社交評論等信息數據。本文基于學校搭建的數據中臺，在數據高度共享的前提下構造數據集，采用XGBoost分類算法實現對學生的自動分類。模型訓練基本實現流程如圖1所示。

圖1 模型訓練流程

2.2 數據準備

通過數據中心，獲取了教務系統、學生綜合管理系統、一卡通平臺、網絡行為管理日志、微信企業號等多個業務系統中學生的多維度信息數據，并對其中某些字段缺失的數據、文本類型數據和異常數據進行預處理，通過特征轉換，最終構造學生個人畫像特征［3］。學院健康教育中心按照心理問題嚴重程度，統計出一級問題學生831人、二級問題1 105人、三級問題1 487人、心理狀況良好人數11 056人，將以上數據作為模型樣本。

2.3 模型實現

本文基于XGBoost的python實現。將一級、二級、三級、良好的學生分別標識為A，B，C，D。通過數據中臺抽取學生特征并進行特征轉化。

學生學籍特征：性別、專業、民族、所屬省份、生源地區、戶籍性質、家庭經濟情況等，這些特征均屬于離散類特征，對這類特征進行one-hot編碼，如性別特征轉化如表1所示。

表1 性別特征轉化

其他特征則類似編碼。

學生教務特征：成績、處分次數、是否惡意評價教學等。對于成績特征，以優、良、不及格來取值，然后將各科成績按照取值次數進行匯聚計算，學生教務特征具體如表2所示。

表2 學生教務特征

處分次數屬于連續性特征，以正常數值表示即可，是否惡意評價則按照上述離散類特征處理。

學生事務特征：學生請假、學生個人操行分、宿舍缺勤、班級排名等。

學生一卡通特征：圖書借閱、消費情況等。

上網行為特征：學生上網時長、App使用類型等。

最終，特征轉換編碼規則為：對于無序離散類特征采用one-hot編碼，對于有序離散類特征通過數值大小作為標識，再進行歸一化，對于連續性特征，進行歸一化。

隨機將數據集按照7∶3分為訓練集和測試集，模型評價指標采用多分類F1－score，通過交叉驗證選取模型參數如表3所示。

表3 模型超參數選擇

2.4 模型結果分析

通過XGBoost算法模型在測試集進行測試，結果如表4所示，從表中可以看出模型對心理健康狀況良好和存在一級問題的學生預測準確率分別為98.00%和96.78%，對二級問題的學生預測準確率相對較低。模型總體識別的準確率遠遠優于SCL－90量表調查問卷的結果。通過分析結果，對模型識別的特征重要性進行排序，如圖2所示。其中，是否有留守經歷、是否單親家庭、成績的特征重要性所占權重最大。同時，可以通過模型計算出學生屬于各分類的概率，將概率接近分類閾值的學生劃分為該類下有潛在心理疾病風險的學生，讓心理輔導老師對學生提前進行干預輔導［4－5］。

表4 測試集識別準確率

圖2 特征重要性排序

3 結語

本文通過運用數據中心，打通了各業務系統信息孤島，獲取了學生在各個業務系統多維度數據，采用XGBoost算法從分類的角度，設計了預測模型，相對于采用SCL－90量表的測評，能高效識別出有心理問題的學生，極大地降低了學校管理的成本，并且模型數據具有一定的可解釋性，心理老師也可以根據數據為學生進行個性化干預輔導。但是模型對二級問題的預測還存在比較大的誤報率，后續還應該多分析數據，挖掘學生有效特征，提升模型的準確率。

大數據挖掘的分類算法應用——以XGBoost為例