





摘要:學生資助以“家庭經濟困難學生的資助全覆蓋且無遺漏”為工作目標,并重點幫助特困學生順利完成學業。在智慧校園平臺的基礎上,文章提出一種基于強化學習的代價敏感困難學生等級分類算法,將非平衡數據的代價敏感特性引入隨機森林的生成過程,使用強化學習的累計回報系數影響CART決策樹在屬性分裂時的選取,實現同時提升困難學生整體分類準確率和特困學生類別分類準確率的效果。實驗結果表明,與現有困難學生等級分類算法相比,該算法在困難學生整體分類和特困學生類別分類的準確率上處理效果均較理想。
關鍵詞:困難學生;隨機森林;深度學習;代價敏感
中圖分類號:TP311.13文獻標志碼:A
0引言
困難學生認定和困難等級分類一直是學生資助工作中比較重要且較難精準識別的部分。在每一學年伊始,各高校均要完成家庭經濟困難學生認定,傳統的工作方法是讓學生填寫各種紙質表格,上交相關困難佐證材料,再通過家訪、個別訪談、信函索證、量化評估、民主評議等多種方式開展家庭經濟困難學生認定工作,因此困難認定和困難等級分類的結果在很大程度上與輔導員對學生的了解程度及主觀態度有直接關系。目前,隨著大數據和人工智能等技術的發展,越來越多的學者將數據挖掘、機器學習等技術應用于困難學生識別和困難等級分類等工作中開展研究,主要的經典算法包括關聯規則、聚類、神經網絡、決策樹、隨機森林等。這些算法一般是基于數據較為均勻的平衡數據集進行分析的,但困難學生數據往往存在不平衡的特點,其不平衡特點體現在特困學生的占比較小,一般困難類和困難類學生的占比較多。若特困學生被錯誤分為一般困難或困難類別,對整體的分類精確率不會有太大影響,但這類特困學生是困難學生群體中最需要救助和幫扶的一部分。因此特困學生分類對于學生資助工作而言是非常重要并且不能忽略的部分。傳統機器學習的分類方法一般追求總體的分類精準率而忽略少數比較重要類別的準確率,對于困難學生的困難等級分類效果不理想。若所用算法忽略了此類學生,將會導致特困學生得不到及時資助或者所獲資助資金減少,這就造成了資助的不公平,在很大程度上影響了特困學生的學習和生活。特困學生甚至會因為經濟問題,無法專注于學習,或萌生退學或休學的想法。
Leo[1]提出了隨機森林算法,其是一種集成學習算法,其核心思想在于構建一個由諸多決策樹組成的“森林”,每個決策樹都是獨立訓練的,并且在預測分類結果時其判斷結果會被綜合起來以得出最終的結果。這種方法有效地減少了單一決策樹可能出現的高誤差和過擬合問題。2019年,馬曉君等[2]基于粒子群算法優化加權隨機森林模型,并將其應用于企業信用評級領域,經實驗證明了算法具有較高的預測精度。2020年,朱瑛等[3]基于計算節點匹配代價的方法對隨機森林進行優化,并以Kappa系數為權重對新隨機森林中每棵決策樹進行加權處理,提高了隨機森林算法的預測精度。為了提高不平衡數據中重要類別的分類準確率,本文采用基于強化學習的隨機森林困難等級分類算法,將錯分的代價影響因子引入不平衡數據分類的過程,使用強化學習理論中累計回報系數影響“森林”中決策樹的生長,從而達到提高特困學生分類準確率的目的。
1代價敏感理論
傳統的分類方法認為數據集中各個類別的數據是均勻分布的,也稱為平衡數據集,并將正樣本和負樣本錯誤分類帶來的代碼認為是相等的。不平衡數據是指在數據集中的不同類別樣本的數據量存在不平衡的情況,數量上存在較大差異,某些類別的樣本數量較少被稱為正樣本,這些數據集樣本往往具有代價敏感性,即正樣品被錯分所帶來的代價較大。困難學生的數據樣本存在典型的代價敏感特性,困難學生中的特困學生在總體樣本中往往數量偏少,但這部分學生是更需要關注和資助的群體。特困學生的分類結果在整體數據分析結果中至關重要。在資助工作中,針對特困學生群體,學校應給予更多比例的資助資金和關心關愛。若采用傳統基于平衡數據集的分類算法進行分析,將導致無法精準識別這類特困學生,且其及時資助受到影響。在數據分類過程中,引入錯分代價矩陣能夠提高正樣本的錯分代價,以提高正樣本對整體分類準確率的影響,因此,本文提出基于困難等級分類的代價敏感矩陣[4]。在生成決策樹的過程中,本文使用屬性A作為決策樹分類節點屬性的整體誤分代價,如式(1)所式。
CA=∑2i=0
j=0Cij(1)
特別困難類、困難類和一般困難類3個類別形成的錯分代價矩陣如表1所示。
代價敏感學習的思想是增加誤分正樣本在訓練集中的權重,從而提高分類器對正樣本的準確率的影響。本文提高特困學生的誤分代價,當特困學生被錯分時,雖然該類別數量占比較少,但系統得到的代價反饋得到保持,從而不會影響整體的分類效果。
2強化學習理論
強化學習的原理是根據當前學習環境的影響,綜合分析各種影響所造成的結果,即回報信息,從而決策得出最佳的動作,并對學習方法作出相應地調整,實現自我優化,達到提高分類預測準確率的目標。目前比較成熟的理論有馬爾科夫決策過程(Markov Decision Process,MDP)[5],它是一個隨機過程,系統的下一個狀態僅依賴于當前狀態,而與以前的歷史狀態無關。MDP表達式為:
MDP=lt;S,A,P,Rgt;(2)
其中,S代表狀態集合;A代表動作集合;P代表狀態轉移概率矩陣,由在一個狀態執行某個動作后轉移到其他狀態的概率組成;R代表在一個狀態下執行某個動作后得到的回報函數[6-7]。根據當前的狀態和回報函數,系統在動作集合中選擇最優的動作。在與環境交互的過程中,智能體利用狀態轉移概率來規劃行動策略,以獲得最大化累積獎勵[8]。本文算法的設計思想是將非平衡數據的錯分代價特性引入回報函數中,作為決策樹屬性選擇的影響因素。
3基于強化學習的隨機森林困難等級分類算法
3.1基于貧困等級分類的累計回報系數
將困難學生的樣本數據通過分類模型預測,得到的最終分類結果如表2所示。表中,T、F表示樣本的數量,Tii表示將實際為i類的樣本正確地分類為i類的樣本數量,Fij表示實際為i類但被錯誤地分類為j類的樣本數量。
在困難等級分類過程中,學校資助管理部門對特別困難類別的學生更加關注,故在建模的過程中單獨納入特別困難類準確率為:
TP=T00T00+F01+F02(3)
困難等級整體準確率為:
Acc(0)=T00+T11+T22N(4)
其中,N為所有困難學生樣本的總和。RMS為3個列表準確率的加權均方根,其表達式如式(5)所示。
RMS=T00T00+F01+F02w02+T11F10+T11+F12w12+T22F20+F21+T22w223(5)
決策樹是用于樣本分類和回歸的經典算法,模仿了人類的決策過程。決策樹算法以貪心算法為基本原則,自上而下地選擇當前節點選擇最有利的分類規則,將數據集在不同分裂節點根據不同規則劃分為不同類別,從而形成一個樹形結構模型,并用于預測新樣本類別。不同決策樹算法最佳分類樹形的選擇策略不同,ID3算法、C4.5是以信息增益、信息增益率作為屬性選擇的依據。CART決策樹算法使用Gini指數作為分裂屬性的選擇標準[9]。
隨機森林是一種集成的學習算法,通過隨機抽取樣本生成多棵決策樹,這些決策樹組成了“森林”,每一棵決策樹都是一個分類器,將對新樣本產生一個分類結果,隨機森林集成了所有樹的投票結果,將投票次數最多的分類結果作為隨機森林的最終分類結果。由于每棵樹通過不同的樣本和特征生成,可以防止過度擬合的情況,隨機森林的魯棒性和預測準確性更強[10]。隨機森林中最重要的單元是決策樹,本文采用CART決策樹作為基本單元。
CART決策樹的Gini指數最早來源于經濟學,用于衡量分配是否公平,CART決策樹中的Gini指數表示數據的純度和確定性,也表示集合中樣本被錯分的概率,當Gini指數越小時,這個數據集純度越高,樣本被錯分的概論越小。經典的CART決策樹算法計算出所有類別的Gini值,結合Gini值設計AS值,選擇AS最小的值作為最優分裂屬性。決策樹第i層節點的累計回報系數由TP、ACC和RMS的積組成,其表達式為:
CR(i)=TP×ACC×RMS(6)
根據各層的累計回報系數計算出該屬性在當前節點(第i層)的累計回報系數為:
CRi=CR(1)CR(2)…CR(i)(7)
3.2基于累計回報系數的屬性選擇策略
基于強化學習的隨機森林困難等級分類算法,本文在每一棵樹的第i層節點上,針對第j個屬性,計算建模樣本數據中選擇該屬性進行分裂的TP、ACC和RMS,并結合之前1-i層計算累計回報系數CR,計算出基于強化學習累計回報的屬性AS值為:
AS=(2Gini-1)×C(A)CRi(8)
C(A)=∑nt=1C(i)(9)
其中,C(i)是使用屬于A作為決策樹分類節點屬性時的整體誤分代價。C(A)越小,決策樹分裂錯誤的代價越小,馬爾可夫鏈的回報系數CRi越大,AS值越小,則決策樹的分裂效果越好。從決策樹的根節點開始,每一層選擇AS值最小的屬性作為分裂節點,逐層依據AS完成屬性的選擇,直到分裂至葉子節點,最終生成一棵基于強化學習的代價敏感決策樹。
本文通過隨機抽樣的方式提取樣本生成N棵基于強化學習的代價敏感決策樹,共同組成了隨機森林。在預測新樣本的類別時,每棵樹對新樣本預測分類結果進行投票,將獲得票數最多的分類結果作為整個隨機森林對新樣本的預測結果。算法步驟如下:
(1)從樣本中隨機提取訓練數據;
(2)從根節點開始生成Gini決策樹;
(3)計算每層TP、ACC和RMS,計算出AS值,選擇最優分裂屬性;
(4)重復步驟(1)—(3),直至森林生成結束。
4實驗結果及分析
本文實驗主要針對困難學生的數據進行分類預測,故將本文算法與隨機森林、CART決策樹進行比較。本文的實驗數據提取自智慧校園平臺學生行為等相關數據,包括學生的一卡通消費數據、門禁系統數據,學業數據、社交數據等[11-12],具體內容如表3所示。
隨著手機支付的普及,很多學生采用微信或者支付寶進行購物,導致學生在學校使用一卡通消費的數據減少,采用一卡通消費數據作為特張指標進行分析將會出現偏差。本文采用人臉識別和表情分析技術,采集學生進入食堂、寢室、超市、圖書館、洗衣房、體育館等場所的行為數據,提取出貧困學生在這些場所出現的頻次。
困難學生等級分類的實驗結果如圖1—2所示。
本文算法將一般困難、困難和特別困難3個各類別的權重分別設置為:w1 =0.1;w2 =0.4;w3 =0.5。將數據源按隨機策略劃分為訓練數據和測試數據,訓練數據占80%,測試數據占20%。按照往年獲得過助學金的學生設置家庭經濟困難學生等級標簽。實驗表明,由圖1可知,本文算法處理后的困難學生整體分類準確率和特困類別的準確率分別為89.3%和92.6%;由圖2可知,本文算法的總體準確率為92.6%,均普遍高于其他2種算法,這說明特困學生類別分類準確率得以有效提升[13]。
5結語
本文提出了一種基于強化學習的隨機森林困難等級分類算法。該算法首先引入代價敏感理論,將特困學生誤分為其他類別學生的情況賦予更大的錯分代價;再引入馬爾可夫模型中,基于隨機森林算法每棵CART決策樹的生成過程,根據之前層次的累計回報系數計算當前的累計回報系數,并將累計回報系數和整體錯分代價引入當前層級的屬性選擇依據;最后生成由基于深度學習的代價敏感CART決策樹組成的隨機森林。實驗結果表明,所提算法能夠有效提高特困學生的分類準確率。下一步,課題組將圍繞隨機森林對每棵樹分類結果的選取方法以及各個類別賦值的權重進行系統研究。
參考文獻
[1]LEO B.Random forests.[J].Machine Learning,2001(1):5-32.
[2]馬曉君,董碧瀅,王常欣.一種基于PSO優化加權隨機森林算法的上市公司信用評級模型設計[J].數量經濟技術經濟研究,2019(12):165-182.
[3]朱瑛,謝睿,鄭若池.基于節點匹配代價優化的隨機森林算法[J].計算機工程與設計,2020(11):3106-3111.
[4]郭佳君,楊波,朱劍林,等.面向不平衡樣本的高校學生資助等級分類模型[J].中南民族大學學報(自然科學版),2022(1):101-108.
[5]孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012(8):2806-2810.
[6]胡凱,鄭翡,盧飛宇,等.基于深度學習的行為識別算法綜述[J].南京信息工程大學學報,2021(6):730-743.
[7]殷昌盛,楊若鵬,朱巍,等.多智能體分層強化學習綜述[J].智能系統學報,2020(4):646-655.
[8]胡鴻翔,梁錦,溫廣輝,等.多智能體系統的群集行為研究綜述[J].南京信息工程大學學報,2018(4):415-421.
[9]江國薦.基于SAE-LBP網頁分類的研究[D].合肥:中國科學技術大學,2015.
[10]高藝文.基于多尺度面部特征的抑郁識別研究[D].蘭州:蘭州大學,2021.
[11]王燁.高校學生資助管理系統的設計與實現[J].計算機產品與流通,2019(3):210.
[12]王益成,王萍.基于用戶動態畫像的科技情報服務推薦模型構建研究[J].情報理論與實踐,2019(4):83-88.
[13]李云.大數據分析技術及其在貧困生幫扶工作中的應用研究[D].貴陽:貴州大學,2018.
(編輯沈強編輯)
Random forest difficulty classification algorithm based on reinforcement learning
ZHU" Jing, SONG" Susu
(Chuzhou Polytechnic, Chuzhou 239000, China)
Abstract: The working goal of student financial assistance is “full coverage and no omission of financial assistance for students from poor families”, and it focuses on helping extremely poor students successfully complete their studies. Based on the smart campus platform, this paper proposes a classification algorithm for cost-sensitive students with difficulty based on reinforcement learning. The cost-sensitive characteristics of unbalanced data are introduced into the generation process of random forest, and the cumulative return coefficient of reinforcement learning is used to influence the selection of CART decision trees when the attributes are split, in order to achieve the effect of improving the overall classification accuracy of students with difficulties and the classification accuracy of students with special difficulties. The experimental results show that compared with the existing classification algorithms, the proposed algorithm is effective in both the overall classification of students with difficulty and the classification accuracy of students with extreme difficulty.
Key words: students from poor families; random forest; deep learning; cost sensitive