楊歡歡, 張嚴心
(1.陜西財經職業技術學院 學生工作處, 咸陽 712046;2.西藏民族大學 外語學院, 咸陽 712082)
隨著生活節奏的加快和社會競爭的日益激烈,大學生面臨的學習、生活、情感以及就業壓力顯著增強,導致大學生心理問題日益突出,直接關系和影響大學生的心理健康和校園穩定,因此研究大學生心理健康狀況成為很多學者普遍關注的熱點問題[1]。為彌補大學生心理健康測評研究傳統方法的不足,運用鯨魚優化算法[2](Whale Optimization Algorithm,WOA)改進隨機森林(Random Forest,RF)進行大學生心理健康測評研究,挖掘出影響大學生心理健康的主要因素,為高校學生心理輔導提供科學決策的基礎和依據。
隨機森林分類[3-4](Random Forest Classification,RFC)算法是基于決策樹分類器的組合算法,其利用bootstrap重抽樣方法從原始樣本中抽取多個樣本,對每個bootstrap樣本構建決策樹,然后將所有決策樹中出現最多的投票結果最為最終預測結果。假設隨機參數向量θ對應的決策樹為T(θ),其葉節點為l(x,θ),RFC算法步驟如下。
Step1 利用bootstrap方法重采樣,隨機產生k個訓練集θ1,θ2,…,θk;利用每個訓練集生成對應的決策樹集{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
Step2 假設特征有M維,從M維特征中隨機抽取m個特征作為當前節點的分裂特征集,并以m個特征中最好的分裂方式對該節點進行分裂;
Step3 每個決策樹均得到最大限度的生長,在此過程中不進行剪枝;
Step4 對于測試集樣本Z,運用每個決策樹測試,獲取對應的類別{T(z,θ1)},{T(z,θ2)},…,{T(z,θk)};
Step5 運用投票法,將k個決策樹中輸出最多的類別作為測試集樣本Z所屬類別。
在WOA算法中,每只座頭鯨的位置表示一個可行解,該算法具體描述如下:
(1) 環繞式捕食。座頭鯨能夠識別獵物的位置并進行包圍。如果當前的最佳鯨群個體位置為目標獵物,則位置更新策略如式(1)、式(2)。
D=|C·X*(t)+X(t)|
(1)
X(t+1)=X(t)-A·D
(2)
其中,A和C為系數;t為當前迭代次數;X(t)為當前鯨魚的位置向量;X*(t)為當前最佳的鯨魚位置向量。
A和C計算公式如式(3)、式(4)。
A=2a·r1-a
(3)
C=2r2
(4)
其中,r1和r2為隨機向量,處于[0,1]之間;a值由2線性下降到0。如式(5)。
a=2-2t/Tmax
(5)
其中,Tmax為最大迭代次數。
(2) 發泡網攻擊。該階段主要機制有收縮包圍機制和螺旋式位置更新,通過座頭鯨氣泡網建立數學模型,具體描述如下:
1) 收縮包圍機制:該機制通過減小a值實現,其中A是隨機數,處于[-2,2]之間;當A處于[-1,1]之間時,新鯨群個體搜索位置是食物所在位置,此時鯨魚靠近食物進行覓食;反之,則鯨魚遠離食物。
2) 螺旋式位置更新機制:先計算鯨群個體與獵物的距離,之后為模擬座頭鯨的螺旋游走行為,在二者之間創建一個螺旋數學模型,該模型如式(6)。
X(t+1)=D′·ebl·cos(2πl)+X*(t)
(6)
其中,D′=|X*(t)-X(t)|為第i頭鯨群個體當前最佳位置與獵物的距離;l為隨機數,處于[-1,1]之間;b為對數螺旋形狀參數。座頭鯨在捕食獵物時,不但進行螺旋游動而且進行包圍收縮,其在以50%的概率p在螺旋模型和收縮包圍機制之間進行位置更新,其數學模型為式(7)。
(7)
其中,p為隨機數,處于[0,1]之間。
3) 搜索捕食:當A>1或A<-1時,鯨群將進行移動搜索遠離獵物,借此尋找一個更加合適的獵物,突出WOA算法在全局搜索中的勘探功能,數學模型如式(8)、式(9)。
D=|C·Xrand(t)-X|
(8)
X(t+1)=Xrand-A·D
(9)
其中,Xrand為從當前鯨群中隨機選擇的位置向量,也就是隨機鯨群個體。WOA算法流程圖如圖1所示。

圖1 WOA算法流程圖
針對RFR預測結果易受森林中樹的數量Ntree、候選特征子集Mtry和葉節點的樣本數Nodesize等參數影響[5-6],在保證云計算資源負載預測誤差最小情況下,實現森林中樹的數量Ntree、候選特征子集Mtry和葉節點的樣本數Nodesize等參數的自適應選擇,運用WOA算法對RFC參數進行優化選擇,選擇分類準確率T為適應度函數為式(10)。
(10)
其中,Total為樣本總數量;right為正確分類的樣本數量。
基于WOA-RFC的大學生心理健康測評流程為:
Step1 讀取大學生心理健康評價指標數據,產生RFC訓練集和測試集,并進行數據歸一化為式(11)。
(11)
其中,x′為歸一化之后的數據;x,xmax,xmin分別原始數據、原始數據中的最大值和最小值;a、b為歸一化之后的最小值和最大值。本文取a=-1,b=1。
Step2 WOA參數初始化。設定種群規模N、當前迭代次數t、最大迭代次數M和對數螺旋形狀常數b,并隨機初始化鯨群初始位置Xi(i=1,2,…,n);森林中樹的數量Ntree、候選特征子集Mtry和葉節點的樣本數Nodesize參數范圍的初始化;
Step3 根據公式(10)計算每個鯨群個體的適應度,找到當前群體中最佳鯨群個體X*,并進行保存;
Step4 若t≤M時,則進行a、A、C、l和p更新;
Step5 當p<0.5時,若|A|<1,根據公式(2)更新當前鯨群個體的空間位置;當|A|≥1時,則從當前群體中隨機選擇鯨群個體位置Xrand,根據公式(9)更新當前鯨群個體的空間位置;
Step6 當p≥0.5時,根據公式(6)進行當前鯨群個體空間位置的更新;
Step7 進行鯨群個體搜索空間判斷限制和修正;
Step8 根據公式(10)計算每個鯨群個體的適應度,找到當前群體中最佳鯨群個體X*,并進行保存;判斷算法是否終止,若t≥M時,則轉到Step9;反之,重復Step4-Step8;
Step9 輸出最優鯨群個體適應度及其對應的空間位置X*,輸出RFR模型的最優參數:森林中樹的數量Ntree、候選特征子集Mtry和葉節點的樣本數Nodesize,并將這三個最優參數用于大學生心理健康測評?;赪OA-RFC的心理健康測評流程圖如圖2所示。

圖2 基于WOA-RFC的心理健康測評流程圖
為了驗證WOA-RFC的有效性,選擇某高校2017年某學院300名入校大學生為研究對象,數據來源于入校所做的大學生心理健康測量表[7-8],該表涉及大學生心理健康狀況的104個預設問題,其中男生212名、女生88名。根據SCL-90總分和中國常規模式評價指南和心理健康評價相關文獻[9-14],大學生心理健康分為精神病、偏執、恐怖、敵對、抑郁、焦慮、人際關系敏感、強迫和軀體化9個維度[15-16],大學生心理健康評價標準如表1所示。

表1 大學生心理健康評價標準
對于“家庭月收入”等連續型數據進行離散化處理[12],家庭收入離散化結果如表2所示。

表2 家庭月收入離散化結果
為保證結果的可靠性,隨機抽取80%的數據作為訓練樣本集,剩下20%為測試樣本集,將WOA-RFC和RFC[17]、支持向量機(support vector machine,SVM)[18]和前饋神經網絡(back-propagation neutral network,BPNN)[19-20]進行對比,測試結果如表3和圖3-圖6所示。

表3 識別效果

圖3 WOA-RFC識別結果

圖4 RFC識別結果
圖3-圖6中,“*”表示大學生心理狀態的預測類別,“○”表示大學生心理狀態的實際類別,通過對比展示可以直觀地顯示大學生心理狀態識別結果和實際大學生心理狀態類別,其中1、2、3、4、5分別表示心理健康、強迫、焦慮、人際關系和抑郁。當“*”和“○”重合時,大學生心理狀態的預測類別和實際類別一致,說明識別正確;當“*”和“○”不重合時,大學生心理狀態的預測類別和實際類別不一致,此時大學生心理狀態識別錯誤。由表3和圖1-圖4可知,WOA-RFC的識別準確率為99.41%,優于RFC的96.30%,SVM的96.50%和BP的92.33%,通過對比發現,WOA-RFC具有更高的大學生心理狀態識別準確率,效果較好。通過WOA-RFC和RFC、SVM、BPNN的對比發現,WOA-RFC具有更高的識別準確率,提高了大學生心理狀態識別的精度,同時為大學生心理狀態識別研究和應用提供了新的方法。

圖5 SVM識別結果

圖6 BPNN識別結果
為實現大學生心理健康狀態評價,提出一種基于WOA-RFC的大學生心理健康測評研究方法。通過WOA-RFC和RFC、SVM、BPNN的對比發現,WOA-RFC具有更高的識別準確率,提高了大學生心理狀態識別的精度,同時為大學生心理狀態識別研究和應用提供了新的方法,為高校學生心理輔導提供科學決策的基礎和依據。