王佳齊,楊思宇
(成都理工大學工程技術學院,四川樂山 614000)
隨著高校大學生數量的增加,同時畢業、就業和家庭矛盾等社會問題的激增,使得大學生心理健康問題逐漸凸顯[1-2]。如何發現影響大學生心理健康問題的因素并及時解決,已成為一個新的研究熱點[3-4]。針對大學生心理健康復雜的環境因素,如何切實有效地分析各個因素和大學生心理健康的關系則是其難點問題[5]。
利用大數據技術,為心理健康領域研究開辟了新的方向[6-7]。文獻[8]提出在大數據背景下重構心理學體系特征。文獻[9]提出基于改進Ising 模型的心理量表大數據分析。此外,文獻[10]提出利用大數據技術開發心理疾病預測系統。大數據技術在心理健康領域的廣泛應用說明了其在數據挖掘和分析方法領域所具有的優勢,可在海量數據中發現數據的相關趨勢。
在大數據廣泛應用于心理健康領域的基礎上,利用大數據技術研究關于心理健康危機預警新途徑已成為一個新的研究方向。文獻[11-12]提出利用大數據技術預警心理危機與孤獨系數,在一定層面上可側面反應大學生心理健康水平?;诟咝4髮W生幸福感與心理彈性的相關研究也取得了一定的成果。在心理大數據分析方面,數據挖掘和關聯規則特征提取算法發揮了一定的作用,但對于復雜的外部環境因素,如何確定主要因素仍存在一定的不足[13-16]。
中文針對大學生心理健康問題分析需求和現有算法的不足,研究了基于大數據匹配的大學生心理健康因素分析算法。為了更優地分析影響大學生心理健康的因素,文中提出模型融合方法,將社交模型、情感模型和興趣模型相融合,實現數據預處理。在此基礎上,文中提出利用剪枝決策樹算法,根據信息熵與增益率大小生成根節點,并進行后向剪枝去除不必要的節點。通過多個學校的數據分析對比可知,文中所提算法具有一定的普適性,且相對于現有算法實用性更高。
為了分析影響大學生心理健康的各類因素,文中提出基于大數據決策樹匹配的健康因素分析算法,可有效發掘和分析影響大學生心理健康的因素,為心理健康干預提供支持。算法架構如圖1 所示。

圖1 大數據心理健康因素分析匹配算法架構
文中所提算法架構主要分為4 個部分,包括數據采集、屬性分類、決策樹分析和因素分析匹配。
1)數據采集主要是大數據信息提取,根據信息多樣性和準確性原則采集數據,為算法提供數據支持;
2)屬性分類是對第一步收集的大數據進行預處理,進行分類別、分屬性歸一化處理,生成屬性集合;
3)決策樹分析主要是判別各因素屬性和大學生心理健康結果的相關性,保留相關性較大的因素,將相關性較小的因素剔除,使分析結果更加合理;
4)因素分析匹配是對經過決策樹分析后的相關因素進行匹配分析,從而得到更精確的分析結果。
利用大數據匹配算法進行大學生心理健康因素分析需要大量的數據支持,數據的多樣性和準確性直接影響算法分析的精確性。為了保證數據的完整性,文中采集的數據主要分為兩種大的屬性類型,其主要包括學生屬性與家庭屬性,心理健康因素學生屬性數據和家庭屬性數據如表1、表2 所示。

表1 心理健康因素學生屬性數據

表2 心理健康因素家庭屬性數據
除了表1 和表2 以外,為了分析大學生心理健康因素,仍需采集大學生的興趣愛好、交友情況與相應的情感狀態,然后參照表1 和表2 進行相應的賦值和數據處理。
為了更準確地分析大學生心理健康因素,文中采用數據模型融合方法進行預處理。如圖2 所示,將采集的數據細化為情感模型、興趣模型和社交模型3 類,并計算3 類模型參數與大學生心理健康的相關系數。選擇相關系數最大的一類作為基礎模型,其余兩類作為待選模型,并依次計算待選模型中的數據參數加入模型后整體的數據相關性。若數據相關系數增大,則將該數據屬性加入模型;否則將進行拋棄。通過數據預處理融合,可在一定程度篩選不相關數據,實現數據的預處理。

圖2 心理健康因素數據預處理架構
在完成數據預處理后,可利用文中所提的基于大數據匹配算法對大學生心理健康因素進行分析。為了保證算法分析的正確率,利用大數據匹配算法首先將數據分為訓練集和測試集,然后驗證算法的有效性,并淘汰奇異值。
設訓練樣本集合為S,其數據樣本分為m類,定義為Mi,i=1,2,…,m,設Mi中的樣本數為mi,則訓練樣本集合的信息熵為:

其中pi表示任意樣本屬于Mi的概率。
設屬性A有n個不同的值,可以用屬性A將整個訓練集合分為n個子集。假設其中一個子集Sj包含S在屬性A上具有相同值的所有樣本,用Sij表示子集Sj中屬于Mi的樣本個數,則由屬性A劃分的子集的條件信息熵為:

pij表示子集Sj中屬于Mi的概率,如式(3)所示:

由式(1)和式(2)可計算在屬性A上獲得的信息增益:

以屬性A為整個樣本進行分類,可以獲得分類信息熵為:

其中,pj表示數據樣本集合S中,屬于屬性A的第j個子集的概率:

根據式(4)和式(5)可以計算屬性A的信息增益率:

文中所提基于大數據匹配的大學生心理健康因素分析算法利用C4.5 算法生成決策樹,依次發現影響大學生心理健康的主要因素。C4.5 算法是選擇信息增益率最大的屬性生成決策樹的算法。該算法流程如圖3 所示,主要包括計算各屬性信息熵、計算信息增益率、新建根節點和剪枝4 部分。

圖3 大數據決策樹匹配分析算法流程
圖3 中,計算屬性信息熵和信息增益率可分別根據式(1)、式(2)與式(7)進行計算。生成根節點是根據屬性集合信息增益率的大小,選擇最大的生成根節點。假設情感特征屬性集合的信息增益率最大,則會生成關于情感屬性的決策樹,為了方便分析,化簡的情感屬性決策樹示例如圖4 所示。

圖4 化簡的情感屬性決策樹示例
在生成若干個根節點后即會生成決策樹,此時需要利用剪枝算法,搜索相關系數較大的因素。篩選掉相關系數較小的根節點,得到最終的決策樹。
文中所提的大數據匹配心理健康因素分析算法步驟如下:
輸入:數據集合S、類別集合Mi、屬性子集Sj;
1)根據式(1)計算樣本集合的信息熵;
2)根據式(2)計算屬性的條件信息熵;
3)根據式(4)計算信息熵增益;
4)根據式(5)計算分類信息熵;
5)根據式(7)計算信息增益率;
6)根據信息增益率大小生成決策樹;
7)判斷去除第j個葉子節點是否減小數據相關系數,若是則轉向9),否則轉向8);
8)將元素j從數據集合g中剔除;
9)j=j+1;
10)根據決策樹生成因素集合{Ri} ;
輸出:因素類別集合{Ri} 。
為了驗證算法的有效性,需要驗證其性能指標。文中利用分類算法進行預測時,可得到的結果共有4 種情況,如表3 所示。

表3 不訓練集預測結果
表3 中,TP表示預測為積極因素,且與實際情況相符;FN表示預測為消極因素但是與實際情景相反;FP表示預測為積極因素但是實際情況為消極因素;TN表示預測為消極因素且與實際情況相符。
為了顯示數據的有效性,可以計算樣本分類的有效性,即預測正確率,計算公式為:

召回率表示分類正確的樣本數占該類真實樣本總數的比例:

可以根據正確率和召回率綜合驗證所提算法的性能。
為了驗證文中所提基于大數據匹配的大學生心理健康因素分析算法的有效性和適用性,文中對比了不同學校大學生的心理健康分析結果。同時通過對比文中算法與其他現有算法的性能,驗證文中所提算法的優越性。
如表4 所示,文中使用不同類型學校的大學生心理健康數據進行對比,涉及不同層次、不同學科的學校??梢园l現文中所提基于大數據匹配的大學生心理健康因素分析算法,對于不同學校指標趨于一致,則說明算法具有優良的適用性。且可發現算法性能和學科有關,理工科學校更趨于一致,表明大學生心理健康水平與學業有一定關系。

表4 不同學校大學生心理健康因素匹配算法性能
如表5 所示,在使用同一數據集的情況下,文中算法的匹配正確率要遠高于其他兩種現有算法。ID3 算法存在欠擬合現象,因此性能較差。CART 算法由于剪枝不當,無法實現全局最優匹配,因此性能也略遜于文中算法。文中所提算法由于采用后向剪枝方法,避免了其他算法的缺點,因此具有一定的優越性。

表5 不同算法匹配性能對比
針對關注大學生心理健康問題的需求,文中提出了一種基于大數據匹配的大學生心理健康因素分析算法。與現有研究不同,文中使用綜合模型考慮了更多的因素。并利用大數據信息,計算不同因素數據的信息熵,采用剪枝決策樹算法實現因素分析。相對于現有算法,文中算法在不同指標上均有一定提高,并避免了奇異值對數據分析造成的影響。同時,經過對多個高校學生數據的分析驗證,說明文中所提的大數據匹配算法具有較優的實用價值。