白茹
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710000)
隨著社會(huì)發(fā)展與時(shí)代的進(jìn)步,心理問(wèn)題越發(fā)受到人們的重視。大學(xué)生由于社會(huì)經(jīng)驗(yàn)欠缺且處理挫折的能力有限,在面對(duì)學(xué)業(yè)、工作、感情與人際關(guān)系時(shí),會(huì)造成較大的情緒波動(dòng)[1-2],若不及時(shí)排解,便會(huì)形成一定的心理問(wèn)題,導(dǎo)致行為偏激等。然而,現(xiàn)階段所提出的一些心理問(wèn)題預(yù)警算法均存在著準(zhǔn)確率不足等問(wèn)題[3-5]。因此,亟需一種可以代替人工,并能及時(shí)、準(zhǔn)確發(fā)現(xiàn)大學(xué)生心理問(wèn)題的算法。
針對(duì)上述提到的問(wèn)題,文中基于改進(jìn)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)設(shè)計(jì)了一套心理危機(jī)預(yù)警算法模型。該模型可以有效結(jié)合ANN、BP(Back Propagation)算法與ReLU 激活函數(shù)的優(yōu)勢(shì),在保證準(zhǔn)確率的條件下完成對(duì)心理危機(jī)的預(yù)警。對(duì)比實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了該算法的可行性與可靠性。
人工神經(jīng)網(wǎng)絡(luò)[6-9]是一種通過(guò)模擬人腦行為,利用邏輯規(guī)則建立的數(shù)據(jù)智能分析算法。ANN 算法的基本信息處理單元稱為“神經(jīng)元”,一個(gè)神經(jīng)元的輸入能夠與若干渠道的數(shù)據(jù)進(jìn)行交互,同時(shí)每個(gè)渠道均擁有對(duì)應(yīng)的連接權(quán)值。在經(jīng)處理單元與映射函數(shù)處理后,神經(jīng)元會(huì)將多個(gè)輸入數(shù)據(jù)處理成唯一結(jié)果后再進(jìn)行輸出。其所對(duì)應(yīng)的具體架構(gòu),如圖1 所示。

圖1 神經(jīng)元基本架構(gòu)
由圖1 可知,一個(gè)典型的神經(jīng)元主要由五個(gè)部分所組成:
1)輸入數(shù)據(jù):該模塊由多個(gè)渠道的待處理數(shù)據(jù)所組成。若將各渠道的數(shù)據(jù)記作xi,則神經(jīng)元的輸入數(shù)據(jù)可表述為:[x1,x2,…,xn,1]T。
2)連接權(quán)值:其是神經(jīng)元進(jìn)行線性映射的重要參數(shù),通常采用w=[w1,w2,…,wi,…,wn,b] 表示。其中,wi為各渠道輸入數(shù)據(jù)與該神經(jīng)元的連接權(quán)值,b為修正因子。連接權(quán)值代表了輸入待處理數(shù)據(jù)與神經(jīng)元之間聯(lián)系的緊密程度,若其值為正數(shù),說(shuō)明該神經(jīng)元被激勵(lì);反之,則說(shuō)明神經(jīng)元被抑制。
3)數(shù)據(jù)處理:該模塊的主要功能是根據(jù)輸入數(shù)據(jù)及其對(duì)應(yīng)的連接權(quán)值,計(jì)算相應(yīng)的加權(quán)和,對(duì)應(yīng)的數(shù)學(xué)表達(dá)式為:
4)激活函數(shù):其在神經(jīng)網(wǎng)絡(luò)中,負(fù)責(zé)將數(shù)據(jù)處理得到的加權(quán)結(jié)果通過(guò)非線性映射的方式傳遞至數(shù)據(jù)輸出模塊。常見的激活函數(shù)包括Tanh、Softmax 以及ReLU 函數(shù)等。
5)數(shù)據(jù)輸出:多渠道輸入數(shù)據(jù)庫(kù)經(jīng)多次處理后得到的最終結(jié)果用y=f(z)來(lái)表示,f為所選用的激活函數(shù)。
在ANN 網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)與應(yīng)用中,除了要考慮上述激活函數(shù)外,還應(yīng)考慮神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)連接方式與所使用的模型訓(xùn)練算法。目前,神經(jīng)網(wǎng)絡(luò)的連接方式可分為前饋型和反饋型兩種,而模型訓(xùn)練算法則有BP[10]、自組織特征映射(Kohonen)[11]及可變學(xué)習(xí)速率算法(Variable Learning Rate Backpropagation,VLBP)[12]等。根據(jù)該文研究心理問(wèn)題的特點(diǎn),選用前饋型神經(jīng)網(wǎng)絡(luò)(Feedforaward Neural Network,F(xiàn)NN)[13]、ReLU 激活函數(shù)[14]以及BP 算法進(jìn)行心理危機(jī)預(yù)警模型的設(shè)計(jì)與研究。前饋型神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層和輸出層所構(gòu)成,其基本架構(gòu)如圖2 所示。

圖2 FNN基本組成架構(gòu)
在FNN 神經(jīng)網(wǎng)絡(luò)中,各層神經(jīng)元所接收到的輸入僅能是上一層神經(jīng)元的輸出,然后經(jīng)過(guò)本層激活函數(shù)的非線性映射處理后,再作為輸出傳遞至下一層。同時(shí),該神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)信息傳遞方向均為由輸入層經(jīng)隱藏層到輸出層的單向傳輸,且其中并無(wú)任何反饋與回滾(Rollback)。
在利用傳統(tǒng)ANN 算法解決諸多實(shí)際問(wèn)題時(shí),通常會(huì)遇到樣本不均衡、所得模型泛化程度較弱等問(wèn)題。此類問(wèn)題若不及時(shí)解決,可能會(huì)造成所得到的最終結(jié)果誤差較大等情況。為此,需對(duì)傳統(tǒng)ANN 算法加以改進(jìn)。過(guò)往的改進(jìn)算法通常在進(jìn)行優(yōu)化時(shí),存在考慮較為片面的情況,如:基于欠采樣算法的ANN,僅考慮了樣本不均衡的問(wèn)題而沒有考慮如何提升模型的準(zhǔn)確度;基于集成學(xué)習(xí)的算法[15]則只考慮了模型相較于訓(xùn)練樣本的準(zhǔn)確性,但并未考慮樣本自身可能存在的不均衡問(wèn)題。
基于上述提到的問(wèn)題,文中提出了一種充分結(jié)合欠采樣(Undersampling)與集成學(xué)習(xí)(Ensemble Learning)優(yōu)點(diǎn)的集成采樣算法(ES-ANN)[16]。該算法一方面可解決樣本不均衡問(wèn)題,另一方面也能夠提高模型的準(zhǔn)確度。
ES-ANN 的基本思想是先根據(jù)訓(xùn)練樣本的分布情況決定模型訓(xùn)練過(guò)程中弱分類器的數(shù)量。在設(shè)置弱分類器個(gè)數(shù)時(shí),應(yīng)充分考慮以下幾個(gè)方面的影響:1)考慮到分類中可能存在同票問(wèn)題,故弱分類器的個(gè)數(shù)應(yīng)設(shè)置為奇數(shù);2)還應(yīng)保證樣本的均衡性,所以弱分類器個(gè)數(shù)的設(shè)置也不能較小;3)由于文中的訓(xùn)練和測(cè)試樣本數(shù)較少,因而弱分類器個(gè)數(shù)也不應(yīng)設(shè)置過(guò)大。當(dāng)設(shè)置完成弱分類器之后,再使用集成學(xué)習(xí)算法的思想對(duì)網(wǎng)絡(luò)整體進(jìn)行評(píng)估及優(yōu)化,最終即可得到理想結(jié)果。
該文采用的數(shù)據(jù)集來(lái)自某高校3 655 名學(xué)生的心理調(diào)查問(wèn)卷。由于部分學(xué)生作答存在前后矛盾或未完整作答等情況,需對(duì)原始的問(wèn)卷進(jìn)行篩選,最終選取了其中的2 347 份有效問(wèn)卷。同時(shí)為了更準(zhǔn)確地對(duì)學(xué)生心理健康狀態(tài)進(jìn)行評(píng)估,還調(diào)取了問(wèn)卷對(duì)應(yīng)學(xué)生的基本信息、學(xué)業(yè)情況以及校園一卡通消費(fèi)等信息。通過(guò)對(duì)以上信息的分析,在一定程度上也能得到影響學(xué)生心理的因素,以此綜合多方面的信息得到更為準(zhǔn)確的結(jié)果。其中學(xué)業(yè)信息涉及的字段及其對(duì)應(yīng)的解釋,如表1 所示。

表1 學(xué)生學(xué)業(yè)基本信息
根據(jù)上述四個(gè)數(shù)據(jù)來(lái)源,從中提取了三類數(shù)據(jù)特征,以供后續(xù)模型的進(jìn)一步分析與處理。
1)消費(fèi)特征:該類特征主要通過(guò)分析校園一卡通的消費(fèi)情況而來(lái)。通常經(jīng)濟(jì)條件較好的學(xué)生在外就餐次數(shù)偏多,而經(jīng)濟(jì)條件較差的學(xué)生,則在校內(nèi)的次數(shù)較多。
2)學(xué)習(xí)特征:該特征是根據(jù)學(xué)生的各科成績(jī),分析學(xué)業(yè)壓力對(duì)學(xué)生心理的影響。
3)心理特征:此特征主要通過(guò)分析心理調(diào)查問(wèn)卷而來(lái),其可反映出現(xiàn)階段學(xué)生所面對(duì)的主要壓力,進(jìn)而判斷問(wèn)題出現(xiàn)的主要原因。
根據(jù)上文對(duì)改進(jìn)ANN 算法、心理數(shù)據(jù)集構(gòu)建以及特征選取方法的分析研究,該文提出的基于改進(jìn)ANN 心理危機(jī)預(yù)警模型整體架構(gòu),如圖3 所示。

圖3 心理危機(jī)預(yù)警模型整體架構(gòu)
該模型的構(gòu)建從整體上可分為三個(gè)模塊:數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)處理與模型建立、心理危機(jī)預(yù)警。其中,數(shù)據(jù)采集與預(yù)處理模塊又可細(xì)分為采集、預(yù)處理兩部分。采集負(fù)責(zé)獲取學(xué)生的基本信息和學(xué)業(yè)信息等基礎(chǔ)數(shù)據(jù),而數(shù)據(jù)預(yù)處理則根據(jù)需求對(duì)獲取到的原始數(shù)據(jù)進(jìn)行篩選,去除其中的無(wú)效信息,同時(shí)還需按照劃分的特征進(jìn)行選取,為下一個(gè)模塊的操作提供重要的數(shù)據(jù)支撐。數(shù)據(jù)處理與模型建立模塊可構(gòu)建ES-ANN 網(wǎng)絡(luò),并利用BP 算法、ReLU 激活函數(shù)與訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,以得到滿足需求的模型。心理危機(jī)預(yù)警模塊則是根據(jù)模型的輸出結(jié)果,對(duì)高校學(xué)生的心理狀態(tài)進(jìn)行評(píng)估。當(dāng)存在異常時(shí),及時(shí)發(fā)出預(yù)警信息,以便后續(xù)的跟蹤與處理。
ES-ANN 構(gòu)建是整個(gè)心理危機(jī)預(yù)警模型中最重要的部分。為了充分利用有效數(shù)據(jù)集,使模型能在該數(shù)據(jù)集下達(dá)到最優(yōu)的學(xué)習(xí)訓(xùn)練效果,該文使用了十折交叉驗(yàn)證法(10-Fold Cross Validation,10-FCV)。其基本思想是:將每種數(shù)據(jù)集劃分為10 份,其中9 份為訓(xùn)練集,剩下的1 份為測(cè)試集。且10 次訓(xùn)練測(cè)試結(jié)果所求得的平均值,即代表最終的結(jié)果。若用A代表所有數(shù)據(jù),Atrain代表訓(xùn)練集,Atest代表測(cè)試集,AT代表正樣本,AN 代表負(fù)樣本,利用10-FCV 法所形成的數(shù)據(jù)集組成,如表2 所示。

表2 10-FCV數(shù)據(jù)集組成
為解決樣本的非均衡問(wèn)題,經(jīng)過(guò)實(shí)際參數(shù)調(diào)優(yōu),最終確定當(dāng)弱分類器的個(gè)數(shù)為5 時(shí),取得的效果最優(yōu)。因此便將剩下的負(fù)樣本訓(xùn)練集利用隨機(jī)采樣的方式分成5 份,再將所有的正樣本訓(xùn)練集復(fù)制到上述5 個(gè)隨機(jī)分成的負(fù)樣本集中,從而形成了5 個(gè)弱分類器訓(xùn)練集進(jìn)行后續(xù)處理。具體形成的數(shù)據(jù)集組成,如表3 所示。

表3 弱分類器的訓(xùn)練集組成
其中,ANtrain代表隨機(jī)分成的負(fù)樣本集,ATtrain代表正樣本訓(xùn)練集。
為驗(yàn)證文中所提基于改進(jìn)ANN 的心理危機(jī)預(yù)警算法模型的可行性與準(zhǔn)確性,在某高校的大學(xué)生中進(jìn)行了問(wèn)卷調(diào)查,并將提取的數(shù)據(jù)信息輸入模型,完成了數(shù)值實(shí)驗(yàn)驗(yàn)證。同時(shí)為體現(xiàn)該算法的優(yōu)勢(shì),還設(shè)置了基于支持向量機(jī)(Support Vector Machine,SVM)與基于隨機(jī)森林(Random Forest,RF)算法的預(yù)警模型作為對(duì)照,具體的實(shí)驗(yàn)過(guò)程及結(jié)果如下。
為有效利用數(shù)據(jù)集來(lái)準(zhǔn)確評(píng)估本算法在心理危機(jī)預(yù)警中的表現(xiàn),利用10-FCV 法對(duì)數(shù)據(jù)集進(jìn)行劃分。此外,還引入了目標(biāo)檢測(cè)分類評(píng)估的兩個(gè)關(guān)鍵指標(biāo)準(zhǔn)確率(Accuracy,ACC)與查準(zhǔn)率(Precision,PRE)來(lái)對(duì)模型的準(zhǔn)確度加以衡量。兩個(gè)指標(biāo)的具體定義為:
式中,TP 代表預(yù)測(cè)為真實(shí)際為真的次數(shù),TN代表預(yù)測(cè)為假實(shí)際為假的次數(shù),F(xiàn)N 表示預(yù)測(cè)為假實(shí)際為真的次數(shù),F(xiàn)P 則表示預(yù)測(cè)為真實(shí)際為假的次數(shù)。
該部分實(shí)驗(yàn)主要確定心理危機(jī)預(yù)警模型中,ESANN 網(wǎng)絡(luò)的兩個(gè)關(guān)鍵參數(shù):學(xué)習(xí)率與弱分類器數(shù)量。
1)學(xué)習(xí)率調(diào)優(yōu)
學(xué)習(xí)率是監(jiān)督學(xué)習(xí)中的重要參數(shù),該參數(shù)能夠保證目標(biāo)函數(shù)在恰當(dāng)?shù)臅r(shí)間收斂至局部最小值,進(jìn)而提高模型的準(zhǔn)確率。為此文中在弱分類器數(shù)量固定為5 的條件下,采用不同學(xué)習(xí)率進(jìn)行實(shí)驗(yàn),所得結(jié)果如表4 所示。

表4 學(xué)習(xí)率參數(shù)調(diào)優(yōu)實(shí)驗(yàn)
由表可以看出,隨著學(xué)習(xí)率的不斷減小,所得到的模型效果也越來(lái)越優(yōu)。但考慮到模型訓(xùn)練迭代時(shí)間的影響,故并未進(jìn)一步減少學(xué)習(xí)率,而是選取學(xué)習(xí)率為0.001 進(jìn)行后續(xù)實(shí)驗(yàn)。
2)弱分類器數(shù)量
由于弱分類器數(shù)量存在限制因素,該文在學(xué)習(xí)率固定為0.001 時(shí),選取1、3、5、7 個(gè)弱分類器進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5 所示。

表5 弱分類器數(shù)量調(diào)優(yōu)實(shí)驗(yàn)
由表5 可知,當(dāng)弱分類器的數(shù)量設(shè)置為5 時(shí),實(shí)驗(yàn)結(jié)果最優(yōu)。
為體現(xiàn)所提算法的優(yōu)勢(shì),在保證各算法參數(shù)最優(yōu)的條件下,利用相同訓(xùn)練集對(duì)各算法對(duì)應(yīng)的模型加以訓(xùn)練。同時(shí)利用相同測(cè)試集進(jìn)行模型驗(yàn)證,并以準(zhǔn)確率ACC 及查準(zhǔn)率PRE 為評(píng)估指標(biāo)。對(duì)比結(jié)果如表6 所示。

表6 多種算法實(shí)驗(yàn)對(duì)比結(jié)果
從表6 結(jié)果可知,該文算法在準(zhǔn)確率與查準(zhǔn)率上均優(yōu)于其他兩組算法,由此驗(yàn)證了該文算法的可行性與可靠性。
文中首先介紹了傳統(tǒng)ANN 算法,并針對(duì)其在實(shí)際應(yīng)用中所存在的問(wèn)題提出了一種改進(jìn)算法:ESANN。同時(shí)在該算法的基礎(chǔ)上設(shè)計(jì)出具有更高準(zhǔn)確率的心理危機(jī)預(yù)警模型。實(shí)驗(yàn)結(jié)果表明,與其他算法相比,所提算法的準(zhǔn)確率和查準(zhǔn)率更優(yōu),充分體現(xiàn)了該算法的優(yōu)勢(shì)以及設(shè)計(jì)方案的有效性。