于美亞
(浙江醫藥高等專科學校 信息中心,浙江 寧波 315100)
心理障礙將出現抑郁、自傷、他傷等不良事件,目前,對社會各個領域人員的心理障礙預測十分關鍵[1]。如孕婦心理障礙、重大疾病患者的心理障礙、學生心理障礙等情況都是相關領域研究人士關注的核心問題[2]。文獻[3]、文獻[4]分別構建基于文本情感特征的心理評估模型、基于速度與準確率權衡的心理測量學模型,2個模型雖然對心理狀態預測這一問題存在可利用性,但受到預測樣本數量約束,僅對小樣本存在應用價值。
歷史數據驅動是通過某種數據處理方法獲取歷史數據中有價值數據,合理應用歷史數據后實施融合與提煉,建立合理的決策模型。本文應用歷史數據驅動技術,構建基于歷史數據驅動的心理障礙預測模型,并引入隱馬爾科夫模型,從有價值數據提取、心理障礙預測兩方面雙管齊下,實現心理障礙預測。
1.1.1 整體框架
將被預測者的心理量表設成n×m的矩陣H,心理預測數據樣本j的屬性所構建向量是Hj。心理障礙預測時,醫生會通過各式各樣的心理測試量表協助預測。本文使用FOAD(Fuzzy-Option based Attribute Discriminant method,基于模糊選擇的屬性判別方法)方法,在大量心理測試的歷史數據協助下,對心理狀態屬性實施排列,獲取具有核心屬性的有價值數據,用于后續預測[5]。FOAD方法的操作流程如下。
(1)在心理預測數據里獲取心理測試數據集并實施清洗,數據集里各個參與者樣本存在大量身體癥狀屬性。
(2)約簡多余測試選項,留下核心選項,獲取具有核心屬性的有價值數據。
1.1.2 選擇保留選項
量表里某信息屬性的程度通過量表選項決定。選擇某些預測選項,不可以全部按照選項的樣本數目來決定,需要分析選項里某屬性程度的意義。所以需要分別留下一個程度顯著、程度不顯著的選項,剩下需保留的選項按照選項間距來決定[6-7]。選項間距是兩種選項具備的程度值之差的絕對值。選項的詳細選擇過程如下。

(3)把maxyL、maxyR導入選項集合P′里。
(4)在剩下選項里檢索剩下r-2個需要保留的選項。
(5)處理不在選項集合P′中選項。
(6)運算此選項和P′里全部選項的最小距離e(i)。
(7)得到e(i)里最大元素導進選項集合P′中,讓選項集合P′中預測元素間距為最大。
在選擇保留選項時,需要分析選項的意義與選項在整個數據集里的實際分布情況,所以留下的選項集必須具備主觀性與客觀性。
綜上所述,選擇保留選項的示意圖如圖1所示。

圖1 選擇保留選項的示意圖
1.1.3 模糊選項約簡

(1)
約簡步驟如下。
(1)設置P″為P′的補集,P″中具有需要刪除的選項。
(2)將某心理預測數據樣本里必須刪除的選項一一標記,標記內容是此選項相應的屬性值是否修改成保留選項。
(3)判斷各個保留的選項對此刪除選項的影響力。
(4)把影響力最大的選項設成pmax。
(5)運算全部保留選項的影響度之和。
(6)標記刪除項相應屬性修改成pmax之外的選項。
(7)為了實現全部屬性值均被處理,把刪除選項相應的屬性設成pmax。
(8)修改全部標記的需刪除選項,實現核心屬性提取。
1.2基于隱馬爾科夫模型的心理障礙預測模型
1.2.1 初始模型建立
基于隱馬爾科夫模型的心理障礙預測模型建立時,需要設置隱馬爾科夫模型的核心預測屬性。詳情如下。
(1)心理專家預測人們心理障礙時,預測結果分別是心理健康B1、心理亞健康B2、心理障礙BM。把此類預測結果設為隱馬爾科夫模型的隱狀態,隱狀態集合描述為B={B1,B2,…,BM},心理狀態類型數量是M。
(2)將1.1小節獲取的心理預測數據中有價值數據設成心理障礙預測的核心要素,心理障礙預測的核心要素集描述成C={C1,C2,…,Cm},要素數量是m。以核心要素為基礎建立核心要素組合S為式(2)。
S=C1,C2,…,Cm
(2)
其中:

(3)
式中,i=1,2,…,m。S可看作隱馬爾科夫模型的可觀察狀態。設定可觀察序列集合是Q={S1,S2,…,Sm}。
(3)心理障礙初始中狀態轉移概率矩陣為式(4)。
(4)
(4)分析心理健康、心理亞健康、心理障礙三類狀態中每個評測因素的組合S,得到心理障礙狀態的概率O。
(5)設置心理障礙初始狀態概率分布是δ,構建隱馬爾科夫初始模型θ=(δ,D,O)。
1.2.2 模型訓練
隱馬爾科夫初始模型θ=(δ,D,O)使用Baum-Welch算法優化后為θ′=(δ′,D′,O′)。模型參數的訓練優化流程如下。
(1)變量導入與融合為式(5)。
μt(i,j)=W(wt=Bi,wt+1=Bj|G,δ)=
(5)
式中,μt(i,j)表示在t時間段心理狀態Bi變成Bj的概率;φt(i)、φt(j)分別是心理狀態的前向變量與后向變量;t+1時間段中,心理狀態預測序列是Gt+1;wt、wt+1是t時刻、t+1時刻的心理狀態;ξij、ζj是心理健康狀態的觀察概率矩陣、狀態轉移概率矩陣。如式(6)。

(6)
式中,ρt(i,j)是隱馬爾科夫模型θ和心理障礙觀察序列W里,t時間段心理狀態是Bi的概率。
融合成式(7)。
(7)
式中,T代表時間。
(2)心理健康觀察值概率分布的優化如式(8)。
(8)
式中,Gt是t時間段心理狀態觀察序列。
(3)心理狀態概率分布的優化方法如式(9)。
(9)
1.2.3 心理障礙預測
心理障礙預測步驟如下。
(1)t=1時,心理狀態局部概率o1(j)為式(10)。
(10)
(2)t>1時,心理狀態局部概率為式(11)。
oi+1(j)=maxi{oj(k)ot-1(i)ξij}
(11)
根據心理狀態局部概率o1(j)便可實現心理障礙預測。
在Eclipse平臺中,使用Java語言構建本文模型。在測試本文模型應用效果時,測試數據是某大學的大學生心理健康教育和咨詢部門兩年內學生的心理狀態歷史記錄,隨機提取5 000條。按照本文模型的設置,使用隱狀態集合與可觀察序列集合對心理狀態歷史數據實施預測,獲取預測符號相應隱狀態的記錄。將預處理后心理狀態歷史數據細分為訓練數據與測試數據,依次用在模型訓練與預測環節中。
使用本文模型預測該校大學生心理障礙時,所提取有價值數據主要分為父母教養模式、重大變故、競爭就業難、教工素質和人際關系5種。此5種數據可作為心理障礙預測的核心要素。精確率能夠判斷模型對心理狀態預測時,核心要素提取結果的精確度τ1的計算方法為式(12)。
(12)
召回率屬于樣本集里被成功提取的信息比率,召回率τ2計算方法為式(13)。
(13)
其中,hq、gq分別是真陽值、假陽值;gm是真陰值。
在使用本文模型預測該校大學生心理障礙時,對心理障礙預測所用核心要素提取的精確率、召回率如圖2所示。由圖2可知,使用本文模型預測該校大學生心理障礙時,對父母教養模式、重大變故、競爭就業難、教工素質和人際關系5種核心要素提取效果較好。分析圖2(a)可知,對5種核心要素的提取精確率高達0.98,由圖2(b)可知,召回率的最大值為0.98,均接近于1,表示本文模型對該校大學生心理狀態預測時,核心要素提取結果的精確度、召回率均滿足應用需求。

(a)精確率測試結果
提取核心預測要素后,該校大學生心理障礙的實際情況如圖3所示。
測試本文模型在預測該校大學生心理障礙時,對該校大學生心理障礙的預測結果同圖3實際結果間的偏差情況,測試本文方法的預測性能,MSE、MAE的測試結果如圖4所示。由圖4可知,本文模型對該校大學生心理健康、心理亞健康和心理障礙三類人群的預測性能顯著。分析圖4(a)可知,對三類人群預測的均方誤差最高為0.019,由圖4(b)可知,平均絕對誤差小于0.02。由此驗證,本文模型可準確預測該校大學生心理障礙。

圖3 實際情況

(a)均方誤差
選擇以文獻[3]和文獻[4]的模型作為對比模型,測試3種模型在不同樣本數量下,大學生心理障礙預測的預測精度如表1所示。由表1可知,3種模型對比之下,本文模型預測結果和實際心理障礙人數具有1人之差,基于文本情感特征的心理評估模型、基于速度與準確率權衡的心理測量學模型預測結果和實際心理障礙人數存在多個偏差,預測偏差高于本文模型。對比之下,本文模型應用價值最高。

表1 3種模型預測性能對比結果
為了處理心理障礙預測問題,通過參與者心理狀態預測的歷史數據,構建基于歷史驅動數據的心理障礙預測模型。相對于其他模型,該模型能夠在參與者心理狀態預測的歷史數據中提取有價值數據,去除冗余信息數據,這對本文模型的預測性能存在積極作用。研究結果表明,本文模型預測某校大學生心理障礙時,對父母教養模式、重大變故、競爭就業難、教工素質和人際關系5種核心要素提取效果較好;對心理健康、心理亞健康和心理障礙三類人群的預測性能顯著;與基于文本情感特征的心理評估模型、基于速度與準確率權衡的心理測量學模型相比,本文模型預測精度最高。