許新剛,趙 燕
(徐州工業職業技術學院 信息工程學院,江蘇 徐州 221140)
新型冠狀病毒感染疫情是一次全球性的事件,給在校高職大學生的學習、生活環境帶來了很多的影響:居家網課、在校網課、隨疫情變化的線上線下交替的新學習模式給學習帶來了不適;封控隔離、出行不便等影響了學生的交際范圍;病毒的變異和傳染力的提升增加了對疫情的恐慌[1-4]。環境的急劇改變給入世尚淺的高職大學生的心理帶來了壓力。學生出現了焦慮、煩躁、易怒等負面情緒,生理上出現失眠、出汗、緊張等現象,學習過程中出現了上課不集中、記憶力下降等認知下降問題。及時了解疫情防控期間高職大學生的心理壓力狀態,制定合理的對策給予有效的干預釋放壓力,這對高職大學生的成長非常重要。
問卷調查是心理工作中獲取統計資料的重要手段,既可以收集簡單的人口統計信息,也可以獲取體驗、情感等復雜信息,通過描述性統計分析和推斷性統計分析,從少量樣本數據的研究得到一般性推論[5-9]。本項目采用問卷調查的方式獲取疫情防控期間高職大學生的心理狀態資料,研究不同心理壓力狀態下學習心理特征和心理調適的效果,為學校心理工作的開展提供決策依據。基于心理狀態數據做交叉分析可以了解疫情防控期間學生在壓力下的表現現狀和產生問題的原因。為了掌握學生的心理壓力狀態,在問卷中設計了學生的心理狀態自我評價的單選題,但部分學生因自我認識不精確等原因而在自評時未選擇真實的答案,導致自評數據與學生的真實心理狀況出現較大差異。當心理壓力大時,學生會在生理、情緒、認知、行為等方面表現出一定的異常,通過對多維外在表現指標的綜合分析能更真實地了解學生心理壓力的狀態。因此,問卷還設計了多個與心理壓力相關的外在表現題目,如疫情防控期間的交往需求變化、飲食狀況、體重變化、睡眠等。
根據學生在疫情防控期間的多個方面的外在表現數據對學生的心理壓力進行測算,并按嚴重程度進行分組,屬于廣義上的分類問題,可以采用分類或者聚類算法[10-14]。但由于沒有受調查者真實的心理壓力數據作為訓練依據,無法通過調查問卷數據建立好的分類模型來對抽樣數據進行分類,分類算法無法應用于當前研究。因此,引入了無監督學習中的K-means聚類算法對調查數據進行分析挖掘,對被調查者按心理狀態進行分群,提高研究的準確性。
采用整群抽樣的方法,在徐州工業職業技術學院、江蘇建筑職業技術學院、江蘇安全技術職業學院、徐州幼兒師范高等專科學校、江蘇省徐州技師學院5所職業院校的部分班級學生中開展問卷調查。共收回4 523份問卷,剔除不合格問卷20份,問卷有效率99.56%。其中,男生2 244人,女生2 259人。按年級統計,一年級學生1 350人,二年級學生1 606人,三年級學生1 547人。
調查方式采用自編的調查問卷,在問卷星網絡調查平臺發布問卷,通過二維碼的形式發給學生填寫。問卷內容主要包括:(1)一般情況調查,主要是學生的基本信息,如性別、年級、是否獨生子女、身體健康狀態、作息規律等;(2)新冠疫情帶來的心理壓力;(3)新冠疫情防控期間學習心理和學習狀態;(4)疫情防控期間的心理自我調適和干預情況。問卷共設計了多選題10道,單選題37道,單選題包括有序選項和無序選項兩類,問卷采集的數據均為定性數據。
問卷對被調查學生的健康狀況進行了自評調查,非常健康的學生比例為62.11%,比較健康的學生比例為34.53%,絕大部分學生的健康狀況是良好的。疫情的長期存在給學生的心理帶來了一定的影響,70.97%的學生表示有影響,其中9.06%的學生表示影響較大。新冠疫情傳染力強、破壞力大,被調查學生中有近30%的學生表示對于新冠疫情具有恐懼心理,男生、女生在對疫情的恐懼心理方面有差異,對疫情有恐懼心理的學生中女生的比例更高,如表1所示。

表1 對新冠疫情恐懼心理調查數據分析
新冠疫情給43%的被調查學生帶來了心理壓力,其中4%的學生感受到壓力比較大;男生和女生的心理壓力狀況存在差異,男生心理壓力較大的占比更高,如表2所示。由于疫情封控的影響,45.53%的學生表示疫情造成了社會交往的短缺,56.58%的被調查學生表示疫情防控期間存在沉迷網絡、生活不規律的問題,如圖1所示。

圖1 疫情帶來的影響

表2 新冠疫情帶來的心理壓力程度調查數據分析
聚類是一種無監督分類方法,在沒有給定劃分類別的情況下,根據數據間的某種相似度將數據對象歸并到不同的簇。與分類算法不同,聚類算法不需要事先擁有具有類別標記的訓練樣本就可以對數據對象進行分組。疫情防控期間學生心理健康的調查采用網絡匿名的方式進行,沒有開展實名求證調查,所有學生的心理健康狀況是未知的,建立分類模型較困難。采用分類算法研究學生不同心理健康狀況下的行為、心理壓力特征是個難題,而聚類算法恰好可以解決這個難題。聚類算法有很多種,常用的有劃分類算法、層次聚類、基于密度的聚類算法、基于模型的聚類算法等。K-means算法是典型的基于距離的聚類算法,將具有n個數據的數據集dataSet={X1,X2,X3,…,Xn},根據樣本間的距離大小劃分為k個簇。算法流程如下:
最后是用典手法的使用。此處的典故使用主要還在“先天下/后天下/黃金屋/顏如玉”一句上,具體分析見上文。另一處并不很明顯,主要是通過提取“沽”和“酒”二字反應,此處當是“沽酒當壚”之典故的運用。運用卓文君、司馬相如當街賣酒的典故可以說是具有反諷味道的,更顯現出秀才的逃避與對妻子的不公。
(1)數據集成,將各種類型數據轉變成可以挖掘的數值型數據,每個點的數據是由多個屬性變量組成的向量Xi=[xi1,xi2,…,xij,…,xim]。
(2)創建k個空簇,從數據集中隨機找k個數據E1,E2,…,Ek作為這些簇的初始質心。
(3)分別計算每一個數據Xi與k個質心的距離,找到距離該數據最近的質心,將該數據劃分到這個質心對應的簇中。
(4)分簇結束后,比較前后兩次獲得的分簇結果:若結果一樣或者達到預設的最大迭代次數,則終止計算。若結果不一樣,計算每個簇中所有點的均值作為新的質心,重復3~4步驟直至滿足迭代截止條件。
K-means算法以距離作為相似度指標,常用的距離有歐幾里得距離、曼哈頓距離和切比雪夫距離等。其中,歐式距離是常用的指標,假設有n個樣本數據,每個數據有m個屬性,樣本數據是一個n×m矩陣。則其中兩個點Xi和Xj間的歐式距離為:
(1)
迭代截止條件采用距離的誤差平方和SSE:
(2)
當誤差平方和不變時,迭代計算截止,獲得了本次聚類的最優解。同時,也可以用SSE衡量不同聚類結果的優劣,多個聚類結果中選擇SSE較小的一個。
K-means算法以距離作為相似度指標進行分類,迭代結果收斂于局部最小值,同時聚類的結果與初始質心的隨機選擇相關,不同的初始質心得到的結果可能不同。為了克服經典K-means算法這些缺點,二分K-means算法被提出,該算法最初是將所有數據初始化為一個簇。首先將初始化的簇分裂為兩個簇,計算這兩個簇的SSE指標,將SSE指標較大的一個簇再次分為兩個簇,依次繼續直到滿足迭代終止條件。二分K-means算法的流程如下。
(1)將所有數據劃分在一個簇內。
(3)計算兩個新簇的誤差平方和,從已有簇中選擇SSE最大的簇作為指定簇。
(4)重復2~3步驟,直到簇的數目等于預先給定的K值。
學生的心理狀態常常會通過行為、情緒、生理狀況等多方面表現出來,通過這些因素的綜合分析可以對學生的心理健康狀態進行分級。為了達到該目的,從學生的生理狀態、情緒、社交等指標入手,在調查問卷設計了8個單選項目,這8個項目的問題與心理健康呈反向關系。設置的問題如:“新冠疫情防控期間,你是否感到疲倦?”,答案選項均為“(a)沒有;(b)偶爾;(c)經常;(d)嚴重”。
對這8個項目的調查數據進行頻數統計,統計結果展示在表3中。從頻數統計結果可以看出,每項指標中絕大部分被調查學生的表現是正常的,出現異常的學生數量均較小。頻數統計結果只能反映單指標的調查結果,未考慮多指標間的相關性,無法做多指標綜合分析。也就是統計表只粗略地反映出各個指標下學生心理壓力的外在表現現狀,各指標正常狀態數據的高占比能推斷出被調查學生大部分心理健康。但反過來,各項指標中的少量異常數據不能斷定學生存在著嚴重心理問題,只有具體某個人出現了多個指標均出現異常情況下才能推斷其心理存在問題。希望在沒有學生心理健康檔案的情況下,從眾多調查數據中找出潛在的心理健康存在問題的樣本。因此,文章引入二分K均值聚類算法,利用多指標對學生心理健康狀態進行分群研究。

表3 高職大學生心理健康狀況調查統計 單位:人

表4 定性數據轉換編碼
K均值聚類算法通過計算數據之間的距離實現分類,要求輸入為數值型數據,而本次問卷調查收集到的數據均為定性描述性的數據,在使用聚類進行挖掘之前必須對數據進行編碼處理,以適應聚類計算機程序處理要求。在采用二分K均值建模時,將提取的8個項目數據按嚴重程度賦予不同的分值轉換為數值型數據:“沒有”“偶爾”“經常”“嚴重”分別用0、1、2、3代替,將定性描述數據轉換為數值型數據,每個被調查學生的數據由8個取值范圍0~3間的整數組成,如某個同學的8個指標數據轉換為[1,0,0,1,1,0,0,0],根據非零數據對應的指標進行解譯就是該學生偶爾感到疲倦、交往需求減弱、注意力不集中,其他指標正常。
根據以上8個項目指標將學生分為4個群組,分別與心理非常健康、一般健康、亞健康、心理壓力大四種狀況相對應的。因此,首先設k=4,利用Python語言編寫的二分K均值聚類分析程序對被調查學生進行聚類分組,經過3次分裂后,輸出最終的各簇質心坐標和分類結果。表5為4個簇的質心坐標,這些數據是數學運算的結果,是實數,若要其具有實際意義,必須將其取整。將質心坐標四舍五入取整。

表5 k=4,二分K均值聚類各簇的質心坐標
(1)簇1的質心坐標為[0,0,0,0,0,0,0,0],說明被調查學生均未出現8個負性指標描述的異常狀況,心理非常健康。
(2)簇2的質心坐標為[1,0,0,0,0,0,0,0],被調查學生除了偶爾感到疲倦外,均沒有其他7個指標描述的狀況,心理健康情況較好。
(3)簇3的質心指標為[1,0,1,1,1,1,1,1],被調查者除了沒有自殺傾向外,其他7個指標描述的狀況偶爾都會出現,說明心理健康情況存在輕微問題。
(4)簇4的質心指標為[2,1,1,2,2,2,2,2],被調查對象經常會出現指標描述的異常情況,心理壓力較大。
對聚類結果進行統計,歸于簇1~4的數據分別有2 799、803、740、161組,占比分別為62%、18%、16%、4%。從聚類結果看,80%的被調查學生的心理健康狀況較好,16%的學生的心理健康存在輕微問題,需要給予一定的關注。而對于簇4中出現的被調查者,8個負性指標描述的異常狀況在他們身上經常出現,說明他們的心理壓力較大,對于這些同學要給予重點關注,給予必要的心理危機干預,使其向良性轉變。
對k=4時的聚類結果進行分析,其中簇1和簇2在8個負性指標方面的差異較小,僅在“感到疲倦”這一個指標出現少量的差異,將其歸為一類更合理。據此將簇數k設為3,再次進行聚類分析,獲得的各簇質心坐標如表6所示,簇1、2、3分別對應心理健康、亞健康、心理壓力大。對聚類結果進行統計,簇1、2、3分別有3 602、740、161組數據,占比為79.99%、16.43%、3.58%,與k=4的聚類統計結果較為吻合。基于以上8個指標的調查數據聚類分析,簇數3是最佳的。

表6 k=3,二分K均值聚類各簇的質心坐標
將k=3聚類結果與學生對疫情是否帶來壓力的自我評價結果進行比較,從中可以發現部分學生的自評結論和其外在表現存在一致性問題。表7中展示了部分調查數據,A~H 8個指標和自評結果都反映疫情防控期間學生心理壓力程度,對其一致性進行檢查:34號問卷的學生自評沒有壓力,但是從8個指標上看其經常感到疲倦、交往需求減弱和嚴重的無助感,其他指標也偶爾發生,從這些表現看其不可能沒有心理壓力。386號問卷的學生中8個負性指標均屬于比較嚴重級別,但自我評價是沒有壓力。3325、3696號問卷學生除了偶爾疲倦這一指標外,其余均是“沒有”,從8個指標的外在表現推斷心理壓力應該極小,但其自評卻是“壓力較大”,自我評價結果的可信性存疑。

表7 調查數據一致性分析(部分)
基于k=3的聚類分析結果,將被調查者分為3個群,分別對應心理健康、亞健康、心理壓力大。基于學生自我評價的心理壓力分組和聚類分組結果,研究不同心理壓力狀態的學生的作息規律特點。表8為作息規律-心理壓力(自評)進行交叉分析的結果,從表中可以看出心理壓力較大的學生組中作息規律“完全不規律”和“不怎么規律”的總占比為20.20%,有一些壓力的學生組中這兩項占比為19.45%,沒有壓力的學生組中占比為10.17%。作息不規律(包含“完全不規律”和“不怎么規律”)和作息規律(包含“非常有規律”和“比較有規律”)人群的心理壓力特征有顯著差別(p<0.05):壓力較大人群中生活不規律者的占比(20.20%)要高于平均水平(14.24%)。

表8 作息規律-心理壓力(自評)交叉分析
表9為作息規律-心理壓力(聚類)交叉分析結果。從表中可以看出心理壓力較大的學生組中作息規律“完全不規律”和“不怎么規律”的總占比為52.17%,亞健康的學生組中這兩項占比為26.08%,沒有壓力的學生組中占比為10.11%。作息不規律(包含“完全不規律”和“不怎么規律”)和作息規律(包含“非常有規律”和“比較有規律”)人群的心理壓力特征有顯著差別(p<0.05):壓力較大人群中生活不規律者的占比(52.17%)要高于平均水平(14.24%)。

表9 作息規律-心理壓力(聚類)交叉分析
從二者的分析結果可以看出,生活規律者和不規律者的心理壓力狀態均具有顯著的差異,即心理壓力較大人群中生活不規律的占比要高于心理壓力較小人群。但通過聚類算法得到的群組中,心理壓力較大人群中存在生活不規律現象要遠高于自評分組。生活不規律者中心理壓力大占比更高的結論更符合實際,可見聚類分組效果更好。
針對學生對于自己心理壓力的自我評價主觀性太強導致問卷調查統計結果出現偏差問題,文章提出了基于K-means聚類算法的多維指標綜合分類方法。通過疫情防控期間高職大學生心理調查實證研究,本研究對比了基于自評和聚類分組下的統計結果。對比結果表明,基于聚類算法的多維指標綜合分析采用了更多的客觀數據對心理壓力狀態進行推斷,得出的學生心理壓力狀態較學生自我評價更客觀、準確度高。研究結果證明了基于K-means聚類算法的多維指標綜合分類方法在此項目中的應用是可行的、有效的。