聶 敏,羅煒敏,鄧 輝,王 偉,夏 虎,周 濤
(電子科技大學大數據研究中心 成都 611731)
根據世界衛生組織最新統計,心理健康問題是極端事件(如自殺)發生的主要原因之一[1-3]。在我國高校,由于學生心理健康問題所引發的殺人、自殺等極端事件也時有發生,給社會、高校和家庭造成了極大的傷害。因此,高校學生心理健康問題是一個極其重要的研究課題[4-8]。高校學生心理健康研究既有傳統的基于小規模問卷、量表或實驗數據的,也有最近利用大數據技術和理念對大范圍樣本進行分析的。
在小規模數據分析時候,學者們分析了導致學生心理健康的主要原因,包括家庭因素(如父母離異、家庭暴力、貧困等)、學業壓力(如同學關系不融洽、學習成績差、學習動機不良等)和社會因素等[9]。文獻[10]探討了不同強度體育鍛煉對提升高校學生心理健康和心理韌性的效果,通過分析武漢職業技術學院1 546 名大一學生,發現中等強度的體育鍛煉可有效提升高校學生心理健康和心理韌性。文獻[11]在全國8 所重點高校開展了“農村和貧困地區專項招生計劃學生成長與發展調查”,并從大學經濟生活、學業表現、綜合表現、心理健康與就學滿意度等方面,探討農村和貧困地區專項招生計劃學生的發展。研究發現,專項計劃學生經濟生活拮據,但綜合表現良好,且心理健康處于正常水平。文獻[12]基于威廉·鄧恩公共政策評估標準,在北京市10 所不同類型高校部分本科畢業生中進行了問卷調查,提出了高校家庭經濟困難學生資助政策評估標準體系框架,特別強調了要關注政策實施效果中對于孩子心理健康成長的影響。
在大數據時代,人們的日常行為被記錄下來,形成了海量的數據,為更加深入地分析心理健康提供了可能,也帶來了新的挑戰[13]。在高校,一卡通記錄了學生食堂刷卡、圖書館進出、圖書借閱等信息,為分析學生在校行為軌跡提供了便利。文獻[14-15]使用匿名校園卡數據,發現學生的生活越規律,學習成績越好。文獻[16-17]分別基于165 名新媽媽的健康數據和她們在Facebook 上分享的內容,以及476 名抑郁癥患者的體檢數據和他們發病前一年的Twitter 內容[17],建立了機器學習模型,通過社交媒體數據預測產后抑郁癥和抑郁癥,后者預測的精度可以達到70%。基于微博文本[18]和Instagram照片[19]的研究也被證明可以利用機器學習方法以較高精度識別早期抑郁癥患者。文獻[4]基于多任務回歸和增量回歸算法,系統地分析了新浪微博用戶,并用于預測五大人格。他們發現,新浪微博用戶文本信息與人格特性存在很強的關聯性。文獻[6]構建了主題矩陣,并利用一種無監督方法對用戶的文本進行特征提取,從而能夠預測新浪微博的用戶是否存在自殺傾向。
受最近教育大數據[14-15]和計算社會經濟學[20-22]方法論的啟發,本文擬通過分析非受控條件下學生的行為數據,挖掘學生心理健康問題,特別是抑郁癥狀和學生社交行為之間的關系。本文基于高校學生匿名食堂刷卡數據來構建社交網絡,并利用《SCL-90 測評量表》測評結果刻畫學生的抑郁癥狀發生水平。分析發現無明顯抑郁癥狀的學生更傾向于與不同的同學共餐(推斷社交活躍性更高);有明顯抑郁癥狀的學生則更傾向于單獨用餐(推斷社會活躍性較低)。
為了量化高校大學生心理健康情況對其在校社交關系影響,本文采集了某高校4 955 名新生數據,包括《SCL-90 測評量表》(下面簡稱為“SCL-90 表”)和從2018 年8 月21 日-2018 年10 月31 日的食堂刷卡數據。所有數據均通過匿名化處理,無法辨識任何指定學生,僅能用于統計分析得到一些宏觀統計特性。SCL-90 表由Derogatis在1975 年編制,旨在從感覺、情感、思維、意識、行為、生活習慣、人際關系、飲食睡眠等多層面來綜合衡量人的心理健康情況,量化了多項和抑郁相關的測試指標,包括軀體化、強迫癥狀、人際關系敏感、抑郁、焦慮、敵對、恐怖、偏執、精神病性等。根據答題者的回答,對其出現抑郁癥狀的程度進行評分,分值從1~5 分,分別表示“沒有”、“很輕”、“中度”、“偏重”、“嚴重”5 種不同程度。答題者整體得分范圍為[13,65]。根據不同分值,答題者可分為5 類:沒有(無該項癥狀)、輕度(有癥狀但不頻繁)、中等(有癥狀且較頻繁)、偏重(有癥狀且嚴重)、嚴重(有癥狀且十分嚴重)。本文僅將測試者分為兩類:沒有和輕度的分為一類,分值為[13,26],后文記為“無明顯抑郁癥狀者”,簡稱“無”;中等、偏重和嚴重的分為一類,分值為[27,65],后文記為“有明顯抑郁癥狀者”,簡稱“有”。
對4 955 名學生數據進行了分析,其中男生有3 879 人,女生有1 076 人。年齡最小值16.1 歲(截至2018 年10 月1 日),最大值25.1 歲,平均值18.5歲,中位值18.4 歲,分布如圖1a 所示。進一步分析了性別對心理健康的影響,如圖1b 所示,且通過t-test 發現有明顯抑郁癥狀的學生比例對性別不敏感,也就是說男生和女生出現抑郁問題的可能性是差不多的。

圖1 學生樣本的基本統計信息
食堂共餐是高校學生常見的行為,在一定程度上能反映學生在校的社交行為。因此,本文通過學生食堂刷卡數據來構建社交網絡。用圖G(V,E)來表示社交網絡,其中V 表示節點集合,E 表示連邊集合。節點用于表示學生,連邊表示學生之間的社交關系。本文推斷兩位學生之間存在一條連邊需要同時滿足以下3 個條件:1) 他們同時在一個刷卡機刷卡消費;2) 他們消費時間間隔小于2 min;3) 他們在整個觀測時間內(2018 年8 月21 日-2018 年10 月31 日)同時滿足條件(1)和條件(2)的次數大于閾值T。
不同閾值會影響每個學生在社會網絡中的平均度。在T=0,1,2,3,4,5 的情況下,平均度的取值分別為423.24, 64.06, 13.85, 7.20, 5.70, 3.88,故本文選取T=4,這時候網絡的連接密度比較適中,同時還能保證網絡的連通性。圖2 是網絡的可視化表示,其中無抑郁同學用空心表示,有抑郁同學用實心表示,節點越大則表示它的度越大。

圖2 學生社交網絡的可視化表示
本文比較了在閾值T=4 的前提下推斷得到學生社交網絡度分布情況,如圖3 所示。其中橫坐標k 表示度,縱坐標p(k)表示分布函數。從圖中可以發現,不論學生的抑郁程度,大多數同學只與少數同學共餐,但有一部分同學與很多同學用餐。整體分布形式表現出廣延至指數分布(stretched exponential distribution)的特點[23],介于指數分布和冪律分布之間,一方面說明社交網絡天然具有胖尾分布的特點(廣延指數分布也是一種胖尾分布),因為不同個體的社交活躍度差別很大,另一方面說明在線下的社交關系中很難形成冪律分布,因為要付出的成本遠大于線上社交關系。特別地,本文注意到無抑郁的學生度分布比有抑郁的學生更廣,且無抑郁的學生平均度(7.73)顯著高于有抑郁的學生(4.60),暗示有抑郁的學生社交活躍度要低于無抑郁的學生。

圖3 學生社交網絡的度分布
通過4 995 名高校學生刷卡數據及《SCL-90 測評量表》測試數據,本文分析了心理健康情況對高校學生社交網絡結構的影響,發現無抑郁學生度分布更廣,平均度更高,意味著他們更擅長社交。本文的研究結論有助于了解有明顯抑郁癥狀學生的行為特點,且提供了一種通過分析社交行為發現學生潛在心理健康問題的手段。
致謝:感謝電子科技大學李媛教授對本文提出的寶貴意見。