楊鑫城,呂孝梅,展恩德,劉慶海
(青島理工大學機械與電子工程系,山東臨沂 276000)
抑郁癥是一種常見的精神類疾病。WHO 預測,截至2030年,抑郁癥將成為全球疾病負擔第一位的疾病。而根據《柳葉刀》期刊上發表的題目為《Global prevalence and burden of depressive and anxiety disorders in 204 countries and territories in 2020 due to COVID-19 pandemic》的研究顯示,全球范圍內重度抑郁癥增加了28%。根據Meta的研究顯示,當代中國大學生抑郁癥(或者抑郁情緒)的患病發生率為30.39%。對于經歷過疫情的當代的大學生來說,不斷地接受各種復雜的負面消息,且在自我辨別能力不足、心智發育尚未健全的情況下,很容易被負面情緒所影響,因此產生低落沮喪的抑郁情緒[1-2]。
本研究通過所設計的抑郁度分析系統分析抑郁癥患者臉部表情以及肢體行為的變化與抑郁癥之間的對應函數關系,進而達到通過人臉識別以及肢體動作判斷是否患有抑郁癥。并且評估深度學習模型在識別抑郁癥表現方面的效用,為深度學習算法更好地應用于抑郁癥的檢測以及診斷提供強有力的理論依據。
本項目使用Python語言[3-4]基于MTCNN主要包括兩大部分:人臉表情識別以及肢體運動信息識別,本系統首先會在一個周期內,完成不同角度的人臉圖像的獲取以及肢體運動信息數據的采集。然后將捕捉到的人臉圖像以及采集到的肢體運動信息進行數據處理,隨后通過決策網絡判斷此次數據當中是否含有可以利用的人臉數據并進行進一步的處理。在得到被檢測人員的面部數據特征之后,與肢體運動的數據信息進行融合,形成綜合特征數據信息。
在面部特征數據提取期間,眼部特征檢測模塊會提前對被檢測人員的眼部圖像進行單獨的提取,并優于人臉圖像輸入模型中用以說謊判斷。
最后,通過表情識別網絡對得到的綜合數據進行分析處理,并根據分析處理結果判斷屬于哪一種程度的抑郁癥,并通過顯示器給出相應的警告。
肢體運動信息的檢測[5]部分從肢體的時間序列特征、動作位移、動作數據幀數以及頻率方面進行。肢體運動信息的時間序列特征主要表現在,當被檢測人的情緒有很明顯的變化之后,人體的骨架關節點會比變化之前有著明顯的位移情況;肢體動作位移的變化,主要是根據收集到的特征數據計算出一個周期T內總的位移量以及平均速度。然后將情緒變化前后的位移與平均速度進行對比。將位移總量記為S,則計算方法由式(1)所示。
平均速度記為Vp,也可由t、x 以及n(周期個數計算)計算方法由式(2)所示。
本項目對肢體信息的采集使用Kinect 設備。Kinect是一種基于深度傳感器的肢體動作識別設備,主要的原理是在深度圖像中快速準確地推測出身體各個關節骨架關鍵部位的空間位置。
人臉識別檢測主要包括面部特征數據提取網絡[6]和表情識別網絡[7]。
在面部圖像獲得的過程中,要對圖像進行面部檢測、關鍵點定位和面部關鍵子區域的劃分。面部檢測是用于確定所捕獲的圖像中是否存在著人臉圖像數據,關鍵點定位是為了確定所要劃分的關鍵區域的位置并根據關鍵點劃分出面部的三個關鍵子區域。查閱相關資料發現,在表情識別中,有效識別區域是左眼區、右眼區和嘴部區。本項目對三個子區域劃分進行了邊緣擴大化,分別為左右眼區域包含眉毛區域、嘴部區域包含鼻子部分。
面部特征數據的提取首先要按照特定方式選取的三幀圖像FL、FM、FR輸入定位層網絡中進行處理。處理完畢后,對FL、FM、FR 圖像進行標記,然后輸入多維特征提取卷積網絡中。隨后,多維特征提取卷積網絡根據輸入進來的數據前綴分類,送入相應的處理模塊進行分析,最后將三個不同維度的面部數據進行特征融合,形成最后的面部數據特征。
本項目面部識別借鑒多任務級聯卷積神經網絡(Multi-task Cascaded Convolutional Networks,MTCNN),并對其進行整改。在MTCNN 的基礎上本項目增加“時空特征提取模塊”,提取這些面部特征數據中包含的時間、空間等維度的特征數據,形成多維度的綜合數據。時空特征提取模塊[8]采用的是一個3×3的卷積核和兩個殘差模塊串聯而成,并且采用擴大卷積核的方式,針對捕獲的被檢測者人臉圖像中的時間和空間數據進行分析提取。面部數據提取過程中,對于圖像處理使用的是“滑動劃分”。即在分塊處理的時,使用固定大小的窗口(d×d)設定滑動步長(s),然后逐步滑動的方式對人臉圖像進行滑動選取。
表情識別網絡由兩個卷積層、兩個池化層和一個softmax分類器組成。卷積和池化的通道數分別是128和256,卷積核是3×3,步長為1×1。softmax 分類器可以實現多任務進行分類,這里需要的是三分類任務,即正常、輕度抑郁和重度抑郁三種。
被檢測人的面部數據對于本項目的檢測至關重要,因此被截取的人臉圖像分辨率不能太低。但在一般的人臉識別網絡中所使用的圖像金字塔,將minsize設置為一個固定的數值,使得圖片清晰度較低,導致最后的結果出現誤差。因此本項目使用的是“可變的minsize圖像金字塔”。
可變minsize 圖像金字塔[9],即在被檢測的圖像輸入到卷積網絡之前,先獲取圖像的寬度(w)和高度(h),并由w和h確定s的值,具體由式(3)所示。
然后根據s的值,結合對應的函數關系f(x)最終確定適合本次變化的minszie 的值。并且其可以根據輸入的圖像的大小,動態地指定本模型中可以識別的最小人臉,從而減少迭代的次數,提高系統整體的運算速度。
決策網[9]主要是為了解決面部遮擋對檢測結果產生的影響,剔除遮擋比例較高的區域,保留遮擋比例較小的區域,最大程度地關注非遮擋區域,提高系統檢測的準確率。假設將決策網的判斷結構記為ηi(表示第i個區域的判定結果),則ηi由式(4)所示。
δ(·)是決策網中的一個基于分類函數的操作,其表達式如式(5)所示。
其中Ob表示關鍵區域的遮擋比例,β表示提前設定的遮擋比例的閥值。當Ob大于固定的閾值時置δ(·) = 1,此時不會丟棄圖像,反之丟棄。
眼部特征提取模塊基于循環神經網絡[10](Gated Recurrent Unit,GRU)設計,通過對周期內眼部主要信息進行獲取、對比、分析、分類,然后基于檢測的眼部的特征數據,判斷是否有說謊的行為。在查閱相關資料后,本項目檢測從:眼部的注視、瞳孔變化以及眨眼這三個方面進行。
GRU網絡是一種基于門控制的循環神經網絡,它可以直接對前一層進行記憶控制,并且參數相對較少,運行速度更快,對短距離記憶效果更好,更容易捕捉眼部細微的表情變化。GRU中的更新門,幫助模型決定將多少過去的信息傳遞到未來,或者決定有多少信息需要繼續傳遞的。GRU 中重置門的作用是決定當前時刻的候選狀態是否需要依賴上一時刻的網絡狀態以及需要依賴多少。
本系統首先由攝像頭及根據可穿戴設備實時捕捉人臉信息以及肢體信息,作為抑郁度分析的基礎數據。在捕捉被檢測者的圖像信息和實時收集數據的同時,也會有實時反饋,用以監督網絡是否運行通暢以及實現檢測的可視化操作,如圖1所示。

圖1 實時顯示
接下來,由“可變minsize金字塔”將捕捉到的人臉圖片進行縮放,然后輸入到定位層網絡。隨后進入時空提取模塊。在此模塊中,會對于三個角度的圖像進行更加細致地提取,以更好地保留微小的面部特征數據,最后完成多維的特征提取后,按照一定的融合方式,將多維數據進行特征融合。與此同時,實時收集到的肢體運動信息會在特征提取網絡中,進行肢體的時間序列、關節點的時空位移以及運動幀數以及頻率的提取,完成特征提取后,與面部數據特征進行不同形態的特征融合。
特別注意,經過相關研究發現,面部識別的準確度、效率等高于肢體識別,又鑒于真實的實驗中,面部識別檢測得準確更精確,因此在進行特征融合時,我們采用的是加權的方式。(加權的方式,就是根據不同的檢測結果的可靠程度,在特征融合時,乘以其不同的權重比例,以達到檢測結果更加精確的目的)。
將融合后的特征向量特征輸入到表情識別網絡,經過進一步的卷積池化,使得數據的特征更加明顯,然后經過softmax 分類器的分類,得到最終的檢測結果,如圖2所示。

圖2 最終顯示結果
本文基于肢體行為檢測和人臉識別的基礎上,對抑郁癥的識別分析進行了相關的研究。完成了本文既定的檢測目標,達到了預期效果。主要的研究內容包括:以MTCNN 為主題進行人臉識別檢測并且使用Kinect設備對肢體信息進行采集;采用可變minsize圖像金字塔解決圖像清晰度問題并提高模型的檢測效率;將決策網絡加入模型中用以篩選符合要求的圖像;增加測謊模塊用以減少主觀因素對檢測結果的影響;引入時空特征提取模塊用以檢測圖像中包含的時間與空間信息,最后通過識別網絡進行分類處理以完成抑郁癥的分析檢測。
在研究的過程中,尚存在一定的不足,比如對MTCNN 模型的熟悉度不高,在模型設計的過程中對抑郁癥的認知不足,導致在模塊設計中沒有與實際情況相結合造成部分功能實現較為困難等。接下來,本項目將深入地了解抑郁癥的相關知識,逐漸完善系統功能,并且進一步提高模型的檢測準確度以及檢測效率,爭取能夠在抑郁癥分析中更進一步。