融合肢體行為和人臉識別的抑郁度分析

2023-12-02 09:25:04楊鑫城呂孝梅展恩德劉慶海

電腦知識與技術 2023年29期

楊鑫城，呂孝梅，展恩德，劉慶海

（青島理工大學機械與電子工程系，山東臨沂 276000)

0 引言

抑郁癥是一種常見的精神類疾病。WHO 預測，截至2030年，抑郁癥將成為全球疾病負擔第一位的疾病。而根據(jù)《柳葉刀》期刊上發(fā)表的題目為《Global prevalence and burden of depressive and anxiety disorders in 204 countries and territories in 2020 due to COVID-19 pandemic》的研究顯示，全球范圍內(nèi)重度抑郁癥增加了28%。根據(jù)Meta的研究顯示，當代中國大學生抑郁癥（或者抑郁情緒）的患病發(fā)生率為30.39%。對于經(jīng)歷過疫情的當代的大學生來說，不斷地接受各種復雜的負面消息，且在自我辨別能力不足、心智發(fā)育尚未健全的情況下，很容易被負面情緒所影響，因此產(chǎn)生低落沮喪的抑郁情緒[1-2]。

本研究通過所設計的抑郁度分析系統(tǒng)分析抑郁癥患者臉部表情以及肢體行為的變化與抑郁癥之間的對應函數(shù)關系，進而達到通過人臉識別以及肢體動作判斷是否患有抑郁癥。并且評估深度學習模型在識別抑郁癥表現(xiàn)方面的效用，為深度學習算法更好地應用于抑郁癥的檢測以及診斷提供強有力的理論依據(jù)。

1 總體方案概述

本項目使用Python語言[3-4]基于MTCNN主要包括兩大部分：人臉表情識別以及肢體運動信息識別，本系統(tǒng)首先會在一個周期內(nèi)，完成不同角度的人臉圖像的獲取以及肢體運動信息數(shù)據(jù)的采集。然后將捕捉到的人臉圖像以及采集到的肢體運動信息進行數(shù)據(jù)處理，隨后通過決策網(wǎng)絡判斷此次數(shù)據(jù)當中是否含有可以利用的人臉數(shù)據(jù)并進行進一步的處理。在得到被檢測人員的面部數(shù)據(jù)特征之后，與肢體運動的數(shù)據(jù)信息進行融合，形成綜合特征數(shù)據(jù)信息。

在面部特征數(shù)據(jù)提取期間，眼部特征檢測模塊會提前對被檢測人員的眼部圖像進行單獨的提取，并優(yōu)于人臉圖像輸入模型中用以說謊判斷。

最后，通過表情識別網(wǎng)絡對得到的綜合數(shù)據(jù)進行分析處理，并根據(jù)分析處理結果判斷屬于哪一種程度的抑郁癥，并通過顯示器給出相應的警告。

2 系統(tǒng)技術介紹

2.1 肢體運動信息的檢測

肢體運動信息的檢測[5]部分從肢體的時間序列特征、動作位移、動作數(shù)據(jù)幀數(shù)以及頻率方面進行。肢體運動信息的時間序列特征主要表現(xiàn)在，當被檢測人的情緒有很明顯的變化之后，人體的骨架關節(jié)點會比變化之前有著明顯的位移情況；肢體動作位移的變化，主要是根據(jù)收集到的特征數(shù)據(jù)計算出一個周期T內(nèi)總的位移量以及平均速度。然后將情緒變化前后的位移與平均速度進行對比。將位移總量記為S，則計算方法由式(1)所示。

平均速度記為Vp，也可由t、x 以及n（周期個數(shù)計算）計算方法由式(2)所示。

本項目對肢體信息的采集使用Kinect 設備。Kinect是一種基于深度傳感器的肢體動作識別設備，主要的原理是在深度圖像中快速準確地推測出身體各個關節(jié)骨架關鍵部位的空間位置。

2.2 人臉識別技術

人臉識別檢測主要包括面部特征數(shù)據(jù)提取網(wǎng)絡[6]和表情識別網(wǎng)絡[7]。

在面部圖像獲得的過程中，要對圖像進行面部檢測、關鍵點定位和面部關鍵子區(qū)域的劃分。面部檢測是用于確定所捕獲的圖像中是否存在著人臉圖像數(shù)據(jù)，關鍵點定位是為了確定所要劃分的關鍵區(qū)域的位置并根據(jù)關鍵點劃分出面部的三個關鍵子區(qū)域。查閱相關資料發(fā)現(xiàn)，在表情識別中，有效識別區(qū)域是左眼區(qū)、右眼區(qū)和嘴部區(qū)。本項目對三個子區(qū)域劃分進行了邊緣擴大化，分別為左右眼區(qū)域包含眉毛區(qū)域、嘴部區(qū)域包含鼻子部分。

面部特征數(shù)據(jù)的提取首先要按照特定方式選取的三幀圖像FL、FM、FR輸入定位層網(wǎng)絡中進行處理。處理完畢后，對FL、FM、FR 圖像進行標記，然后輸入多維特征提取卷積網(wǎng)絡中。隨后，多維特征提取卷積網(wǎng)絡根據(jù)輸入進來的數(shù)據(jù)前綴分類，送入相應的處理模塊進行分析，最后將三個不同維度的面部數(shù)據(jù)進行特征融合，形成最后的面部數(shù)據(jù)特征。

本項目面部識別借鑒多任務級聯(lián)卷積神經(jīng)網(wǎng)絡(Multi-task Cascaded Convolutional Networks，MTCNN)，并對其進行整改。在MTCNN 的基礎上本項目增加“時空特征提取模塊”，提取這些面部特征數(shù)據(jù)中包含的時間、空間等維度的特征數(shù)據(jù)，形成多維度的綜合數(shù)據(jù)。時空特征提取模塊[8]采用的是一個3×3的卷積核和兩個殘差模塊串聯(lián)而成，并且采用擴大卷積核的方式，針對捕獲的被檢測者人臉圖像中的時間和空間數(shù)據(jù)進行分析提取。面部數(shù)據(jù)提取過程中，對于圖像處理使用的是“滑動劃分”。即在分塊處理的時，使用固定大小的窗口(d×d)設定滑動步長(s)，然后逐步滑動的方式對人臉圖像進行滑動選取。

表情識別網(wǎng)絡由兩個卷積層、兩個池化層和一個softmax分類器組成。卷積和池化的通道數(shù)分別是128和256，卷積核是3×3，步長為1×1。softmax 分類器可以實現(xiàn)多任務進行分類，這里需要的是三分類任務，即正常、輕度抑郁和重度抑郁三種。

2.3 動態(tài)圖像金字塔、決策網(wǎng)絡、眼部特征提取模塊

被檢測人的面部數(shù)據(jù)對于本項目的檢測至關重要，因此被截取的人臉圖像分辨率不能太低。但在一般的人臉識別網(wǎng)絡中所使用的圖像金字塔，將minsize設置為一個固定的數(shù)值，使得圖片清晰度較低，導致最后的結果出現(xiàn)誤差。因此本項目使用的是“可變的minsize圖像金字塔”。

可變minsize 圖像金字塔[9]，即在被檢測的圖像輸入到卷積網(wǎng)絡之前，先獲取圖像的寬度(w)和高度(h)，并由w和h確定s的值，具體由式(3)所示。

然后根據(jù)s的值，結合對應的函數(shù)關系f(x)最終確定適合本次變化的minszie 的值。并且其可以根據(jù)輸入的圖像的大小，動態(tài)地指定本模型中可以識別的最小人臉，從而減少迭代的次數(shù)，提高系統(tǒng)整體的運算速度。

決策網(wǎng)[9]主要是為了解決面部遮擋對檢測結果產(chǎn)生的影響，剔除遮擋比例較高的區(qū)域，保留遮擋比例較小的區(qū)域，最大程度地關注非遮擋區(qū)域，提高系統(tǒng)檢測的準確率。假設將決策網(wǎng)的判斷結構記為ηi（表示第i個區(qū)域的判定結果），則ηi由式(4)所示。

δ(·)是決策網(wǎng)中的一個基于分類函數(shù)的操作，其表達式如式(5)所示。

其中Ob表示關鍵區(qū)域的遮擋比例，β表示提前設定的遮擋比例的閥值。當Ob大于固定的閾值時置δ(·) = 1，此時不會丟棄圖像，反之丟棄。

眼部特征提取模塊基于循環(huán)神經(jīng)網(wǎng)絡[10](Gated Recurrent Unit，GRU)設計，通過對周期內(nèi)眼部主要信息進行獲取、對比、分析、分類，然后基于檢測的眼部的特征數(shù)據(jù)，判斷是否有說謊的行為。在查閱相關資料后，本項目檢測從：眼部的注視、瞳孔變化以及眨眼這三個方面進行。

GRU網(wǎng)絡是一種基于門控制的循環(huán)神經(jīng)網(wǎng)絡，它可以直接對前一層進行記憶控制，并且參數(shù)相對較少，運行速度更快，對短距離記憶效果更好，更容易捕捉眼部細微的表情變化。GRU中的更新門，幫助模型決定將多少過去的信息傳遞到未來，或者決定有多少信息需要繼續(xù)傳遞的。GRU 中重置門的作用是決定當前時刻的候選狀態(tài)是否需要依賴上一時刻的網(wǎng)絡狀態(tài)以及需要依賴多少。

3 仿真實驗

本系統(tǒng)首先由攝像頭及根據(jù)可穿戴設備實時捕捉人臉信息以及肢體信息，作為抑郁度分析的基礎數(shù)據(jù)。在捕捉被檢測者的圖像信息和實時收集數(shù)據(jù)的同時，也會有實時反饋，用以監(jiān)督網(wǎng)絡是否運行通暢以及實現(xiàn)檢測的可視化操作，如圖1所示。

圖1 實時顯示

接下來，由“可變minsize金字塔”將捕捉到的人臉圖片進行縮放，然后輸入到定位層網(wǎng)絡。隨后進入時空提取模塊。在此模塊中，會對于三個角度的圖像進行更加細致地提取，以更好地保留微小的面部特征數(shù)據(jù)，最后完成多維的特征提取后，按照一定的融合方式，將多維數(shù)據(jù)進行特征融合。與此同時，實時收集到的肢體運動信息會在特征提取網(wǎng)絡中，進行肢體的時間序列、關節(jié)點的時空位移以及運動幀數(shù)以及頻率的提取，完成特征提取后，與面部數(shù)據(jù)特征進行不同形態(tài)的特征融合。

特別注意，經(jīng)過相關研究發(fā)現(xiàn)，面部識別的準確度、效率等高于肢體識別，又鑒于真實的實驗中，面部識別檢測得準確更精確，因此在進行特征融合時，我們采用的是加權的方式。（加權的方式，就是根據(jù)不同的檢測結果的可靠程度，在特征融合時，乘以其不同的權重比例，以達到檢測結果更加精確的目的）。

將融合后的特征向量特征輸入到表情識別網(wǎng)絡，經(jīng)過進一步的卷積池化，使得數(shù)據(jù)的特征更加明顯，然后經(jīng)過softmax 分類器的分類，得到最終的檢測結果，如圖2所示。

圖2 最終顯示結果

4 結束語

本文基于肢體行為檢測和人臉識別的基礎上，對抑郁癥的識別分析進行了相關的研究。完成了本文既定的檢測目標，達到了預期效果。主要的研究內(nèi)容包括：以MTCNN 為主題進行人臉識別檢測并且使用Kinect設備對肢體信息進行采集；采用可變minsize圖像金字塔解決圖像清晰度問題并提高模型的檢測效率；將決策網(wǎng)絡加入模型中用以篩選符合要求的圖像；增加測謊模塊用以減少主觀因素對檢測結果的影響；引入時空特征提取模塊用以檢測圖像中包含的時間與空間信息，最后通過識別網(wǎng)絡進行分類處理以完成抑郁癥的分析檢測。

在研究的過程中，尚存在一定的不足，比如對MTCNN 模型的熟悉度不高，在模型設計的過程中對抑郁癥的認知不足，導致在模塊設計中沒有與實際情況相結合造成部分功能實現(xiàn)較為困難等。接下來，本項目將深入地了解抑郁癥的相關知識，逐漸完善系統(tǒng)功能，并且進一步提高模型的檢測準確度以及檢測效率，爭取能夠在抑郁癥分析中更進一步。