基于深度學習的語聲抑郁識別*

2022-11-21 01:11:18吳情胡維平陳丹丹肖婷

應用聲學 2022年5期

吳情胡維平陳丹丹肖婷

(廣西師范大學電子工程學院桂林 541000）

0 引言

抑郁癥屬于一種精神疾病，在臨床上主要表現為明顯的長久性心境低落，主要由心理、生理等因素引起，影響著患者的日常生活，長期性的治療會造成極大的經濟負擔，并可能導致極端的厭世，做出自殺等行為，需要及時治療[1]。

可喜的是，抑郁癥是一種可以治愈的疾病。目前，診斷抑郁癥的主要方法是靠醫生根據患者對癥狀的自我報告和心理健康問卷進行臨床評估，這種診斷方法的準確度主要依賴于患者對治療的配合程度、對問卷的理解程度以及醫師的專業水平和經驗。隨著社會的飛速發展，人們處于快節奏、高壓力的生活中，抑郁癥患者數量不斷攀升，抑郁癥的診斷面臨著醫生短缺的問題。因此，通過計算機技術提供一種客觀有效的方法迫在眉睫。

近年來，很多研究者致力于利用生物、生理、行為等多模態去對抑郁癥患者的患病情況進行評估，語聲、血漿蛋白、面部表情、眼球移動、體態、步態、腦電、核磁等多種信息被用于抑郁識別的研究之中。由于聲音狀態與情緒密切相關[2]，且語聲具有非侵入、易獲取、低成本等優勢，基于語聲信號的抑郁檢測成為近幾年的研究熱點之一[3]。

語聲情感識別的通常做法是先進行特征選擇。特征的選擇直接關系到情感識別結果的好壞，常用的聲頻特征有梅爾頻率倒譜系數(Mel-frequency cepstrum coefficient,MFCC)[4]、語譜圖[5]、共振峰[6]等。提取特征后再采用分類算法來研究特征與抑郁程度之間的關系，分類方法分為機器學習和深度學習兩類，經典的機器學習方法包括高斯混合模型(Gaussian mixture model,GMM)、支持向量回歸(Support vector regression,SVR)、隨機森林(Random forest,RF)[7]等。隨著近幾年計算機的發展，深度學習取得了突破性的進展，與機器學習方法相比，深度學習可以更好地提取高層語義特征，適應性強，易于遷移。

國外對語聲抑郁識別的研究相比國內較早，一些研究人員發現并證實了人的聲頻特征與抑郁癥之間有著明顯的相關性，這給利用語聲信號來識別抑郁癥提供了理論基礎。Rejaibia等[8]提出將MFCC及基頻特征送進卷積神經網絡(Convolutional neural networks,CNN)進行識別，證明了MFCC在抑郁識別中的有效性。He等[9]利用語聲信號提取改進的語譜圖特征和eGeMAPS(Extended Geneva minimalistic acoustic parameter set)特征集，利用深度卷積網絡通過特征融合進行識別，證明了改進的語譜圖特征效果較好。Sun等[10]利用級聯的RF進行語聲、文本及視頻的多模態抑郁識別，發現RF分類對抑郁識別有著較好的效果。Ma等[11]提出了一種基于CNN+長短期記憶神經網絡(Long-short term memory,LSTM)的深度模型DeepAudioNet用于處理語聲抑郁信號的語譜圖特征，證明了該模型的有效性。

國內對語聲抑郁識別研究較為著名的是蘭州大學的普適計算實驗室基于國家973項目支持[12]，與北京安定醫院和蘭州大學第二附屬醫院等著名醫院合作，通過實地采集被試者的語聲信號，基于語聲分析進行抑郁癥識別并評估被試者抑郁的嚴重程度，整個實驗的過程全部是由該實驗組完成，未采用國外的抑郁癥語聲庫，通過實驗達到78.9%的識別率。考慮到患者隱私等問題，其數據集是不對外公開的，無法獲取。湖南師范大學從生物信息研究方向出發，利用醫療上功能磁共振方法從醫學專業層面來進行抑郁癥識別，實現了84.21%的識別率，該研究方法也為國內現階段基于生理信號進行抑郁癥識別起到了一定程度上的借鑒意義。劉美[13]從語聲出發，利用語譜圖特征，結合生成式對抗網絡和CNN來進行抑郁癥識別，實現了62%的識別率。

本文探究了幾種經典的傳統手工特征對抑郁癥識別的效果，在基礎的LSTM模型上引入注意力機制，通過對比發現，注意力機制對于語聲抑郁識別效果有著一定的提高，在此模型的基礎上進行改進，提出了CNN和結合注意力機制的雙向長短時記憶

(Bidirectional long short-term memory,BLSTM)

特征融合模型，經過實驗測試，取得了較好的語聲抑郁識別結果。

1 分類算法

1.1 結合注意力機制的BLSTM模型

注意力機制的提出受人類自身的啟發：比如在看一個場景的時候，不會每次都把場景內的所有東西全部看一遍，而是只看感興趣的東西[14]。換句話說，如果最想看的那個東西總是出現在某一部分時，以后再在相似的場景中，就會把注意力放到這部分上，盡量不去看其他部分，節省時間以提高效率。

注意力機制最關鍵的部分就是計算一串權重參數，它從序列中學習每一個元素的重要程度，然后按重要程度將元素合并[15]。這串權重參數也稱為注意力分配系數，它決定了給哪個元素分配多少注意力，權重參數越大，則代表這個元素對于結果更有效。

模型如圖1所示，由兩部分組成。第一部分是BLSTM，第二部分是注意力機制，它為LSTM的隱藏狀態提供了一組求和權向量。這些加權向量的集合與LSTM隱藏狀態進行點乘，得到的加權LSTM隱藏狀態被認為是最終的特征向量。

圖1 結合注意力機制的BLSTM模型Fig.1 BLSTM model combining attention mechanism

假設一條聲頻有n幀，則可以用s表示：

其中，wi代表語聲中第i幀的特征向量，每一幀有d維，因此，s是一個n×d的二維矩陣。

首先，將s通過BLSTM，每個前向ht與后向ht連接起來得到一個隱藏狀態ht。若每個單向LSTM的隱藏單元數為u，將所有n個ht記為H，它的大小為n×2u。然后通過注意力機制，將LSTM的整個隱藏狀態H作為輸入，首先將輸入經過Dense層，且使用softmax變換將Dense層輸出結果轉化為[0,1]之間的數，確保所有計算出的權重之和為1，從而得到注意力權重a：

其中，ws1、ws2都是可以學習的模型參數,ws1大小為2u×d，ws2大小為d，則a的大小為n。

然后將a和LSTM隱藏狀態H進行求和，得到輸入特征向量表示m。向量m只集中在一幀中，它反映一幀語聲中的情感，然而，一句語聲中可以有多幀，它們共同構成整個語聲句子的情感。為了完整全面地識別語聲的整體情感，需要多個“m”。因此，可能需要進行多次注意力權重的計算。假設想要從語聲中提取r個不同的部分，需將ws2擴展為一個r×d的矩陣，記為Ws2，由此得到的注意向量a成為注意矩陣A：

然后根據注意矩陣A提供的權值與LSTM隱藏狀態H相乘，計算加權和，更新隱藏狀態，得到最終的隱藏狀態：

此時矩陣M大小為r×2u，A為r×n。

最后，把矩陣M送進全連接層和softmax層進行最終的抑郁二分類。

1.2 改進的CNN和結合注意力機制的BLSTM特征融合模型

隨著深度學習在語聲情感識別上的廣泛應用，基于CNN、循環神經網絡和卷積循環神經網絡的模型被廣泛用于語聲情感識別，然而這些模型都是單純地使用了一種或者兩種方法串行實現，并不能捕捉足夠的情感特征。從各種文獻中知道CNN可以有效地處理空間信息，而每個語聲序列包含不同比例的抑郁情感信息，可以通過BLSTM上下文關系從語聲中獲取更豐富的抑郁特征。本文提出一種基于CNN學習的語聲抑郁信息的空間特征和BLSTM-ATT上下文特征融合方法實現語聲抑郁識別。模型如圖2所示。

圖2 基于CNN和BLSTM-ATT的特征融合模型Fig.2 Feature fusion model based on CNN and BLSTM-ATT

圖2中CNN支路是由4個Conv2D black組成，而每個Conv2D black是個二維卷積塊，里面由5個部分組成：

(1)二維卷積層：卷積核大小為3×3，步長為1，padding為1。

(2)歸一化層：加速神經網絡的收斂過程以及提高訓練過程中的穩定性[16]。

(3)Relu層：引入非線性因素。

(4)最大池化層：核大小為4×4，步長為4×2，對特征進行壓縮，減小模型大小。

(5)Dropout層：防止過擬合，提升模型泛化能力。

BLSTM-ATT支路是由一個最大池化層和一個結合注意力機制的BLSTM層構成，最大池化層核大小為2×4，步長大小為2×4，BLSTM的隱藏層單元個數設為128，最后通過拼接層將空間特征和上下文特征進行融合并分類。

2 實驗測試

2.1 數據集

采用公開的遇事分析訪談語料庫DAIC-WOZ中的數據集進行實驗[17]，該數據集共189條數據，其中抑郁56條，非抑郁133條，由189位參與者和一位虛擬采訪者Ellie共同錄制，每段語聲時長7～33 min不等，采樣率16 kHz。數據集包含錄制的聲頻文件、參與者和采訪者的對話內容記錄、聲頻提取的Covarep特征集、聲頻提取的前5個共振峰特征以及醫生根據參與者自身健康調查表得分結果進行的標簽標記，標簽中給出了問卷調查結果的具體分數、性別以及是否抑郁的標注，其中0為非抑郁個體，1為抑郁個體，根據這個二元標簽進行對語聲抑郁癥的二分類。

2.2 數據預處理

剪接：將采訪者的話語從原語聲中剪掉，然后剔除被采訪者話語中小于1 s的片段，最后將被采訪者話語中大于1 s的片段進行拼接(原始語聲包含參與者和采訪者，是一問一答的形式，參與者的每句話都是對采訪者問題的獨立回答，是完整的一句話，沒有語意中斷，參與者小于1 s的語聲回答一般是語氣詞或者禮貌用語和雜音，對于實驗是不需要的)。

數據增強：本文采用的數據增強方法共有兩種，包括添加噪聲和改變音調[18]。(1)添加噪聲:在語聲中添加隨機噪聲，提高模型的泛化能力，噪聲因子設為0.01。(2)改變音調：改變語聲信號的音調，擴張倍數設為1.5。

語聲切片：將拼接好的語聲按15 s進行切分，總共得到5395個樣本(其中80%用于訓練，20%用于測試)進行訓練和測試。

2.3 實驗設置

2.3.1 特征提取

(1)MFCC：漢明窗，幀長25 ms，幀移10 ms，濾波器個數26，對189個聲頻進行分幀,最后每個聲頻得到(幀數，39)維數據。

(2)基頻：漢明窗，幀長25 ms，幀移10 ms，最后每個聲頻得到(幀數，1)維數據。

(3)共振峰：將數據集里自帶的聲頻前5個共振峰特征結合參與者和采訪者的對話內容記錄，將只有參與者聲頻的前5個共振峰特征提取出來，最后每個聲頻得到(幀數，5)維數據。

(4)語譜圖：漢明窗，幀長500 ms，幀移250 ms，將一幀設為一個塊(chunk)，一組梅爾濾波器組包含128個梅爾濾波器，最后每個聲頻得到(128,126)維數據。

(5)Opensmile：使用的特征為Interspeech 2009 Emotion Challenge中的基準特征，所用窗函數為漢明窗，幀長25 ms，幀移10 ms。特征包含過零率、能量、基頻、諧波噪聲比1～12階MFCC，共16維的低級描述符(Low-level descriptor,LLD)，然后計算這16維LLD的一階差分，可以得到32維LLD，最后在這32維基礎上應用均值、標準差等12個統計函數，每個聲頻得到(1,384)維特征。

(6)Coverap：將數據集里自帶的聲頻Coverap特征結合參與者和采訪者的對話內容記錄，將只有參與者聲頻的Coverap特征提取出來，特征包含基頻、發聲/不發聲，歸一化幅度參數、擬開熵、前兩次諧波的振幅差異化聲門的源譜、拋物面反射光譜參數、最大分散熵、峰值斜率、聲門脈沖動力學、Rd_conf、0～24階MFCC、諧波模型和相位畸變均值，最后每個聲頻得到(幀數，74)維數據。

2.3.2 實驗測試

實驗1結合注意力機制的BLSTM算法

用上述提取的手工特征，分別送進結合注意力機制的LSTM模型中對抑郁癥進行分類，觀察實驗結果，模型如圖3所示。以不加注意力機制的LSTM模型做實驗對比(不加注意力機制模型除少了注意力機制模型外，其他參數和圖3均相同)，實驗結果如表1和表2所示。

圖3 手工特征結合注意力機制的LSTM模型Fig.3 LSTM model of manual features combined with attention mechanism

表1 不同的手工特征在沒加注意力的LSTM模型上的性能對比Table 1 The performance comparison of different manual features on the LSTM model without attention

從表1和表2中可以看出，對于所探究的6個特征而言，網絡加上注意力機制之后，分類效果都有一定的提高，其中MFCC、Opensmile、語譜圖這3種特征對于語聲抑郁識別有著較好的結果。加注意力機制時，MFCC的精確度達到77.19%，比不加時提高了2.5%，F1分數達到74%，比不加時提高了12%；Opensmile的精確度達到76.16%，比不加時提高了2.48%，F1分數達到76%，比不加時提高了13%；語譜圖的精確度也提高了1.92%，F1分數提高了8.44%。由此可得出，注意力機制對于分類結果指標都有一定幅度的提高。

表2 不同的手工特征在加注意力的LSTM模型上的性能對比Table 2 Performance comparison of different manual features in the attentionadded LSTM model

實驗2 CNN和結合注意力機制的BLSTM特征融合算法

實驗1得出，在所研究的手工特征中，MFCC的效果最好，所以在實驗2中，采用MFCC特征來進行實驗，實驗結果如表3所示。

表3 MFCC在基于CNN和結合注意力機制的BLSTM特征融合模型上的性能Table 3 Performance of MFCC in BLSTM feature fusion model based on CNN and combining attention mechanism

從表3的結果可以看出，由于實驗2比實驗1多了一條CNN支路以獲取空間信息，對于語聲信號的抑郁識別效果有了一定的提升，模型精確度達到78.06%，比實驗1提高了0.87%；F1分數達到74.68%，比實驗1提高了0.68%。

從兩個實驗和前人研究的結果中都可以看出，在語聲抑郁識別的眾多聲頻特征中，MFCC相對其他手工特征而言效果都是較好的，可能是因為梅爾頻率反映了人耳的感知頻率與聲音的真實頻率之間的關系，而MFCC就是在梅爾頻譜的基礎上提取的。兩個實驗也證明了注意力機制的加入，使網絡的識別效果得到提升。

3 結論

研究發現，不同的語聲特征對于抑郁癥的識別具有不同的效果。本文對幾個常用的特征進行了比較，客觀地得出MFCC能較好且穩定地識別是否有抑郁癥。本文在結合注意力機制的LSTM模型上進行改進，提出了基于CNN和結合注意力機制的BLSTM特征融合的語聲抑郁識別模型，效果有了一定的提升。

目前語聲抑郁識別具有一定的難度，因為涉及患者的隱私，所以對外公開的抑郁語聲數據集很少，如何在數據集上進行數據擴充是有必要研究的。而且數據集中正負樣本的數量相差很大，抑郁患者的數量遠遠小于非抑郁患者的數量，如何使數據達到平衡也是需要探究的。除此之外，人類情感具有模糊的邊界，且一句話可能包含多種情感，比如抑郁和傷心的大多數語聲特征是相似的，這就會造成識別混淆，所以如何實現長時語聲的復雜情感識別，也是未來的研究方向。

抑郁癥檢測是一個較為復雜的研究課題，單純語聲參數不足以反映抑郁癥患者的特點，在未來的研究中，可參考醫生的經驗，結合表情、眼神等圖像特征，嘗試用多模態方法來提高檢測正確率。