999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的音頻抑郁癥識別

2019-09-13 03:37:50李金鳴付小雁
計算機應(yīng)用與軟件 2019年9期
關(guān)鍵詞:特征信息模型

李金鳴 付小雁,2*

1(首都師范大學(xué)信息工程學(xué)院 北京 100048)2(電子系統(tǒng)可靠性技術(shù)北京市重點實驗室 北京 100048)

0 引 言

隨著現(xiàn)代生活的快速發(fā)展,心理健康問題得到社會各界越來越多的關(guān)注。抑郁癥(major depressive disorder,MDD)是心境障礙的主要類別,以顯著而持久的心境低落或喪失興趣與愉悅感為主要臨床特征[1]。輕度患者會伴有情緒低落、心情壓抑、焦慮、 興趣喪失、自我評價過低等癥狀;重度抑郁癥患者會悲觀厭世、絕望、幻覺妄想、身體功能減退,甚至產(chǎn)生自殺行為。雖然抑郁癥嚴重影響人們的生活與日常工作,但是抑郁癥患者可以通過藥物、心理和物理方式治愈或緩解病情。

貝克抑郁量表II(Beck Depression Inventory-II, BDI-II)是目前應(yīng)用最為廣泛的抑郁癥狀自評量表[2]。BDI-II具有良好的信度與效度,可以作為自評工具用于評估患抑郁癥的程度。在BDI-II中有21個單項選擇題,受試者必須根據(jù)自己的真實情況在每個問題的4個選項中選擇最符合的一個,4個答案對應(yīng)的評分分別是0、1、2、3,BDI-II最終分值范圍為0~63。不同的分數(shù)段代表不同的抑郁程度:0~13表示沒有抑郁癥;14~19表示患有輕度抑郁癥;20~28表示患有中度抑郁癥;29~63表示患有重度抑郁癥。BDI-II值越大,表示個體的抑郁程度越嚴重,對患者和他人的傷害也就越大。

目前,抑郁癥的診斷以問卷調(diào)查為主,以醫(yī)師判斷為輔。其準確度嚴重依賴于患者的配合程度以及醫(yī)師的專業(yè)水平和經(jīng)驗,并且抑郁癥患者的早期診斷和再評估會受到很多限制。近年來,隨著抑郁癥患者數(shù)量的不斷增加,快速并準確地診斷抑郁癥是相關(guān)醫(yī)療人員面臨的重大問題。因此,通過計算機技術(shù)提供一種客觀的評估和快速識別抑郁程度的方法將有助于抑郁癥患者的早期診斷和治療。

隨著生物特征識別技術(shù)的發(fā)展,研究人員通過分析語音信號,可以得到講話人身份信息、年齡、性別、講話內(nèi)容和情感等多種信息[3-6]。同時,國外的研究人員也發(fā)現(xiàn)并證實人的音頻特征與抑郁程度之間具有顯著的關(guān)聯(lián)性。文獻[7-8]表明,抑郁癥患者人群與正常人群在語音特征行為方面存在語速偏慢、語調(diào)單一且悲觀等明顯的差異。又由于語音具有容易采集,所受限制少和成本低的特點,基于音頻的抑郁癥識別已成為自動抑郁癥檢測的主要手段之一。自動語音抑郁檢測(Automatic Speech Depression Detection, ASDD)是利用計算機分析說話人的語音信號及其變化過程,發(fā)現(xiàn)說話人內(nèi)心的情緒和心理活動。目前ASDD的方法可以分為兩類:傳統(tǒng)的機器學(xué)習(xí)方法和深度學(xué)習(xí)方法。

特征選擇是傳統(tǒng)ASDD機器學(xué)習(xí)方法的關(guān)鍵,特征的選擇直接關(guān)系到抑郁癥識別結(jié)果的準確性。目前,最常用的特征包括梅爾頻率倒譜系數(shù)(MFCCs)、能量、過零率、共振峰特征、光譜特征等。提取特征后再采用機器學(xué)習(xí)方法研究特征與抑郁程度的關(guān)系,這些機器學(xué)習(xí)方法包括高斯混合模型(GMM)[9]、偏最小二乘(PLS)[10]和支持向量回歸(SVR)[11]。這種方法的主要優(yōu)點是可以在不需要大量數(shù)據(jù)的情況下對模型進行訓(xùn)練。缺點是很難判斷特征的質(zhì)量,可能會丟失一些關(guān)鍵特征,從而降低識別的準確性。

與傳統(tǒng)的機器學(xué)習(xí)方法相比,深度學(xué)習(xí)技術(shù)具有可以提取高層語義特征的優(yōu)點,在最近幾年取得了突破性的進展[12-13]。目前,有研究者將深度學(xué)習(xí)方法應(yīng)用于ASDD。Huang等[14]在2016年AVEC中介紹了一種基于音頻的抑郁癥分類的深度學(xué)習(xí)方法,提取音頻的MFCCs特征作為模型的輸入,其中設(shè)計了兩層卷積神經(jīng)網(wǎng)絡(luò)(CNN)、一層長短時期記憶網(wǎng)絡(luò)(LSTM)和兩層全連接層(FC)用于預(yù)測音頻受試者是否抑郁。在文獻[15]中,作者基于局部二值模式(LBP)特征做了改進,設(shè)計了中值魯棒擴展的局部二值模式(MRELBP),然后運用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)進行預(yù)測抑郁分值。Chao等[16]提取了音頻和視頻的特征,并將其融合為異常行為的標志,然后利用長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)來描述動態(tài)時間信息。他們采用多任務(wù)學(xué)習(xí)來提高結(jié)果的準確性,并在AVEC2014數(shù)據(jù)集上評估了模型的預(yù)測能力。

雖然之前的研究取得了一定的成果,但是仍存在一些挑戰(zhàn)。研究表明,抑郁癥患者與正常人在情緒上存在顯著差異,比如抑郁癥患者常伴有抑郁、悲傷、焦慮、擔憂的情緒。為了解決訓(xùn)練數(shù)據(jù)較少的問題和充分利用情感特征,本文設(shè)計了基于上下文情感信息的多尺度音頻差分歸一化(MADN)特征和新的網(wǎng)絡(luò)模型框架。在不減少樣本數(shù)量的情況下,增加樣本長度可以獲得更多的訓(xùn)練數(shù)據(jù)。首先,將當前樣本的特征輸入模型對抑郁相關(guān)特征進行編碼。然后,將當前樣本的相鄰兩段的MADN特征再按次序分別輸入上面訓(xùn)練好的模型進行微調(diào)和優(yōu)化。通過與目前最優(yōu)的方法對比表明,本文提出的音頻抑郁癥識別算法在抑郁癥的診斷中提高了預(yù)測精確度。

1 音頻特征提取和設(shè)計

1.1 數(shù)據(jù)庫

AVEC2014[17]抑郁癥數(shù)據(jù)庫是視聽抑郁語言語料庫(AVid-Corpus)的一個子集。音頻是在自然條件下通過麥克風(fēng)采集的,被試者的年齡在18歲到63歲之間,平均年齡為31.5歲。每個受試者被記錄一次到四次不等,同一個受試者的每兩次采集時間間隔大約為兩周。AVEC2014數(shù)據(jù)庫中的每個音頻的時長在6秒到4分8秒之間。AVEC2014數(shù)據(jù)庫分為NORTHWIND和FREEFORM兩部分:

(1) NORTHWIND: 提供文章給每個錄制者朗讀,例如“Die Sonne und der Wind”,然后通過麥克風(fēng)分別記錄他們朗讀的音頻信息。

(2) FREEFORM: 這一部分是被試者與工作人員通過耳機麥克風(fēng)交流,由工作人員詢問一個或多個問題,然后被試者進行回答,例如“What is your favorite dish?”,“What was your best gift, and why?”,“Discuss a sad childhood memory”等,此時麥克風(fēng)采集的只是被試者一端的音頻信息。

AVEC2014數(shù)據(jù)庫中的150對NORTHWIND和FREEFORM音頻分成了訓(xùn)練集、驗證集和測試集,各包含50個音頻,并且根據(jù)錄制者的BDI-II值為每個音頻設(shè)置標簽。

1.2 數(shù)據(jù)預(yù)處理

為了獲得最優(yōu)的特征,對音頻樣本進行預(yù)處理。由于被試者在聽問題時是沒有語音信息的,所以要把這一部分非語音段裁剪掉。首先,對于每一個音頻文件,去除長時間的靜音段(非語音),其余部分被拼接成一個新的音頻文件。然后,每個有效的音頻文件被分割成相同長度的且沒有重疊的音頻片段,每個音頻段由60幀組成,音頻分幀時選用漢明窗,每幀1 024個數(shù)據(jù)點,前一幀與后一幀的交疊部分是幀長的1/2。音頻采樣率為44 100 Hz,所以一個音頻片段覆蓋的時間為[(60+1)×1 024/2]/44 100=0.708 s。對于2014AVEC數(shù)據(jù)庫中的數(shù)據(jù),經(jīng)過預(yù)處理后一共得到7 548個音頻片段樣本,其中訓(xùn)練集包含5 100段,測試集包含2 448段。

1.3 音頻特征提取

(1) 梅爾頻率倒譜系數(shù)(MFCCs)。MFCCs是語音信號處理中最常用的特征,它具有符合人類聽覺和低維度的優(yōu)點[18]。Mel頻率倒譜系數(shù)將人耳的聽覺感知特性和語音信號產(chǎn)生機制有效結(jié)合。下式解釋了如何將音頻的普通頻域尺度轉(zhuǎn)換為Mel頻率刻度:

(1)

式中:fmel表示Mel頻率刻度,fHz代表普通頻率。通常,MFCCs的計算使用一組濾波器,這組濾波器的中心頻率是按照Mel頻率刻度均勻間隔排列的,每個濾波器的三角形的兩個底點的頻率分別等于相鄰的兩個濾波器的中心頻率。設(shè)濾波器的個數(shù)為M,濾波后得到的輸出為X(m),m=1,2,…,M;設(shè)l(m)、c(m)、h(m)分別為第m個三角形濾波器的下限頻率、中心頻率和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關(guān)系:

c(m)=h(m-1)=l(m+1)

(2)

將濾波器組d的輸出進行對數(shù)運算,然后再進行反離散余弦變換即得到MFCCs。

(3)

式中:L為MFCCs系數(shù)的個數(shù),通常取值為12~16,濾波器的個數(shù)取值在20~40之間。本文取L=12、M=40。

(2) 共振峰、能量、過零率。短時能量是指一幀語音信號的平均能量,反映了語音信號的幅度變化。短時能量可以用來區(qū)分有聲與無聲,由于抑郁癥患者會有吐字不清和停頓變長的癥狀,而且隨著抑郁程度的增加這些癥狀會更明顯突出,所以短時能量特征用來進一步分析講話過程中的停頓信息。

短時過零率可以從背景聲中找出語音信號,也可以反映有話和無話的信息,因此采用短時能量和短時過零率相結(jié)合來提取講話的持續(xù)時間和停頓時間信息。

為了能更加準確地識別抑郁癥,我們以發(fā)聲器官為出發(fā)點尋找相關(guān)的研究來幫助選取合適的特征,進而提高算法的預(yù)測精度。文獻[19]表明,抑郁癥患者的聲道會比正常人的更緊張,聲帶動力也會隨著抑郁程度而變化,而且人的神經(jīng)所處的緊張程度不同,導(dǎo)致聲道在發(fā)相同音的時候產(chǎn)生形變,從而出現(xiàn)差異。而共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,反映了聲道(共振腔)的物理特征,并且,共振峰代表了發(fā)音信息的最直接的來源。因此選取共振峰特征來進一步的分析抑郁癥患者與正常人的音頻信息的不同。

1.4 多尺度的音頻差分歸一化算法

眾所周知,臨床醫(yī)生得到的患者音頻信息越多,那么對于此患者的抑郁診斷結(jié)果就越準確。然而,抑郁癥數(shù)據(jù)庫的音頻數(shù)據(jù)有限,由于音頻段數(shù)與單個樣本的音頻時長是反比例關(guān)系,所以單個樣本時長增加會導(dǎo)致總樣本段數(shù)的減少,單個樣本的數(shù)據(jù)維度增加也會大大增加計算的復(fù)雜度,影響運算速度和識別的準確率。這也是當前研究基于音頻的抑郁癥識別急需解決的問題。

在現(xiàn)實生活中,不同的說話者有不同的音量和音色特點,有的人天生說話嗓門比較高,有的人天生聲音渾厚,說話者的這種個性化說話特點會導(dǎo)致抑郁癥識別的準確率下降。對每一幀音頻提取的MFCCs、短時能量、短時過零率和共振峰頻率特征除了包含大量與抑郁相關(guān)的特征外,還摻雜了說話者個性說話特點,這是由于其靜態(tài)特性導(dǎo)致的,而說話者的個性化說話特點會減弱抑郁癥識別模型的泛化能力。因此,我們提出了多尺度的音頻差分歸一化(Multiscale Audio Delta Normalization, MADN)的算法,用于獲取局部非個性化的抑郁特征。基于音頻差分的特征反映同一個說話者說話過程中的音頻變化信息,不易受到個性化說話特點的影響。由于不同特征的數(shù)據(jù)量級是不同的,因此采用不同的尺度對特征進行歸一化處理。為了獲得說話者音頻的局部變化信息,根據(jù)滑動窗口選取相應(yīng)的語音幀進行歸一化,而不是通過與一整段的音頻進行比較。按照滑動窗口選取相應(yīng)的語音幀可以增強局部音頻變化的動態(tài)性,更有效地體現(xiàn)了非個性化音頻特征。為便于理解,MADN算法流程如下:

1) 輸入原始音頻文件。

2) 讀取音頻文件并對所有的音頻文件進行預(yù)處理。

3) 提取MFCCs、短時能量、過零率和共振峰頻率特征且用V(n,f)表示,f是語音的幀數(shù),每一幀包含n個元素。

4) 通過相鄰兩幀音頻特征V(n,f)進行差分計算得到D(n,f)。D(n,f)代表了音頻的時序變化,減弱了說話者的講話個性化信息,在同一抑郁程度下特征值的分布相對比較穩(wěn)定。計算方法如下:

D(n,f)=V(N,f+1)-V(n,f)

(4)

f=1,2,…,F-1

5) 對不同特征進行不同尺度的歸一化:

(5)

n=1,2,…,N

式中:Fn與fn的取值代表不同的尺度和滑動窗口,其公式如下:

(6)

(7)

6) 輸出:F(n,f)即為不同尺度歸一化后的特征。

2 基于深度學(xué)習(xí)的音頻抑郁癥識別

2.1 音頻抑郁回歸預(yù)測網(wǎng)絡(luò)

深度學(xué)習(xí)技術(shù)在近幾年得到快速發(fā)展,在語音信號處理領(lǐng)域取得了良好的成果,它可以學(xué)習(xí)生成高級語義信息,豐富手工設(shè)計特征。Huang等[14]在2016年AVEC競賽中設(shè)計了一個用于識別是否抑郁的二分類的網(wǎng)絡(luò)結(jié)構(gòu),主要由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)組成,此模型的輸入是音頻信息,輸出是對應(yīng)的個體是否抑郁音頻。本文基于這個網(wǎng)絡(luò)模型做了兩個方面的優(yōu)化和改進:(1) 基于只用MFCCs特征作為網(wǎng)絡(luò)的輸入的缺點,提出了MFCCs、短時能量、短時過零率以及共振峰特征的互補結(jié)合作為模型的輸入;(2) 基于抑郁分類的模型改進為抑郁回歸預(yù)測的模型,由于不同程度的抑郁癥患者需要不同的治療,所以預(yù)測抑郁癥患者的BDI-II值是很有必要的。本文優(yōu)化的深度模型,即音頻抑郁回歸預(yù)測網(wǎng)絡(luò)(Depression Regression AudioNet, DRAudioNet)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模式識別中,輸入圖像和卷積核的形狀往往都是方形的,而語音信號的數(shù)據(jù)維數(shù)是一維的,不能直接使用圖像處理的方法進行處理。為了解決這個問題,在實驗中對音頻段中每一幀語音都提取了MFCCs、過零率、能量和共振峰頻率特征,然后,每個片段的60幀語音的特征組成一個二維的矩陣。

圖1 Depression AudioNet網(wǎng)絡(luò)結(jié)構(gòu)圖

在語音特征的二維矩陣表示中,水平軸表示時間,垂直軸表示頻率信息。相同的頻譜模式在不同的頻率區(qū)間可以表示完全不同的音頻,而CNN用于圖像處理的方形的卷積核和池化操作會造成不同的音頻之間的混淆,削弱識別能力[20]。因此,實驗中嘗試在整個頻率軸上使用一維卷積代替方形濾波器來解決這個問題。卷積層可以有效地捕獲豐富的高階語義信息;池化層的目的是降低特征圖的維度,對于相對位置的小變化引入不變性,以此提高精度和減少運算復(fù)雜度。二維的輸入特征經(jīng)過卷積和池化操作得到一維深層特征,然后,將這些特征導(dǎo)入LSTM層以提取長期依賴信息。最后,在網(wǎng)絡(luò)架構(gòu)的末端是兩個全連接層,用于在時間軸上編碼音頻的長期變化并預(yù)測抑郁得分。

2.2 基于DR AudioNet的改進

DR AudioNet網(wǎng)絡(luò)只運用了當前音頻片段的特征,為了能夠運用MADN算法提取當前段的前后相鄰兩段音頻的非個性化抑郁特征,本文研究了目前常用的網(wǎng)絡(luò)模型融合的方法和特點。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)融合通常是將幾個網(wǎng)絡(luò)的預(yù)測值進行線性加權(quán)或者采用隨機梯度的方式進行加權(quán)融合,參與訓(xùn)練的樣本數(shù)量并沒有增加,只是增加了特征的種類,是一種并行的融合方式。

根據(jù)MADN算法得到非個性化抑郁特征是在DR AudioNet網(wǎng)絡(luò)中輸入特征的前后相鄰兩段音頻上得到的,它們具有相同的尺寸和BDI-II值,以及時間上的關(guān)聯(lián)性。因此,本文提出一種新的網(wǎng)絡(luò)模型。整體架構(gòu)圖如圖2所示。可以看到,后一個模型在前一個模型的基礎(chǔ)上訓(xùn)練,也就是說,前面模型的參數(shù)共享給后面的模型。首先,使用DR AudioNet網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)集提取MFCCs、短時能量、短時過零率和共振峰頻率特征(統(tǒng)稱:特征V1)進行訓(xùn)練。DR AudioNet網(wǎng)絡(luò)可以單獨預(yù)測抑郁分值,但是在說話者個性化信息上處理欠佳,因而在此模型的基礎(chǔ)上,運用當前音頻段的前一段的MADN特征(稱為特征V2)進行訓(xùn)練模型二,學(xué)習(xí)到了與抑郁相關(guān)的特征又減弱了說話者個性化語音的干擾。最后在模型二的基礎(chǔ)上,提取當前音頻段的后一段的MADN特征(稱為特征V3)進行訓(xùn)練模型三。通過結(jié)合兩種不同特征的優(yōu)點,提取出更加準確的抑郁特征信息。

圖2 本文提出的網(wǎng)絡(luò)模型整體架構(gòu)圖

3 實驗結(jié)果與分析

(8)

RMSE表示所有預(yù)測值與真實值之間誤差的均方根,被用來衡量預(yù)測值與真實值之間的偏差,計算公式如下:

(9)

為了證明本文提出的提取特征算法以及深度模型在抑郁癥回歸預(yù)測的有效性,在2014AVEC數(shù)據(jù)集上分別進行了三個模型的實驗。

DR AudioNet網(wǎng)絡(luò)的輸入特征尺寸為17×60,設(shè)定batchsize為32,兩層卷積層都有64個卷積核,卷積核的大小都為3×1,LSTM層的cell個數(shù)設(shè)置為128個,第一層全連接層的節(jié)點數(shù)也是128,最后一層全連接層只有一個節(jié)點輸出預(yù)測分數(shù)。將2014AVEC中的驗證集歸并到訓(xùn)練集,在測試集上評估DR AudioNet網(wǎng)絡(luò)模型的整體性能。結(jié)果如表1所示,可以看出,得到的RMSE和MAE分別為9.70和7.52。

表1 在2014AVEC測試集上三個模型識別抑郁癥的結(jié)果比較

為了驗證本文提出的特征V1和DR AudioNet網(wǎng)絡(luò)的有效性,我們與目前最優(yōu)的基于音頻的抑郁癥識別的研究結(jié)果進行了對比,結(jié)果如表2所示。其中,文獻[21]分別提取了MFCCs特征和AVEC2014委員會提供的低水平描述子(low level descriptors,LLD),然后運用PLS、LR回歸方法進行抑郁癥的預(yù)測;文獻[15]設(shè)計了深度學(xué)習(xí)模型并運用MRELBP和LLD特征進行訓(xùn)練。AVEC2014委員會提供的LLD特征包括MFCCs、短時能量和短時過零率在內(nèi)的38種音頻描述子。分析文獻[21]的研究可以發(fā)現(xiàn),運用MFCCs特征得到的效果比運用LLD的實驗結(jié)果要好,這也就是說明多種特征的結(jié)合反而會降低識別精度。而本文有效融合了與抑郁癥狀最為相關(guān)的MFCCs、共振峰、短時能量和短時過零率特征,比只運用MFCCs更有優(yōu)勢。

表2 相關(guān)性實驗在2014AVEC測試集上的結(jié)果比較

文獻[15]中的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型由卷積層、池化層和全連接層組成。由于音頻是隨時間變化的語音信號,為了提取音頻之間的時序信息,本文設(shè)計的DR AudioNet模型由CNN、MP、LSTM和FC組成,其中CNN對音頻的短期深度特征進行編碼,LSTM提取音頻之間的長期依賴信息。通過結(jié)果對比發(fā)現(xiàn),本文模型M1的實驗效果優(yōu)于目前最新的文獻[21]和文獻[15]的方法效果。

在模型M2中,利用MADN算法對模型M1中當前音頻段的前一段音頻進行處理,得到特征V2,V2表達了前一段音頻的抑郁變化特征。模型M2運用特征V2對模型V1進行微調(diào)。從表1可以看出,模型M2得到的RMSE和MAE分別為9.46和7.30。通過MADN特征以及模型M2在模型M1的基礎(chǔ)上微調(diào)減少了個性化特征對抑郁識別的影響,同時能夠提取更加豐富的語義信息和更加準確的特征信息,使得模型M2的RMSE與MAE分別比模型M1降低了0.24和0.18,進一步證明了模型優(yōu)化的有效性。

在模型M3中,選取特征V3對模型M2進行聯(lián)合優(yōu)化。同樣,此時特征V3的樣本是模型M1中的特征V1樣本的后一段音頻。利用MADN算法對模型M1中當前音頻段的后一段音頻進行處理,得到特征V3。從表1可以看到,經(jīng)過特征V3聯(lián)合優(yōu)化之后模型的RMSE和MAE分別為9.15和7.17,相比于模型M2又進一步降低了誤差。圖3是三個模型的損失函數(shù)變化曲線,可以看到模型M3的損失函數(shù)收斂速度更快。這三個模型的實驗結(jié)果表明,本文提出的在DR AudioNet網(wǎng)絡(luò)的基礎(chǔ)上運用相鄰兩段音頻的MADN特征對網(wǎng)絡(luò)模型進行聯(lián)合優(yōu)化進一步降低了音頻抑郁識別誤差,有效地融合了MADN特征對說話人非個性化的抑郁特征,更加有利于抑郁識別模型的回歸預(yù)測。圖4顯示了模型M3在2014AVEC測試集中的預(yù)測值與真值標簽(BDI-II)的比較。文獻[15]運用不同的特征分別訓(xùn)練深度模型,然后設(shè)計了四個全連接層(FC)對前面提到的分支模型進行融合,最終進行抑郁分數(shù)的預(yù)測。本文提出的網(wǎng)絡(luò)聯(lián)合優(yōu)化模型與文獻[15]提出的融合多個深度模型的實驗結(jié)果對比如表3所示,可以看出,本文提出的聯(lián)合優(yōu)化模型框架有更好的性能。

圖3 三個模型訓(xùn)練的損失函數(shù)變化曲線

圖4 真實標簽與預(yù)測值的比較圖

表3 聯(lián)合優(yōu)化的相關(guān)性實驗在2014AVEC測試集上的結(jié)果比較

與包括2014AVEC提供的Baseline在內(nèi)的其他僅僅使用音頻數(shù)據(jù)的最新技術(shù)的識別效果比較見表4。通過對比實驗可以得出結(jié)論,本文提出的運用特征V1與DR AudioNet網(wǎng)絡(luò)能有效地進行抑郁癥程度的回歸預(yù)測。在提取特征時運用不同的尺度對特征進行的歸一化,有效地融合了不同的特征并保留了更加重要的音頻抑郁特征。同時,運用V2和V3對DR AudioNet進行聯(lián)合優(yōu)化,有效地融合了MADN特征對說話人非個性化的抑郁特征。相比于其他目前最優(yōu)的只用音頻數(shù)據(jù)的算法有效地降低了抑郁識別誤差,在2014AVEC數(shù)據(jù)集上的RMSE和MAE分別降到了9.15和7.17,證明了本文提出的基于音頻的特征算法和網(wǎng)絡(luò)模型在識別效果上優(yōu)于其他方法。

表4 在2014AVEC測試集上的只用音頻數(shù)據(jù)的相關(guān)實驗的結(jié)果比較

4 結(jié) 語

本文提出了獲取局部音頻的相鄰兩段的非個性化的抑郁特征(MADN),這種基于音頻時序變化的特征反映了講話者的音頻變化信息,并減少了講話人的講話個性化特點,顯示了與BDI-II值的較強的關(guān)聯(lián)性。本文設(shè)計了一種新的網(wǎng)絡(luò)模型,通過當前音頻段的前后相鄰兩段的MADN特征,對前一個模型進行優(yōu)化,提高了模型和特征的表達能力,進一步提高了模型預(yù)測BDI-II值的準確度。在今后的工作中,我們將探索自然語言處理中的文本處理,分析個體回答問題的文本信息,然后運用語音特征和文本特征的多模態(tài)融合,以進一步提高識別抑郁癥的準確率。

猜你喜歡
特征信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美高清三区| 国产男女免费完整版视频| 国产成人综合日韩精品无码不卡| 日韩欧美国产综合| 四虎国产在线观看| 99热这里都是国产精品| 久久天天躁狠狠躁夜夜躁| 无码免费的亚洲视频| 亚洲AV无码精品无码久久蜜桃| 69国产精品视频免费| 久久 午夜福利 张柏芝| 成人小视频网| 欧美精品xx| 欧美日在线观看| 国产亚洲高清视频| 97青青青国产在线播放| 国产毛片高清一级国语| 99免费在线观看视频| 91娇喘视频| 中文国产成人精品久久| 欧美成人看片一区二区三区| 亚洲中字无码AV电影在线观看| 国产极品美女在线观看| 午夜色综合| 国产福利拍拍拍| 日韩激情成人| 久久国产高清视频| 国产综合在线观看视频| 精品国产www| 白丝美女办公室高潮喷水视频| 永久免费精品视频| 日本午夜影院| 亚洲中文字幕97久久精品少妇| 亚洲熟妇AV日韩熟妇在线| 首页亚洲国产丝袜长腿综合| 亚洲中文字幕久久无码精品A| 992tv国产人成在线观看| 人妻少妇久久久久久97人妻| 无码又爽又刺激的高潮视频| 日本午夜精品一本在线观看 | 国产福利一区视频| 亚洲视频免费在线| 色窝窝免费一区二区三区| 99无码中文字幕视频| 国产99免费视频| 国产剧情无码视频在线观看| 国产91透明丝袜美腿在线| 国产一区成人| 午夜影院a级片| 毛片a级毛片免费观看免下载| 无码国产伊人| 亚洲人成影院午夜网站| 狂欢视频在线观看不卡| 无码专区在线观看| 欧美日韩一区二区三区在线视频| 91探花在线观看国产最新| 午夜国产在线观看| 午夜一级做a爰片久久毛片| 中文字幕1区2区| 91久久偷偷做嫩草影院电| 99久久国产综合精品2020| 91亚洲免费| 伊人激情综合网| 2019年国产精品自拍不卡| 国产在线观看91精品亚瑟| 久久视精品| 狼友视频一区二区三区| 国产精品成人观看视频国产 | 日本三级精品| 91国内在线观看| 精品黑人一区二区三区| 美女视频黄频a免费高清不卡| 激情午夜婷婷| 毛片免费试看| 成人国产精品2021| 不卡午夜视频| 久久亚洲高清国产| 99在线视频免费| 亚洲有码在线播放| 99在线视频网站| 欧美日本激情| 日韩精品久久久久久久电影蜜臀|