999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語音和視頻圖像的多模態情感識別研究

2021-12-12 02:51:14王傳昱李為相陳震環
計算機工程與應用 2021年23期
關鍵詞:模態特征融合

王傳昱,李為相,陳震環

南京工業大學 電氣工程與控制科學學院,南京 211816

識別情感一般有兩種方式,一是檢測生理信號(如心率、腦電、體溫等),另一種是檢測情感行為(如面部特征、語言特征、姿態等)[1]。按照準確性排序,目前應用于情感檢測的單模態主要有生理參數(腦電圖)、臉部表情、語音、肢體動作;按照采集難度和實用性排序,則為語音、臉部表情、肢體動作、生理參數(腦電圖)[2]。其中肢體動作因為其準確性較低、實用性一般,通常作為其他模態的輔助識別方式;而生理參數的識別準確率雖然很高,但是由于采集需要配備專業設備,采集難度高,實用性一般,在實際場景中很少使用。而語音和人臉表情的采集難度中等,識別準確率較高,是當前研究的熱門。丁名都等[3]將卷積神經網絡(CNN)和方向梯度直方圖(HOG)方法結合研究,提取更多的表情特征,在高興情感上取得了90%的識別準確率;蘭凌強等[4]提出基于聯合策略(FRN+BN)識別人臉表情,在CK+數據集上提升了5.6%的識別準確率;李田港等[5]將KNN、SVM、BPNN分類方法進行集成,提高了語音情感識別率。隨著融合算法研究的深入,多模態情感識別取得了快速的發展[6]。多模態融合能夠提升識別率,且具有更好的魯棒性[7-8]。目前常見的多模態情感檢測方法主要有生理信號+情感行為組合,不同情感行為之間的組合。人臉表情和語音這兩個模態由于在視頻中直接可提取,所以具有數據采集方便、特征明顯、精度高等優點,是實際應用中最廣泛的情緒識別方法。Zeng等[9]提出了隱馬爾科夫模型進行雙模態情緒識別,使用最大熵原理和最大互信息準則進行了人臉表情和語音的模態融合,通過單模態和多模態情緒識別的對比實驗,驗證雙模態情緒識別算法的合理性。Li等[10]用LSTM-RNN網絡模型進行樣本訓練,并使用條件注意融合策略完成人臉表情和語音的情緒識別研究,提高了情緒識別模型的實時性。多模態融合識別可以在信號、特征、決策層進行,對不同模態信號可以采取不同的融合策略,以達到最佳的識別結果[11]。

心理學家Mehrabian[12]通過研究發現,人們日常交談時文字體現7%的情感,聲音及其特征(例如語調、語速)體現了38%的情感,表情和肢體語言體現55%的情感。這說明了在研究情感識別問題上,面部表情和聲音傳達了主要信息。

本文使用改進的卷積神經網絡(LBPH+SAE+CNN)訓練并測試fer2013數據集,完成視頻圖像通道的模型搭建,使用反向傳播算法(BP)改進的長短期記憶人工神經網絡(DBM+LSTM)訓練chaeavd2.0視頻情感數據庫的訓練集語音信號搭建模型,并在決策層對識別結果進行融合,輸出情感分類及在不同情感分類上的可能性。除了驗證本文所提方法的有效性,本文還實現了對使用者情感的實時分析:通過調用攝像頭和麥克風采集一段視頻和語音,用LBPH算法識別并鎖定人臉區域,再通過SAE+CNN神經網絡模型分析使用者情感狀態,完成對圖像通道的識別;使用Spleeter和FFmpeg分離工具分離背景音和人聲,經過對語音信號的濾波和分幀加窗的預處理后,調用opensmile工具提取聲學特征并分類,完成對語音模態的識別,最后在決策層對兩種模態的分類結果進行融合并輸出最終結果。實驗結果表明,本文提出的研究方法可以提升識別的準確性,且具備處理速度快,可移植性強的優點,有較強的使用推廣價值。

1 視頻圖像模態設計

1.1 LBPH算法

局部二值法(LBP)在1996年由Ojala等[13]提出。LBP算子定義在像素3×3的鄰域內,以鄰域中心像素為閾值,相鄰的8個像素的灰度值與中心進行比較,若大于中心像素值,則該像素點的位置被標記為1,否則為0。

圖像的尺度產生變化時,LBP特征編碼在反映像素點周圍的紋理信息時會出現錯誤。鑒于這種情況,本文使用Extended LBP特征,改進后的方法使用圓形、可拓展的鄰域。圖像的尺度產生變化時,LBP特征編碼在反映像素點周圍的紋理信息時會出現錯誤。鑒于這種情況,本文使用Extended LBP特征,改進后的方法使用圓形、可拓展的鄰域。對于給定中心點(xc,yc),其鄰域像素位置為(xp,yp),令p的值小于P,則(xp,yp)可以用公式(1)表示:

其中,R是采樣半徑,p是第p個取樣點,P是總采樣數目。由于計算的值可能不是整數,即計算的點不在圖像上,所以采用雙線性插值的方法來避免這種情況。公式(2)如下:

Ahonen等提出LBPH方法[14],將LBP特征圖像分成局部塊并提取直方圖,再依次將這些直方圖連接起來形成的統計直方圖即為LBPH。本文所采用的LBPH算法添加了實時獲取人臉特征數據的功能,其流程如圖1所示。

圖1 LBPH算法流程圖Fig.1 LBPH algorithm flow chart

1.2 SAE算法

人臉表情的邊緣信息擁有豐富的情緒特征,本文加入了稀疏自動編碼器(Sparse AutoEncoder,SAE)獲取圖像的情緒細節信息。稀疏自動編碼器是一種3層的無監督網絡模型,是將輸入圖像壓縮后進行稀疏重構。SAE的主要思想是對隱藏層施加稀疏性約束,迫使隱藏節點數量小于輸入節點,從而使網絡能學習到圖像的關鍵特征。SAE網絡追求的是輸出數據約等于輸入數據x,并通過反向傳播計算網絡代價函數來訓練模型。

稀疏自動編碼器具體實現過程為首先計算第j個隱藏神經元的平均活躍度,公式(3)如下所示:

式中,xi和n分別表示輸入層的樣本和數量,表示第j個隱藏神經元的激活度。

因此,SAE網絡的總體代價函數為:

在式(5)中,γ表示稀疏性懲罰項的權重,W和b分別表示各層神經元的權重和偏移量。

最后,通過訓練調整SAE網絡的參數,來最小化總代價函數,從而可以捕捉輸入圖像的細節特征。

1.3 改進CNN網絡設計

卷積神經網絡(Convolutional Neural Network,CNN)是一種包含卷積計算且有深度結構的前饋型網絡,神經元之間存在局部連接并共享權值。其主要包括卷積層、池化層、全連接層和輸出層[15]。

增加神經網絡模型的深度會得到更多特征[16],但獲得特征過多時,由于全連接層上要與每一個特征建立連接,會消耗更多的時間且容易發生過擬合。為了攻克這一難題,本文使用了Global Average Pooling(GAP)層取代全連接層。GAP是對空間信息的求和,應對空間變化具有更強的魯棒性。GAP方法簡化了特征圖與分類的轉換過程,能夠有效地減少參數的數量。

假設卷積層的最后輸出是h×w×d的三維特征圖,具體大小為6×6×3,經過GAP轉換后,變成了大小為1×1×3的輸出值,也就是每一層h×w會被平均化成一個值。可以看出GAP對降低模型復雜度起到很大的作用,其工作原理如圖2所示。

圖2 GAP工作原理示意圖Fig.2 GAP working principle diagram

除此之外,為減少參數的計算量,本文所用的卷積操作為深度可分離卷積。假設輸入特征圖的尺寸為DL×DL標準卷積層使用尺寸為DK×DK×M×N,其中DL代表輸入圖片的長度,DK代表空間維數,M為輸入通道數,N為輸出通道數。令stride步長為1,則輸出特征圖的計算量為DK×DK×M×N×DL×DL,深度可分離算法計算量則為DK×DK×M×DL×DL+M×N×DL×DL。將兩者進行對比可以得到如下公式:

從此公式中不難看出,深度可分離卷積方法的計算量大幅度減少,這也就意味著處理相同數量參數的情況下網絡層數可以做得更深。本文神經網絡如圖3所示。

圖3 改進神經網絡結構Fig.3 Structure of improved neural network

本文所設計的神經網絡包在輸入層增加SAE層并包含6個卷積層,SAE層通過兩層卷積提取圖像的細節特征,filter過濾次數為8,并在CNN的第二層將特征輸入到網絡中;CNN前5個卷積層每一層進行兩次卷積并歸一化,然后池化后連接下一層,其filter過濾次數由8到128遞增,最后一個卷積層進行一次卷積后與GAP層連接,filter數為1,然后進入輸出層得到分類結果。全局采用3×3的卷積核,選擇ReLU激活函數;池化方法為最大池化,使用GAP代替全連接層,輸出層用Softmax做表情的分類。視頻圖像通道工作流程如圖4所示。

2 語音模態設計

2.1 語音特征提取

語音特征的提取需要先對視頻進行處理實現音頻分離,目前有很多軟件可以實現該功能,本文選擇組合使用FFmpeg和Spleeter音頻分離工具,其中Spleeter可以將攝像頭采集到的視頻中的聲音信號抽離出來,FFmpeg則可以將音頻做進一步處理,區分出人聲和背景音樂。兩款工具都可以使用python工具包調用。

圖4 視頻圖像模態工作流程圖Fig.4 Flow chart of video image modal operation

語音信號是一種時變信號,其特征參數是不斷變化的,但從微觀的角度上看,很短時間的尺度上其特征可以保持一個穩定的狀態,這種短時間的語音片段成為幀,一般幀長取10 ms到30 ms[17]。本文選用漢明窗函數ωn和語音信號sn1相乘得到加窗語音信號sω(n),完成分幀操作,漢明窗函數公式如下:

分幀處理完成后,即可對這些預處理的語音片段進行特征提取。使用傳統特征(如韻律特征、音質特征、譜特征、Mel頻率倒譜系數)雖然在實驗中取得了不錯的識別效果[18-19],但是語音信號是不平穩的信號,只使用這些傳統的特征會出現識別效果受到局限的現象。因此本文選擇了韻律特征、梅爾倒譜系數(Mel),并引入了非線性屬性、非線性幾何特征在特征層進行融合。具體用深度受限波爾茲曼機(Deep-restricted Boltzmann Machine,DBM)實現。

DBM是受限波爾茲曼機(Restricted Boltzmann Machine,RBM)的一種。RBM包含一層可視層和一層隱藏層,在同一層的神經元之間是彼此獨立的,但是不同層的神經元之間存在雙向連接,在網絡進行訓練時信息在兩個方向上流動,且兩個方向上的權值相同。RBM是一種基于能量的概率分布模型。

多個RBM自下向上堆疊,下層輸出成為上層的輸入組成DBM,從而得到輸入特征的深層表示。本文采用三層RBM組成DBM,此時的能量函數如式(8):

聯合概率如式(9):

在給定可視層v/h的條件下,隱藏層第j個節點為1或者0的概率如式(10):

其損失函數如式(11):

其中,矩陣W表示信息在網絡中流動的權值,hj和vj表示hidden layer與visible layer中第j個神經元的狀態,向量a和向量b表示偏置,h和v表示神經元的狀態向量,θ表示由W、向量a和向量b組成的參數集合。

將樣本輸入RBM中后,根據隱藏層每個神經元的激活概率P(hj=1|v)和期望E(hj=1|v)組成輸出特征向量。訓練流程如圖5所示。

圖5 DBM訓練過程圖Fig.5 DBM training process diagram

搭建三層DBM網絡,將選取的四類特征在DBM中進行融合,得到深度的融合特征。每層DBM都是由三層RBM組成。首先將特征輸入到DBM1層中進行深度融合并降維,隱藏層輸出了特征1、特征2、特征3、特征4;將特征1、2,特征3、4線性拼接并輸入到DBM2層,經過深度融合并降維后得到特征5和特征6;重復該過程,特征5、6在DBM3層中成為融合特征,也就是輸入特征的深層表示。該過程如圖6所示。

2.2 改進LSTM網絡設計

在使用DBM網絡得到融合特征之后,還需要對語音情感進行分類。本文使用改進的長短期記憶網絡(Long-Short Term Memory,LSTM)。LSTM能存儲較長一段時間的有用信息,且能優化時間序列的分類任務,在語音識別的應用中,相較于傳統模型(時間遞歸神經網絡、隱馬爾科夫模型等),擁有更好的性能[20]。LSTM的優勢在于當前時刻的輸出受輸入和前一時刻的輸出的影響,可以考慮到特征的時序特性。使用的損失函數為交叉熵代價函數,其表達式為:

圖6 DBM網絡結構圖Fig.6 DBM network structure diagram

其中,xi代表語音數據,y(xi)表示xi對應的標簽,a代表數據的輸出值,a(xi)代表具體的xi對應的輸出值,n是數據的總數量。交叉熵代價函數在誤差大時權重調整的速度更快,誤差小時則權重更新慢,有效地提升了系統的處理速度。

在DBM和LSTM網絡中使用了可變權值的反向傳播算法(Back Propagation,BP)進行優化。對語言通道的網絡中增加BP可以增加網絡的非線性映射能力,用于處理獲取的非線性特征。BP使用梯度下降法調整節點間的權值ωij和節點b閾值,函數表達式(13)為:

其中,η代表神經網絡學習率,?代表偏微分運算,E表示標準誤差,為了解決隨著迭代次數的增加學習率η會下降的問題,改進的BP神經網絡學習率按照公式(14)進行更新:

其中,m為迭代次數,a為大于1小于2的常數,s是迭代學習率的尋找范圍。

識別網絡部分由三層LSTM堆疊,相較于傳統應用在語音識別中的兩層LSTM結構網絡結構更深,可以得到更多的特征,為了避免發生過擬合現象并提升處理的速度,用GAP層代替了全連接層,最后與softmax層連接。其輸入為DBM層處理后的融合特征,輸出為通過softmax層輸出的情感所屬分類與概率。語言通道神經網絡結構如圖7所示。

圖7 語言通道神經網絡結構Fig.7 Neural network structure of language channel

3 實驗與實驗結果分析

3.1 數據集處理

本文選用fer2013圖像數據集[21]和Cheavd2.0視頻數據集[22]進行實驗。fer2013由35 886張人臉表情圖片組成,是目前涵蓋不同國家及年齡跨度最廣的人臉表情數據庫,其樣本數量多且已經經過預處理,相比較從cheeavd2.0視頻中截取的圖片而言質量更高,以此作為訓練集可以使模型更加健壯,所以視頻圖像通道選用f2013數據集進行訓練,情感標簽為angry生氣、disgust厭惡、scared擔心、happy開心、sad傷心、surprised驚訝、natural自然。Cheavd2.0語音數據集由7 030個影視及綜藝情感視頻片段組成,涵蓋數據量大且接近真實環境,其平均長度在3.3 s,情感標簽為natural自然、angry生氣、happy快樂、sad悲傷、worried憂慮、anxious焦慮、surprise驚訝、disgust厭惡。兩者在情感分類上非常相似,在前期數據處理中將worried憂慮、anxious焦慮歸為scared擔心,使兩個數據庫在情感分類上保持一致,以便在決策層的融合。處理后的Cheavd2.0數據構成如表1所示。

表1 Cheavd2.0數據集Table 1 Cheavd2.0 data set

3.2 決策層融合策略

不同通道采用不同的神經網絡可以使單通道的識別率達到最高,而在決策層融合可以使識別結果的準確率得到提升。本文對CNN和LSTM網絡進行優化,在視頻圖像通道使用SAE獲取圖像的細節特征并與CNN獲取的特征進行融合,在語音通道的輸入中加入了非線性特征進行特征層融合,并在決策層依據權值準則對不同通道的識別結果進行融合,輸出識別結果與在各個分類上的概率。權值準則如下式所示:

其中,E為情感的類別,Pp為在視頻圖像通道上分類的概率,Pv為在語音通道上分類的概率,α和β分別為在兩個通道上的權值,本文取α=0.6,β=0.4。

3.3 實驗結果分析

表2統計了語音通道和視頻圖像通道的單模態改進算法相較于其他算法的識別效果對比。在語言通道上統一使用柏林語言情感數據集(EMO-DB)進行對比實驗,在視頻圖像通道上統一使用fer2013數據集進行對比實驗。

表2 單模態上識別效果對比Table 2 Comparison of identification results on single mode

由表2可知,在語音模態的對比中,本文所用方法優于其余三種方法;在圖像模態的對比中,本文所用方法的識別準確率僅略低于VGGNet+Focal Loss法,也取得了較好的識別效果。由此可知,本文提出的改進CNN和LSTM在單模態上是能進行有效識別的。

對于多通道融合的識別效果,本文用cheavd2.0的測試集進行驗證。由表3可知,圖像通道在使用SAE后可以提升識別準確率,語言通道經過DBM對特征融合后可提升識別的準確率,多模態融合后取得更高的識別準確率。由此可知多模態融合識別策略可以取得更好的識別效果。

表3 單模態與多模態識別效果對比Table 3 Comparison of single-mode and multi-mode recognition results

其在各類情感上的識別準確率如表4所示,在測試集上各種分類上識別結果的混淆矩陣如圖8所示。混淆矩陣的橫坐標代表預測情感分類結果,縱坐標代表樣本在不同情感上的實際分布情況。橫縱坐標一致時代表正確識別,不一致時則說明橫坐標所指情感被錯分到縱坐標所指情感類型;混淆矩陣可視性更強,可以看到樣本在所有情感類型上的分布情況,每個混淆矩陣代表一種識別結果,是對該識別統計表的補充。由表4和圖8可知在自然、開心、憤怒、傷心等情感識別中能取得很好的效果,被分到錯誤的情感類型上的樣本也較少,其中被錯分到自然情感類型上的樣本較多;由于厭惡情感的樣本數量較少,導致其識別準確率較低,只有59.5%,其中被錯分到自然和憤怒情感類型上的樣本最多。整體的識別準確率達到了74.9%,相較于傳統的單模態在識別精度上有所提升。

表4 Cheavd2.0測試集各類情感識別準確率統計表Table 4 Cheavd2.0 test set all kinds of emotion recognition accuracy statistical table

圖8 多模態識別結果混淆矩陣Fig.8 Confusion matrix of multimodal recognition results

表5統計了在多模態上,增加在eNTERFACE’05視頻情感數據集上進行的多模態情感識別對比實驗。數據集中情感分類的數目不一致,eNTERFACE’05數據集相較于Cheacd2.0數據集缺少了一個“自然”情感類型,因此對本文所提方法做出分類數量變化及其相關修改后進行實驗。由表5可知,本文設計的算法識別準確率在該數據集上也取得了較好的識別效果,僅略低于劉菁菁等[30]所提的基于Arousal-Valence Space法。

表5 多模態上識別效果對比Table 5 Comparison of identification results in multiple modes

本文實驗在Python3.6上實現,硬件平臺為Intel?Xeon?Silver 4210 CPU,主頻為2.2 GHz,內存為32 GB,GPU為NVIDIA Quadro P4000(8 GB)。本文除了驗證了所提方法在cheavd2.0數據集上的識別準確率,還實現了對使用者的情感實時檢測,實驗效果如圖9所示。

圖9 實驗效果展示Fig.9 Experimental effect display

4 結束語

本文提出一種基于視頻圖像和語音的多模態情感檢測方法并進行相關實驗,結果顯示,與傳統單一模態相比,多模態融合策略可以顯著提升情感分類的準確率;但是在某些情感分類上仍然較難,例如厭惡(disgust);由于這些情感的特征和其他情感相似,樣本的個數也較少,所以網絡需要進一步改良來強化對相似特征的區分。此外,融合腦電信號和肢體動作等對情感識別的準確率也有較明顯的提升,獲取可靠的其他模態的數據集并搭建合理的融合模型將成為接下來工作中的研究重點。

猜你喜歡
模態特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 成人中文在线| 2020精品极品国产色在线观看 | 欧美一级爱操视频| 成人毛片免费在线观看| 色综合综合网| 国产精品3p视频| 国产精品毛片一区视频播| 先锋资源久久| 中文字幕日韩丝袜一区| 91久久性奴调教国产免费| 中文字幕亚洲第一| 亚洲最大福利网站| 色综合日本| 国产精品久久自在自线观看| 一本久道久久综合多人| 久久精品91麻豆| 中文字幕第1页在线播| 亚洲人成网站在线观看播放不卡| 日韩福利视频导航| 亚洲性视频网站| 国产精品无码AV中文| 成人福利在线看| 97免费在线观看视频| 日韩精品一区二区三区中文无码| 国产本道久久一区二区三区| 九色综合伊人久久富二代| 国产午夜人做人免费视频中文 | 一级黄色网站在线免费看| 无码啪啪精品天堂浪潮av| 台湾AV国片精品女同性| 女人毛片a级大学毛片免费| 亚洲第一福利视频导航| 亚洲精品无码高潮喷水A| 色天天综合| 亚洲自偷自拍另类小说| 四虎国产永久在线观看| 国产欧美日韩专区发布| 免费啪啪网址| 国产福利免费在线观看| 国产亚洲精品无码专| 日韩精品欧美国产在线| 2021国产在线视频| 国产午夜看片| 国产在线一区视频| 亚卅精品无码久久毛片乌克兰| 免费看美女毛片| 亚洲美女操| 亚洲精品免费网站| 欧美一级大片在线观看| 成人午夜网址| 国产精品3p视频| 日韩精品亚洲一区中文字幕| 女人爽到高潮免费视频大全| 天天操天天噜| 精品国产成人三级在线观看| 色噜噜综合网| 国产日本视频91| 亚洲日本韩在线观看| 亚洲中文字幕日产无码2021| 毛片网站免费在线观看| 少妇露出福利视频| 日韩免费毛片| 国产精品毛片在线直播完整版| 精品第一国产综合精品Aⅴ| 久久国产亚洲欧美日韩精品| 日韩无码真实干出血视频| 人与鲁专区| 欧美一级黄片一区2区| 91久久夜色精品国产网站| 自偷自拍三级全三级视频| 996免费视频国产在线播放| 伊人成人在线| 欧美精品不卡| 日本免费高清一区| 欧亚日韩Av| 国产精品亚洲精品爽爽| 日本免费高清一区| 亚洲色欲色欲www网| 久久黄色毛片| 黄色国产在线| 激情无码字幕综合| 国产精品亚洲精品爽爽|