999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合說話者特征的個性化自然語音情感識別

2023-01-31 09:41:06鄭純軍
計算機應用與軟件 2022年12期
關鍵詞:分類特征情感

賈 寧 鄭純軍,2 孫 偉

1(大連東軟信息學院 遼寧 大連 116023) 2(大連海事大學 遼寧 大連 116023)

0 引 言

語音作為人類交流最方便、最自然的媒介,是相互傳遞信息時采取的最基本、最直接的途徑。語音包含多種不同類型的信息,可以表達豐富的情感信息[1]。

語音情感識別旨在通過語音信號識別說話者的正確情緒狀態,目前對于情感的研究仍然處于學科交叉的領域,至今也未有統一的定義與規范。由于語音并非情感生理信號的完整表達形式,在忽略其余感官結果的前提下,如何高效而精確地識別用戶表達的情感,是近年來語音學研究的熱點領域[2]。總體上,目前的語音情感的整體識別率較低,泛化能力不強,主要來源于以下情感特征提取方法和模型設計等方面的制約。

從富有情感的語音數據中學習有用的聲學特征。主要方法有三種,分別為:

(1) 采用手工制作的特征[3]。從原始音頻文件中提取手工特征,捕獲最原始的不同類型的聲學特征,從而判定該特征所屬的語音學任務類型。

(2) 將傳統特征與深度學習模型融合[4],在交叉領域中突出特征的重點,由于不同任務的側重點不同,其融合的方式體現多樣化、個性化的特點。

(3) 通過對原始音頻信號進行分析,獲取其中的情感影響因子與規律。

由于第3種方式導致情感特征維數過多,過度增加了語音情感識別過程的計算量,也就無形中增加了語音情感識別系統的空間復雜度和時間復雜度[5],因此常用前兩種方法進行特征提取。

深度學習方法可以從不同層次的輸入中學習有效的語音信號的非線性表現形式,目前已經廣泛應用于語音情感模型設計中,目前常見的深度學習模型可以分為有監督和無監督兩種,針對語音情感識別任務,主要采用深度神經網絡(Deep Neural Network,DNN)[6]、卷積神經網絡(Convolutional Neural Network,CNN)[7]、循環神經網絡(Recurrent Neural Network,RNN)[8]、卷積循環神經網絡(Convolutional Recurrent Neural Network,CRNN)[9]等有監督模型,為了突出不同任務的信號特征,還會融合多通道識別技術和注意力機制來進行情感識別。

然而,大多數研究集中于通用語料庫上的具有泛化性能的模型和識別方案設計,現有的開源語料庫往往存在數據量不足、傾斜現象、包含背景噪聲、多為外文語料、標注結果精度不夠等缺陷,而且鮮有專家對不同語料庫的特征之間、不同說話者之間、個性化特征與模型的相關性之間進行充分的挖掘,直接導致現有的模型進行語音情感識別任務的準確率不高。

圍繞上述問題,本文針對語音情感特征提取、個性化的深度學習模型設計和學習方案等方面開展了相關的研究,提出一種基于自建成人情感語料庫、具備說話者個性化特征的、準確率較高的語音情感識別模型。

1 成人自然情感語料庫設計

目前,常見的情感采集方案主要針對自然語音、誘導語音和表演語音進行設計[10]。自然語音是在自然條件下的真實情感表達,它包含最佳的情感數據,但采集困難,而且涉及復雜的后期數據處理和背景噪聲分離操作。誘導語音則是在固定的場景模型下激發個人的情感,一般在專業環境下采集,因此背景噪聲較少,因其誘發的情感將說話人帶入特定的場景,其具備一定的真實性,但是無法衡量說話人表達情緒的刻意程度。表演語音是基于指定臺詞的目標情緒表演,它的刻意性較強,而且情緒表達過于飽滿,與自然語音的表達存在一定的差異。然而針對此類語音,它的采集方式是最便捷的。

為了確保情感語料庫數據的覆蓋面和規模,本文主要采集自然語音和誘導語音,并將其有效地融合在一起,其目標是設計一個規模大、年齡層覆蓋面廣、情感類別平衡、語音質量高、情感表達基本正確的情感語音數據庫。目前,此數據庫中收錄的情感包括高興、憤怒、平靜和悲傷四種情緒。

為有效地實現誘導語音設計,準備了30條相關的中文語料信息,這些語料信息多為對話的形式,它的內容多數存在情感分歧,即情感的表達與語義無關,而且具備濃重的語音信息,要求受試者在融入特定環境后,以多種方式恰當地表達特定的幾種感情。現有受試者為16人,年齡分布在19至40歲之間,男女比例平衡。

自然語音的采集使用特定的語音采集裝置。采集裝置存放于小范圍內的室內場所,例如家庭、寢室、社區、小型診所等,可使用語音喚醒的方式,與特定人群進行語音溝通,記錄說話者的音頻數據。由于采集裝置的提示信息為日常的生活用語,說話者在回答時一般較為自然,可以判定為自然語音。此設備存在的問題是,錄制的語音可能存在背景噪聲,需要后期統一處理。

為保證數據集中處理的正確性,本數據庫的錄音文件以WAV格式保存,音頻文件采樣率為16 000 Hz,精度為16 bit,采用單聲道進行錄制。

在此基礎上,對原始情感語料庫數據進行標注,采用多級別刻度方式,每種情感分為4個等級刻度表,等級1的情感表達最弱,等級4的表達最強,每個音頻均需標識四類情感的等級。數據標注過程分為預判階段和正式階段,預判階段時需要在獨立標注10至20個音頻的基礎上,進行專家組商討并確定標注規范,當多數專家觀點一致時,可進行正式標注。

標注完畢后,使用迭代的優化貪婪算法進行專家置信度的更新和標注結果的判斷。針對所有標注專家,每個音頻的標注準確率與上一次可信度的均值作為基準值,然后分別計算每個專家的標注結果與基準值的相關系數作為衡量其新的可信度的指標。隨著標記數量的增多,可信度的指標即時進行調整,在得到新的可信度指標后,重新計算當前的標注結果,即將所有人的標注結果和權重加權求和,得到最終確定的標注刻度結果。具體公式如下。

(1)

(2)

(3)

(4)

由于每個音頻表達的情緒不止一種,基于此種方案,可獲得音頻每種情緒的表達級別。同時動態調整專家對整體標注結果的貢獻率,提升語料庫的整體評價水平。

2 個性化語音情感識別模型設計

2.1 總體設計

隨著情感語音數據量的增加,采用傳統的機器學習方法無法有效地處理高維數據,分析高階的內部關聯。基于此,可將目前流行的深度學習技術引入其中,深入挖掘情感特征與模型之間的隱藏關系。

然而,由于說話者之間的差異,導致語音信息并非是情感表達的唯一關鍵要素,因此,基于語音建立一個通用的情感的判別模型是非常困難的。在沒有其他模態數據輔助的前提下,可以通過將說話者的特征與情感識別模型相結合來提高識別的準確率,此時建立的模型具有很強的個性化信息,在指定的應用場景內,針對每類說話者定向建立情感識別模型,通過類內模型的微調,識別針對類內某人的情感表達。

模型整體分為兩個階段:說話者分類階段和語音情感識別階段。前一個階段使用多組大尺寸的1維CNN,在定位說話人員所屬類別的同時,提取倒數第二個隱藏層的特征。第二個階段將針對個體說話者進行情感語音識別,除第一個階段提取的特征之外,還添加語譜圖特征和CRNN模型,融合兩者進行微調訓練,以達到最佳的情感識別效果。圖1是模型整體設計思路。

圖1 模型總體設計方案

2.2 說話者分類模型設計

目前,用于說話者識別的經典模型有高斯混合-通用背景模型(GMM-UBM)、聯合因子分析(JFA)、i-vector[11]、x-vector[12]等,此類模型均是基于模板匹配的方法,從通用的模型中尋找最接近的說話者判別結果,這種形式適用于單任務的模型訓練,且效果良好。

考慮到當前模型還需同時解決情感識別任務,如果僅針對個體識別創建模型,那么模型生成的中間結果將無法復用,此時將導致計算效率較低,浪費系統資源。基于此,本文的目標之一是尋找一種同時適用于說話者分類和情感識別的模型,將說話者的身份細化到某一類別,而并非某個人,同時配合各個階段有效的特征表達,在保證識別準確率的同時,提升識別效率。

考慮到情感語音信號復雜度較高,而且含有未知的噪聲,本文使用RASTA(Relative Spectral)[13]濾波后的梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficents,MFCC)[14]作為輸入特征。MFCC是目前語音情感識別中使用頻率最高、最有效的譜特征,它是基于人耳的聽覺機理而設計的。MFCC一共有13個參數,可結合一階和二階差分共同使用,常用的MFCC為1-4,其有效性較高。RASTA濾波器通過對于聲道的補償,消除背景噪聲對于短時頻譜的負面影響,從而降低噪聲的負面影響。

具體流程如下,在分幀和加窗的基礎上,以幀為單位進行離散傅里葉變換,同時計算對數幅度頻譜,在等帶寬的梅爾濾波器組濾波和離散余弦變換的基礎上,進行RASTA濾波,最終變換獲得RASTA-MFCC特征。計算流程如圖2所示。

圖2 RASTA-MFCC計算流程

在獲得特征的同時,設計說話者分類模型,模型結構如圖3所示。考慮到全部頻帶對于模型的影響,此處設計4個卷積層,均為大尺寸的一維卷積濾波器組,尺寸分別是320×5,1 000×5,1 000×1,1 000×1,每類濾波器的步長均為1,每個卷積層之間使用最大池化進行分隔,其后添加2個全連接層和1個Softmax層,從而獲得說話者的分類信息。

圖3 說話者分類模型

此模型在說話人分類時主要考慮2個要素:性別和基頻。因此,模型的Softmax的初始類別數目是5(2個要素和1個其他類別),模型的輸出為說話者所屬類別,隨著受試者人數的增多,模型的第5個類別(其他)將不斷微調,當第5個類別數量與最多類別的數量相當時,將合并相似的聲紋信息,分裂出新的類別。類別總數不超過10個。

由于不同的說話者類別在情感表達時的差異較大,為了進一步提升情感表達的精度,可以將說話者類別的特征作為附加語音情感特征,以縮小說話者類別對于情感表達識別產生的負面影響。

由于第2個全連接層的維度過少,本文考慮將說話者模型的第1個全連接層的輸出用于情感特征的高級表達,與情感識別的特征組合進行第二階段訓練。

2.3 語音情感識別模型

由于不同說話者的發音習慣、發音方式、情感表達均不相同,其個性化的音頻數據無法設計統一的識別模型參數,而且識別準確率會受到個體因素的影響。基于此,可針對上個階段分類出的每位說話者,分別建立情感識別模型,該模型的特點是,采用通用的識別特征選擇和識別模型的結構,但是通過深度學習獲取各個模型的不同參數,從而突出個性化的特點。

在模型設計之前,首先需要完成語音信號與背景的信息分離,只保留與說話者聲音有關的信息,可以將這個過程理解為簡化版的去噪方案,此處選擇軟硬閾值折中的小波去噪方法。小波變換[15]在時頻域都具有表征信號局部特征的能力,適合于環境噪聲等背景信息的抽取。具體公式如下:

(5)

(6)

通過小波去噪獲得了表征能力較強的音頻數據,然后針對此類數據進行特征提取,此時采用第一種手工制作的形式,將獲得的音頻信號進行時域和頻域的切換,將其轉化為頻譜圖的特征形式,此時原有的二維形式被轉換成了三維的坐標形式,即語譜圖。圖4描述了語譜圖的生成過程。此時將針對音頻的處理轉換為針對圖像的處理過程,可采用深度學習中的圖像處理技術輔助完成模型設計。

圖4 語譜圖生成流程

針對語譜圖,本文設計有效的CRNN模型。其中,CNN模型與第一階段相似,由3層卷積層、3層池化層和2層全連接層,共8層構成,第一層卷積層的輸入信息規模為310×310×3,其中:310為語譜圖的長度和寬度;3表示RGB三個通道。語譜圖經過64個大小為3×3的卷積核,以步長為1的卷積操作后產生64個特征圖,然后使用ReLU激活函數,經過最大池化操作后得到64個特征圖,第2層卷積層的輸入源即第1層的輸出特征圖,計算過程與第1層一樣,第3層同理,接下來是2層全連接層,每層為1 024個神經元,在此層上做Dropout操作,防止模型過擬合。

由于語音信號是基于時間序列的信息,其上下文之間存在著一定的關聯,因此,除了設計適用于圖像識別的CNN之外,同時考慮增加具有短期記憶能力的神經網絡模型,引入LSTM來控制信息的累積速度,有選擇地加入新的信息,并有選擇地遺忘之前積累的信息。

此處采用了雙向3層的LSTM模型,雙向是指存在兩個信息傳遞相反的循環層,第1層按時間順序傳遞信息,第2層按時間逆序傳遞信息。它意味著過去和未來的信息均可以成功捕獲,這是由于情感的時序因素,它可以由前后若干幀的信息共同決定,因此按照上述思路設計了3組雙向LSTM模型,以利用上下文的個性化信息進行更準確的情感判斷和參數學習。

語音情感識別模型如圖5所示。除CRNN模型之外,在第1階段獲取的高級特征表示被添加至其中,與此時獲取的特征共同完成訓練過程,兩組特征集合均為1 024維。其中,個性化特征體現在以下3處:

(1) 高級特征表示由每個語音獨立生成,是上一個階段模型的產物。

(2) 此處的CRNN模型為每一個說話人類別的定向模型,即針對每類說話人分別進行訓練所得。

(3) 原始說話人分類依據:性別和基頻,為每個類別提供了原始的通用信息,一定程度上抑制其他類別的混入噪聲。

圖5 語音情感識別模型

3 實驗設計與結果分析

3.1 實驗準備

本文分別使用自建成人自然情感語料庫和Interactive Emotional Dyadic Motion Capture(IEMOCAP)情感語料庫進行實驗。

自建成人自然情感語料庫現有13 500余條有效語音,采用雙重標注信息,第一層為情感標注,主要包括高興、憤怒、平靜和悲傷等4類情感。其中每類情感數據量較均衡。第二層為說話人分類標注,包括高基頻(男和女)、低基頻(男和女)、其他等5類。隨著訓練數據的增加,其他類別可再次分裂。受試者均為成年男女,一共為16人,其中男女各占50%,以18至30歲為主,少數30至40歲。

IEMOCAP數據集是使用動作、音頻、視頻錄制的具有10個主題的5個二元會話中收集的,側重于表達二元相互作用。每個會話由一個男性和一個女性演員執行腳本,并參與通過情感場景提示引發的自發的即興對話。此數據集一共有10 039個標準語音,僅包含情感標注信息。需要將相關的同類情感進行合并操作,去除關聯度較小的樣本,最終使用4類情感數據:將excited類與happiness類別合并,除此之外,還有sad類別、angry類別和neutral類別。其余類別的樣本數據均被丟棄。基于此種分類方法,共保留5 531個樣本,每類樣本的數據量為angry:1 103,happy:1 636,neutral:1 708,sad:1 084。

除了angry和sad類別的樣本量偏少之外,其他類別的情緒樣本數據量較均衡。

針對兩個數據集,分別使用五折交叉驗證方法進行實驗。80%數據用于訓練深度神經網絡,剩余的數據被用于驗證和準確性測試。

在對語音數據進行預處理時,標準窗口大小為25 ms,偏移量為10 ms。特征被標準化為零均值。

在CNN和CRNN模型中,Batch的大小為100,最大輪次數為100 000。同時設置學習速率為0.001。Dropout為0.5。采用ReLU作為激活函數,Adam作為優化器,使用均方誤差作為損失函數。

3.2 說話者分類實驗

針對說話者特征的分類,設計相關的實驗,利用自建成人自然情感語料庫進行訓練,通過自建成人語料庫和IEMOCAP數據集進行測試。使用TensorFlow框架進行網絡模型結構的搭建,本文將當前說話者識別模型與i-vector、x-vector和基于VGG網絡的方法進行比較[16]。其中,基線:i-vector;模型1:VGG;模型2:x-vector(PLDA);模型3:CNN(MFCC);模型4:當前模型CNN(RASTA-MFCC)。

表1和表2僅列出自建成人語料庫的說話者分類模型的測試結果和不同說話者類別比例。

表1 說話者分類模型的測試結果

表2 不同說話者類別比例

由表1中的測試結果可知,在相同數據源的條件下,本文提出的模型與i-vector效果持平,但明顯優于VGG方法和x-vector。與i-vector相比,除了可以獲得相似聲紋的數據之外,當前模型還可以獲得語音情感的高維表達,進一步提升情感識別的準確率。表2中提供了自建成人語料庫的說話者分類信息,可以看出,84%的說話者可以隸屬于前4個分類,其他類別的說話者比例較低,因此無須分裂出第5個類別。

3.3 語音情感識別實驗

針對語音中情感表達的識別,利用自建成人自然情感語料庫和IEMOCAP數據集進行訓練和測試,使用TensorFlow框架進行網絡模型結構的搭建,為了避免不同情感數量不均衡產生的影響,本文采用加權精度(Weighted accuracy,WA)和未加權精度(Unweighted accuracy,UA)作為指標,針對不同的情感分類模型進行測試。

實驗以未使用說話者分類特征的CRNN模型作為基線,其輸入語音為原始音頻,未經任何處理。同時對比以下幾個模型,模型1:處理后音頻+單向3層LSTM;模型2:處理后音頻+雙向3層LSTM;模型3:處理后音頻+CRNN;模型4:當前模型(處理后音頻+CRNN+第一階段高級表達)。這里的UA和WA分別代表所有類別模型準確率的平均值,分別計算每個模型的情感識別的準確性。表3為經過實驗驗證后,不同語音情感識別模型的準確度。

表3 語音情感識別模型的測試結果(%)

由表3可知,針對兩個數據集合,當前模型的表現最佳,擁有最優的平均WA和UA,超過未使用說話者分類特征的模型和未處理音頻數據的模型。由此可以確定,融合了說話者分類特征的模型可以提升情感識別的精度,確定了語譜圖對于情感識別任務的積極作用。

圖6描述了針對自建語料庫,當前情感識別模型的誤差變化趨勢,以Batch的大小作為衡量周期,可以看出,平均在Batch為1 900時,模型趨于穩定狀態。

圖6 語音情感識別模型誤差

表4是針對自建語料庫中的音頻,使用當前模型進行情感識別的混淆矩陣。可以看出,對于喚醒度較高的情緒,識別準確度較高,例如高興、憤怒等類別。反之,針對平靜、悲傷等喚醒度較低的類別,識別準確率較低。

表4 語音情感類別混淆矩陣(%)

4 結 語

從語音中識別特定的情感是一項具有挑戰性的任務,其結果常常依賴于語音信號特征的準確性和模型的有效性。本文設計一種針對個性化特征的、結合說話者分類任務、多級別特征、識別準確率較高的深度學習模型。在多任務語音情感特征提取、個性化神經網絡模型設計和成人自然情感語料庫設計等方面開展了相關的研究,通過實驗驗證,本文模型的識別準確度較高。

在未來的研究過程中,將從語音識別入手,尋求一種通用的網絡結構,結合顯著性區域特征,實現對于語音情感識別任務的泛化能力和效率的提升;考慮到長語音中可能夾雜多種不同的情感,將考慮通過模型的調整實現多標簽的語音情感識別。

猜你喜歡
分類特征情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 欧美国产日韩另类| 精品成人免费自拍视频| 欧美特黄一免在线观看| 波多野结衣视频网站| 91黄色在线观看| 国产三级毛片| 无码国产偷倩在线播放老年人| 亚洲一级毛片免费观看| 亚洲第一黄片大全| 九九久久99精品| 国产日韩av在线播放| 欧美影院久久| h网站在线播放| 日本人又色又爽的视频| 精品少妇人妻av无码久久| 午夜无码一区二区三区| 四虎在线观看视频高清无码| 国产欧美精品专区一区二区| 国产黄网站在线观看| 欧美另类图片视频无弹跳第一页| 亚洲欧美人成电影在线观看| 成人日韩精品| 国产成人精品一区二区免费看京| 漂亮人妻被中出中文字幕久久| 亚洲水蜜桃久久综合网站| 日韩在线网址| 人妻丰满熟妇αv无码| 中文字幕 日韩 欧美| 香蕉99国内自产自拍视频| 国产区成人精品视频| 亚洲最新网址| 在线高清亚洲精品二区| 国产成人免费观看在线视频| julia中文字幕久久亚洲| 国产精品视频999| 9丨情侣偷在线精品国产| 99re精彩视频| 中文字幕无码制服中字| 日本高清在线看免费观看| 重口调教一区二区视频| 福利一区在线| 亚洲最大综合网| 亚洲国产成人超福利久久精品| 久久综合伊人77777| 99热这里只有精品在线播放| 亚洲欧美日韩中文字幕在线一区| 国产精品30p| 一区二区三区高清视频国产女人| 动漫精品中文字幕无码| 狠狠做深爱婷婷久久一区| 日本亚洲国产一区二区三区| 国产正在播放| 2021国产v亚洲v天堂无码| 99热国产在线精品99| 亚洲精品国产精品乱码不卞| 国产乱子伦手机在线| 香蕉久久国产超碰青草| 欧美成人区| 久久99国产综合精品1| 国产国产人免费视频成18| 青青草欧美| 欧美成人a∨视频免费观看| 国产情精品嫩草影院88av| 日本午夜视频在线观看| 97se亚洲综合在线韩国专区福利| 日韩无码精品人妻| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 精品成人一区二区| 久久黄色毛片| 91在线播放免费不卡无毒| 亚洲成人在线免费| 浮力影院国产第一页| 一级毛片无毒不卡直接观看| 日韩第九页| 日韩毛片免费| 91亚洲视频下载| 自拍偷拍欧美日韩| 全部免费毛片免费播放| 性色一区| 一区二区三区精品视频在线观看| 亚洲欧美天堂网| 国产激情第一页|