999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向數據增強的多種語音情感分類算法研究

2021-06-10 17:21:40李茜茜沈曉燕任福繼康鑫
智能系統學報 2021年1期
關鍵詞:分類特征信號

李茜茜,沈曉燕,任福繼,康鑫

(1. 南通大學 信息科學技術學院,江蘇 南通 226019; 2. 日本德島大學 智能信息工學部,日本 德島 7708501)

語音情感識別是人工智能的一個重大研究領域。人機交互中,語音是最直接的交流方式,對人的情感和認知的研究是人工智能的一個質的進步。語音情感識別是利用計算機對輸入語音的情緒狀態進行自動化識別。它在心理健康監測、教育輔助、個性化內容推薦、客戶服務質量監測等領域具有廣闊的應用前景。

目前的語音情感識別主要由以下幾個過程構成:預處理、特征提取和情感分類。預處理方面的研究主要集中在數據庫的處理和降噪等方面。當使用機器學習進行語音情感識別時,經常需要大量的訓練數據,若數據集太少,則會出現過擬合的缺陷。為了能夠在小樣本數據集上進行算法的訓練識別,對樣本引進增強變換,增加樣本數據量[1],可以達到提高識別率的目的。Chatziagapi等[2]使用生成對抗性網絡(generative adversarial nets, GANs)生成聲譜圖,對原有的樣本進行數據增強,在IEMOCAP和FEEL-25k情感數據庫上得到的未加權平均召回率為53.6%和54.6%。語音樣本中夾雜著混響和附加噪聲,這對語音情感識別的性能有不利影響。在預處理階段,減少或消除混響和加性噪聲稱為去噪,也稱為語音增強[3]。任福繼等[4]在2016年提出了一種通過人工修改標簽和降低噪音來對數據集進行預處理的方法。川瀨友子等[5]提出了一種自動切換降噪參數的方法,使得自動語音識別的準確率最大化。然而,大多數的去噪方法都不能很好地濾除噪音,因為信噪比和峰值信噪比太小。由于不可能對這種高噪聲數據進行完全去噪,Yousefi等[6]提出采用增強方法來提高數據質量。但是語音情感識別領域中,使用數據增強方法來提高識別率的研究較少,多被用于圖像識別。

與特征提取方面相關的研究有特征選擇和特征融合等。Reda Elbarougy等[7]認為,在提取情感特征時,應該考慮聲學特征和情感狀態之間的相關性。在語音情感識別中,特征選擇是提高識別準確率的重要步驟。從語音信號中可以提取出多個特征,然而哪一組特征與說話人的情緒狀態最相關還在研究中。到目前為止,與情緒狀態相關的特征少之又少。關于情感識別分類階段,也有不少研究者提出了各種情感分類算法,并推陳出新。Karttikeya等[8]提出了2種監督式學習的語音情感識別方法,但是由于訓練樣本稀少,在IEMOCAP語料庫的識別率只達到了69.1%。

本文針對語音樣本不足和現階段語音情感識別提取的無關特征多的問題,提出了面向數據增強的語音情感識別方法。

1 研究方法

本節介紹了一種面向數據增強的語音情感識別方法,其系統總體結構如圖1所示。系統包括預處理、特征提取與分類識別3個過程。在預處理階段,原始數據集的聲音樣本首先經過時域和頻域2個方向的數據增強形成新的樣本。新生成的樣本與原始的情感數據庫被一起送入特征提取部分。在特征提取過程,使用openSMILE2.3.0提取1 582維的情感特征和10組低級描述特征,然后按照訓練和測試比例6:1的概率送入3種分類算法模型中,最后對比得到每種情感的識別結果。

圖1 基于數據增強的語音情感識別系統Fig. 1 Speech emotion recognition system based on data enhancement

2 預處理

2.1 預處理?數據增強

數據增強對解決數據過擬合問題有極大的幫助,主要應用于現在的圖像識別等領域,而在語音識別領域的數據增強方法甚少。它是指通過增大訓練的數據集來充分利用已有的數據集,達到提高識別率的目的。目前圖像識別領域常用的數據增強方法有旋轉、翻轉變換、縮放變換、噪聲擾動和尺度變換等。對原始數據庫的圖像進行改變來增加數據庫樣本。Cubuk等[9]提出了一種自動數據增強方法,使用搜索算法來尋找最佳策略,使得神經網絡對目標數據集產生最高的驗證精度,他們的方法在cifar-10、cifar-100、svhn和imagenet 上達到了最高精度,其中在imagenet 的數據集獲得了83.5% 的準確率。

圖2 男性與女性聲調頻率范圍Fig. 2 Male and female tone frequency range

2.1.1 基于時域的數據增強方法

信號在時域上的N次抽取,也稱為采樣率壓縮,會導致原始序列頻譜的N倍擴展;信號在時域上的P次插值,也稱為采樣率擴張,會導致原始序列頻譜的P倍壓縮。將抽取和插值結合起來,可以實現信號頻率的N/P倍變換,當N>P時,頻率升高;當N<P時,頻率降低。時域信號的N次抽取原理如圖3所示,設x(n) 為原始樣本信號,經過N次抽取后生成為xn(n),那么xn(n)=x(Nn)。x(n) 的 頻 譜 為X(ejω),N次 抽 取 后 頻 譜 展 寬 為Xn(ejω)。經過N次抽取變換后,頻譜展寬。

圖3 時域信號的N次抽取Fig. 3N-times extraction of time domain signals

同理,時域信號的P次插值如圖4所示。x(n)為原始樣本信號,經過P次插值生成xc(n)。然而,進行抽取時,原始信號的頻譜被周期拓展,如果原始信號最高頻率大于抽取之后采樣率的一半就會發生混疊(如果是復信號,則信號最高頻率大于抽取之后采樣率就會發生混疊)。h(n) 為防混疊濾波器。一般是先進行插值再進行抽取,以免造成頻率混疊。x(n) 經過P次插值后生成信號xp(n)。 其 頻 譜X(ejω) 相 對 應 的 變 換 為XP(ejω)。根據圖5,抽取和插值可以實現信號頻率的變換。選擇合適的P和N,就能改變采樣率。聲音信號經過時域上的抽取和插值,改變了原始信號的頻率。在此基礎上,可以改變男性聲調和女性聲調的基本頻率,達到男性聲音和女性聲音轉換的目的。

2.1.2 基于頻域的數據增強方法

頻域變換的目的是改變原始聲音樣本的頻譜,使男女聲音互換。基音調整可以看作是頻率的一種音階變換。因為音調的高低是由頻率決定的。頻率越高,音調就越高。通過對信號進行快速傅里葉變換(fast fourier transformation, FFT),可以在頻域內進行變換,將整個頻譜向左或向右移動100 Hz。然后進行反向快速傅里葉變換(inverse fast fourier transformation, IFFT)將音高返回到時間域。男聲和女聲的基本頻率可以通過左右變換來改變,從而實現男聲和女聲的轉換。

圖4 時域信號的P次插值Fig. 4P-times interpolation of time domain signals

圖5 時域信號的P/N次變換Fig. 5P/N-times transformation of time domain signals

2.1.3 數據增強前后的語譜圖比較

語譜圖是一種以二維的平面表達三維信息的語音信號頻譜圖。其橫軸代表時間,縱軸代表頻率,顏色的深淺代表語音信號的強弱。圖6(a)、(b)分別為未使用數據增強方法的樣本語譜圖和使用了數據增強后的樣本語譜圖。使用了數據增強后的語譜圖,顏色清晰,并未發現模糊或者樣本損壞的情況。

總之,無人機測繪技術目前已運用到多個領域中,國家大力支持此技術的研究,鼓勵在民用領域中運用,以發揮更大作用。在工程項目測量過程中,為了綜合了解整個工程項目的基本情況,完善工程規劃,使用無人機進行測繪時,監測到的范圍和尺度也較大,具有極高的監測效率,高空作業效果顯著,同時可與多項技術設備結合使用,大幅提高工程測量的質量和效率。因此,在工程測量過程中,在復雜的環境下合理設置無人機基本參數,定向分析采集數據信息,及時反饋高清圖像,確保工程測量中無人機測繪作業的安全性,可提高工程測量的效率。

圖6 相同樣本的語譜圖比較Fig. 6 Comparison of the spectrogram of same sample

2.2 特征提取

本文使用openSMILE2.3.0提取了1 582維的情感特征,該特征集包含的1 582個特征是由34個低級描述特征和34個相應的變量作為68個低級描述特征輪廓值,在此基礎上應用21個函數得到1 428個特征,另外,對4個基于音高的低級描述特征及其4個變量系數應用了19個函數得到152個特征,最后附加音高(偽音節)的數量和總體輸入的持續時間(2個特征)。此外,還著重分析了10個低級描述符的情感識別率,主要包括:F0Final、F0finEnv、jitterDDp、jitterLocal、log-MelFreqBand、lsqFreq、pcm_fftMag_mfcc、pcm_loudness、shimmerLocal、voicingFinalUnclipped[11]。

3 語音情感分類算法

在本節詳細介紹使用的3種機器學習分類算法:支持向量機、隨機森林和K最鄰近(K- nearest neighbor)。

3.1 支持向量機

支持向量機是Vapnik等[12-14]在20世紀90年代提出的一種新的機器學習方法。它是一種廣義的線性分類算法,對數據按監督式學習進行二進制分類。支持向量機的基本思想是通過對非線性可分離樣本進行非線性變換,將其輸入向量映射到另一個高維空間。為了在這個新空間中實現線性可分,尋找最優分類超平面,使超平面與不同類別的樣本集之間的距離達到最大,從而達到最大的泛化能力。它已經演變成4種類型:

1)線性可分類型。

當想要分割2種數據類型時,至少存在一個分割平面,可以使2種類型完全分離,這種類型沒有邊界最大化,因此不能很好地控制錯誤,稱為線性可分類型。

2) 線性類型。

無法徹底地分割2種數據類型,但可以使絕大多數的數據分割,這種類型稱為線性類型。

3) 非線性類型。

當一個類型不是線性可分的時候,支持向量機通過提供一個“軟邊界”來處理數據分類,即允許一組數據中的一些元素落在另一邊,但允許它們通過這個超平面而不產生任何重大異常,允許系統變得不那么嚴格和更健壯。

4) 核函數。

核函數的目的是將原始被分類數據映射到更高維度的空間去進行分類,將原本線性不可分類型在高緯度變成線性可分。

3.2K最鄰近

在模式識別領域,K最鄰近算法是一種用于分類和回歸的非參數統計方法。輸入包含特征空間中K個最接近的訓練樣本。作為一種應用廣泛的分類方法,K最鄰近擁有屬性簡單、無需參數、分類效果好的優點。

其分類的基本思想是:在K最鄰近分類中,輸出是一個分類組。一個物體的分類是由它的鄰居的“多數票”[15-18]決定的。在K個最近鄰中最常見的分類(是一個正整數,通常很小)決定了分配給標簽的分類。如果K=1,則對象的類別由最近的節點直接賦值。

3.3 隨機森林

隨機森林是一種基于“一組弱估計,組合在一起,形成一個強估計”原理的集成算法,本文設計的隨機森林分類器是一組100個決策樹。讓X和Y分別代表情緒的總數和樣本的總數。為每個決策樹選擇一組引導程序樣本。然后通過在每個節點上賦予y<Y變量來構建決策樹,直到用盡所有的變量。在樹的每個節點上,用它們的變量擬合分類模型,并找出截斷點。經過訓練,未知樣本的種類預測可以通過所有個體樹的所有預測等級中的大多數投票來決定[19-22]。

4 實驗結果與分析

4.1 提取1 582維特征的識別結果

在這一部分,主要介紹基于支持向量機、隨機森林和K最鄰近3種分類算法的識別率。對于實驗數據,本文使用柏林的情感語料庫EMODB。這是柏林理工大學錄制的、德語情感語音數據庫。采用7種情緒(生氣、無聊、厭惡、害怕、高興、中性、悲傷)模擬10種情緒(男5例、女5例),共計800句。經過篩選,該語料庫保留了233個男性情感句和302個女性情感句,共計535個句子[12]。本文利用數據增強來擴展原始柏林情感語料庫,將樣本量增加到700個句子。以其中的600個句子作為訓練集,100個句子作為測試集。

從圖7得出,基于支持向量機算法的平均識別率達到86.65%。在這個模型中,無聊、害怕和中性的識別率較高。然而,厭惡的識別率很低。支持向量機算法是解決高維特征分類問題的有效方法。當特征維數大于樣本數時,仍然有較好的效果。核函數的數量很多,可以很靈活地解決各種非線性分類回歸問題。當樣本量不是海量數據時,分類精度高,泛化能力強。

如圖8所示,基于隨機森林的1 582維特征的識別率中,中性和悲傷的識別率較高,而厭惡的識別率很低,只有15.38%。隨機森林的平均識別率為61.14%,與支持向量機算法相比較低。

如圖9所示,K最近鄰算法的平均識別率為79.38%。其中高興的識別率很低,只有50%,中性的識別率很高。因為K最鄰近模型主要依賴于有限的相鄰樣本,而不是依賴于判別類別域的方法來確定類別。因此,對于交叉或重疊較多的樣本集合,K最鄰近方法比其他方法更適合。該算法更適合于樣本量較大的類域的自動分類。然而,小樣本更容易出現分類錯誤。

圖7 基于支持向量機的1 582維特征的識別率Fig. 7 1 582 dimensional features recognition rate based on support vector machine

圖8 基于隨機森林的1 582維特征的識別率Fig. 8 1 582 dimensional features recognition rate based on random forest

圖9 基于K最鄰近的1 582維特征的識別率Fig. 9 1 582 dimensional features recognition rate based on k nearest neighbor

圖10為基于支持向量機、隨機森林和K最鄰近3種算法的1 582維特征的識別率比較。綜上所述,使用了數據增強方法的3種算法的中性感情的識別率普遍比較好;而厭惡識別率相對較低。

表1為未使用數據增強和使用數據增強后的識別結果對比。表格縱軸代表參數為:準確率、宏平均、微平均、召回率、f1權重、漢明損失率、kappa系數和杰卡德相似系數等。對比發現,使用了數據增強后的支持向量機和K最鄰近算法識別率提高了。其中,支持向量機算法的準確率提高了2.53%,K最近鄰算法的準確率提高了15.73%。然而,隨機森林的識別結果較差,其漢明損失率增大了13.1%。

圖10 3種算法的1 582維特征的平均識別率Fig. 10 Average recognition rate of 1 582 dimensional features of three algorithms

表1 未使用數據增強和使用后的識別結果對比Table 1 Comparison of unused data enhancement and used

4.2 低級描述特征組的識別結果分析

表2為10組低級特征的識別結果分析,縱軸分別表示了基頻(F0final)、平滑的基頻輪廓線(F0finEnv)、幀間抖動(jitter DDp)、局部抖動(jitter-Local)、梅爾頻帶的對數功率(LogMelFreqBand)、線譜對頻率(lspFreq)、梅爾頻率倒譜系數(pcm_fftMag_mfcc)、響度(pcm_loudness)、震動(shimmer)和最終基頻的可能發聲概率(voicingFinalUnclipped)等。根據表2中數據統計,pcm_fft-Mag_mfcc特征和LogMelFreqBand特征的識別結果較好。其中pcm_fftMag_mfcc特征在3種算法上的精確度分別為74.63%、64.93%和66.42%;LogMelFreqBand特征的精確度分別為84.33%、73.13%和58.21%。面向數據增強方法的語音情感識別方法對LogMelFreqBand特征和pcm_fft-Mag_mfcc特征的識別性能有一定的提高,改善了傳統語音情感識別方法識別率較低的現狀。

表2 10組低級描述特征的識別比較Table 2 Comparison of 10 sets of low-level descriptive features

5 結束語

本文引入了一種基于時頻域的數據增強方法,提出了將數據增強與語音情感識別結合的策略,并著重分析了與情感有關的特征和語音情感識別的關系。實驗結果表明,使用了數據增強方法的支持向量機和K最鄰近分類算法的識別率提高了,而隨機森林的識別效果并不樂觀;此外,改進了傳統語音情感識別數據特征多且無關特征多的問題。

猜你喜歡
分類特征信號
分類算一算
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产97视频在线| 久久精品无码国产一区二区三区| 精品一区二区三区波多野结衣| 欧美一区二区啪啪| 久久久久中文字幕精品视频| 久久人体视频| 一级片一区| 国产喷水视频| 中文字幕在线观| 欧美一级99在线观看国产| 999在线免费视频| 日本欧美视频在线观看| 亚洲成人免费在线| 国产激情无码一区二区APP| 亚洲精品老司机| 午夜毛片免费观看视频 | 欧美a在线看| 本亚洲精品网站| aaa国产一级毛片| 好紧好深好大乳无码中文字幕| 99久久精品久久久久久婷婷| 色婷婷狠狠干| 久久久久久午夜精品| 国产在线一二三区| 欧美不卡视频在线| 国产成人h在线观看网站站| 99热最新在线| 青青草原国产精品啪啪视频| 乱人伦中文视频在线观看免费| 99re这里只有国产中文精品国产精品 | 久久久波多野结衣av一区二区| 亚洲欧美在线精品一区二区| 国产自无码视频在线观看| 91小视频在线| 欧美特黄一免在线观看| 国产精品性| 天天做天天爱夜夜爽毛片毛片| 国产成年无码AⅤ片在线| 亚洲视频影院| 国产麻豆精品手机在线观看| 亚洲午夜久久久精品电影院| 粗大猛烈进出高潮视频无码| 五月天香蕉视频国产亚| 依依成人精品无v国产| 久草视频精品| 1769国产精品视频免费观看| 亚洲va视频| 国产在线一二三区| 伊人91视频| 亚洲电影天堂在线国语对白| 亚洲成a人在线观看| 秘书高跟黑色丝袜国产91在线| 中文字幕亚洲电影| 国产一区自拍视频| 久久综合干| 国产黄在线免费观看| 国产在线精品美女观看| 久久女人网| 精品国产电影久久九九| 欧美综合激情| 91精品国产情侣高潮露脸| 中国一级特黄视频| 国产精品永久免费嫩草研究院| 亚洲精品免费网站| 波多野结衣视频网站| 欧洲成人免费视频| 欧美日韩中文字幕在线| 久久大香香蕉国产免费网站| av色爱 天堂网| 国产真实乱了在线播放| 欧美a在线| 精品国产免费第一区二区三区日韩| 日韩午夜福利在线观看| 色精品视频| 国产精品伦视频观看免费| 67194在线午夜亚洲| 亚洲愉拍一区二区精品| 成年看免费观看视频拍拍| 国产屁屁影院| 国内精品久久久久久久久久影视| 欧洲亚洲欧美国产日本高清| 亚洲无码高清免费视频亚洲|